Hadoop学习笔记-hdfs

博主： 4HET
发布时间：2021 年 10 月 29 日
105 次浏览
暂无评论
6570字数
分类： Hadoop

1.hdfs概述

1.介绍

在现代的企业环境中，单机容量往往无法存储大量数据。统一管理分布在集群上的文件系统统称为分布式文件系统。

HDFS（Hadoop Distributed File System）是Apache Hadoop项目的一个子项目。Hadoop非常适合于存储大型数据（比如TB和PB），其就是使用HDFS作为存储系统。HDFS使用多台计算机存储文件，并且提供统一的访问接口，像是访问一个普通文件系统一样使用分布式文件系统。

2 历史

2. HDFS应用场景

1. 适合的应用场景

2. 不适合的应用场景

3. HDFS的架构

HDFS是一个主/从（Master/Slave）体系结构

HDFS由四部分组成：

HDFS Client（HDFS客户端）
NameNode（HDFS主节点）
DataNode（从节点）
Secondary NameNode（对namenode做一些辅助性管理）

Client：就是客户端
NameNode：就是master，它是一个主管、管理者
DataNode：就是Slave。NameNode下达命令，DataNode执行实际操作
Secondary NameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务

4. NameNode和DataNode

1. Namenode作用

NameNode在内存中保存着整个文件系统的名称、空间和文件数据块的地址映射
整个HDFS可存储的文件数受限于NameNode的内存大小

2. DataNode作用

提供真实文件数据的存储服务

DataNode以数据块的形式存储HDFS文件
DataNode响应HDFS客户端读写请求
DataNode周期性向NameNode汇报心跳信息
DataNode周期性向NameNode汇报数据块信息
DataNode周期性向NameNode汇报缓存数据块信息

5. HDFS的副本机制和机架感知

1. HDFS文件副本机制

一个数据块一般放3个副本，在hdfs-site.xml中可以设置

2. 机架（rack）感知

HDFS分布式文件系统的内部有一个副本存放策略：以默认的副本数=3为例：

如果客户端和当前主机在同一个机架里面，会在客户端所在机架挑选一台主机，存放block作为第一个副本；然后在同一个机架上挑选另一台主机存放第二个副本；第三个会在本机架以外再挑选一个机架和服务器，存放第三个副本

6. hdfs的命令行使用

hadoop:hadoop前一个是指的用户名，后一个是所属用户组

7.hdfs的高级使用命令

HDFS文件限额配置

数量限额
空间大小限额

　　注意：在给空间设置大小时，数字必须是一个block_size的大小乘以3（1283=384），所以至少是384M；129M的文件需要768M，因为129M会被切成两个block，每个block又需要三个副本，1286=768

hdfs的安全模式

8. hdfs基准测试

实际生产环境当中，hadoop的环境搭建完成之后，第一件事情就是进行压力测试，测试我们的集群的读取和写入速度，测试我们的网络带宽是否足够一些基准测试

测试写入速度

测试读取速度

清除测试数据

清除的是hdfs上benchmarks的内容

9. hdfs的文件写入过程

客户请求上传文件
namenode检测上传权限，看看文件是否已存在
namenode给client发送信息，可以上传
将文件切分block，请求上传blk1
根据集群dn上的block信息和机架感知，选出可以上传的三个主机
返回datanode列表
client和datanode之间建立管道，dn之间建立管道
client向dn传递数据，传递的单位：packet（64k）
datanode收到packet后会进行缓存
发送应答ack，告诉已收到（3->2, 2->1, 1->client）
回到4，上传blk2

10. hdfs文件的读取过程

client想namenode请求下载文件
namenode权限检查，文件block列表检查，检查那个datanode上有对应的blk，选出每一个block对应的主机列表
返回block主机列表
client和对应的主机建立管道
开始数据的读取，读取的单位：packet（64k），三个读操作可以并行进行
将block进行合并，合并成一个完整的文件

11. HDFS的元数据辅助管理

1.

fsimage是NameNode的完整的镜像，如果每次都加载到内存生成树装拓扑结构，这是非常耗内存和cpu，所以一般开始时对NameNode的操作都放在edits中
fsimage内容包含了NameNode管理下的所有DataNode文件及文件block及block所在的DataNide的元数据信息
随着edits内容增大，就需要在一定时间点和faimage合并

2. SecondaryNameNode如何辅助管理fsimage与edits文件

SecondaryNameNode定期合并fsimage和edits，把edits控制在一个范围内

触发条件（可以通过core-site.xml设置）：

时间：1小时
文件大小：64M

合并完会将原来的日志文件清空，得到新的fsimage，替换旧的fsimage

12. HDFS的高可用机制

组件介绍

　　ZKfailoverController
　　　　是基于zookeeper

最后修改：2021 年 11 月 26 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

孙女士
666
孙女士
牛马，偷看全班成绩
孙女士
%3Cscript%3Ealert(%221%22)%3C%2...
孙女士
alert("1")alert("1")ALERT("1")&...
lhz
tql

Hadoop学习笔记-hdfs

4HET • 2021 年 10 月 29 日

<h3>1.hdfs概述</h3><h3>1.介绍</h3><p>在现代的企业环境中，单机容量往往无法存储大量数据。统一管理分布在集群上的文件系统统称为分布式文件系统。</p><p>HDFS（Hadoop Distributed File System）是Apache Hadoop项目的一个子项目。Hadoop非常适合于存储大型数据（比如TB和PB），其就是使用HDFS作为存储系统。HDFS使用多台计算机存储文件，并且提供统一的访问接口，像是访问一个普通文件系统一样使用分布式文件系统。</p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110121502393.png" alt="image-20211012150255295" title="image-20211012150255295"style=""></p><h4>2 历史</h4><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110121459301.png" alt="image-20211012145902165" title="image-20211012145902165"style=""></p><h3>2. HDFS应用场景</h3><h4>1. 适合的应用场景</h4><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110121501195.png" alt="image-20211012150111085" title="image-20211012150111085"style=""></p><h4>2. 不适合的应用场景</h4><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110121505662.png" alt="image-20211012150553545" title="image-20211012150553545"style=""></p><h3>3. HDFS的架构</h3><p>HDFS是一个主/从（Master/Slave）体系结构</p><p>HDFS由四部分组成：</p><ol><li>HDFS Client（HDFS客户端）</li><li>NameNode（HDFS主节点）</li><li>DataNode（从节点）</li><li>Secondary NameNode（对namenode做一些辅助性管理）</li></ol><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110121511231.png" alt="image-20211012151116121" title="image-20211012151116121"style=""></p><ol><li><p>Client：就是客户端</p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110121514682.png" alt="image-20211012151411609" title="image-20211012151411609"style=""></p></li><li><p>NameNode：就是master，它是一个主管、管理者</p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110121527123.png" alt="image-20211012152756059" title="image-20211012152756059"style=""></p></li><li><p>DataNode：就是Slave。NameNode下达命令，DataNode执行实际操作</p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110131415229.png" alt="image-20211013141541104" title="image-20211013141541104"style=""></p></li><li><p>Secondary NameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务</p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110131418905.png" alt="image-20211013141828748" title="image-20211013141828748"style=""></p></li></ol><h3>4. NameNode和DataNode</h3><h4>1. Namenode作用</h4><ul><li>NameNode在内存中保存着整个文件系统的名称、空间和文件数据块的地址映射</li><li>整个HDFS可存储的文件数受限于NameNode的内存大小</li></ul><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110131427512.png" alt="image-20211013142717151" title="image-20211013142717151"style=""></p><h4>2. DataNode作用</h4><p>提供真实文件数据的存储服务</p><ol><li>DataNode以数据块的形式存储HDFS文件</li><li>DataNode响应HDFS客户端读写请求</li><li>DataNode周期性向NameNode汇报心跳信息</li><li>DataNode周期性向NameNode汇报数据块信息</li><li>DataNode周期性向NameNode汇报缓存数据块信息</li></ol><h3>5. HDFS的副本机制和机架感知</h3><h4>1. HDFS文件副本机制</h4><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110131506846.png" alt="image-20211013150644596" title="image-20211013150644596"style=""></p><p>一个数据块一般放3个副本，在hdfs-site.xml中可以设置</p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110201306449.png" alt="image-20211020130646363" title="image-20211020130646363"style=""></p><h4>2. 机架（rack）感知</h4><p>HDFS分布式文件系统的内部有一个副本存放策略：以默认的副本数=3为例：</p><p>如果客户端和当前主机在同一个机架里面，会在客户端所在机架挑选一台主机，存放block作为第一个副本；然后在同一个机架上挑选另一台主机存放第二个副本；第三个会在本机架以外再挑选一个机架和服务器，存放第三个副本</p><h3>6. hdfs的命令行使用</h3><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110201322064.png" alt="image-20211020132248968" title="image-20211020132248968"style=""></p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110201330373.png" alt="image-20211020133025293" title="image-20211020133025293"style=""></p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110201334194.png" alt="image-20211020133411123" title="image-20211020133411123"style=""></p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110201336883.png" alt="image-20211020133602788" title="image-20211020133602788"style=""></p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110201337991.png" alt="image-20211020133708906" title="image-20211020133708906"style=""></p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110260832631.png" alt="image-20211026083251498" title="image-20211026083251498"style=""></p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110260835884.png" alt="image-20211026083517800" title="image-20211026083517800"style=""></p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110260836337.png" alt="image-20211026083622244" title="image-20211026083622244"style=""></p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110260838422.png" alt="image-20211026083858330" title="image-20211026083858330"style=""></p><ul><li>hadoop:hadoop前一个是指的用户名，后一个是所属用户组</li></ul><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110260909491.png" alt="image-20211026090933423" title="image-20211026090933423"style=""></p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110260911677.png" alt="image-20211026091143620" title="image-20211026091143620"style=""></p><h3>7.hdfs的高级使用命令</h3><p>HDFS文件限额配置</p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110260919522.png" alt="image-20211026091949408" title="image-20211026091949408"style=""></p><ol><li><p>数量限额</p><p><img src="https://gitee.com/s4het/picgo/raw/master/img/202110260920780.png" alt="image-20211026092018702" title="image-20211026092018702"style=""></p></li><li><p>空间大小限额</p><p><img src="http://47.98.116.174/usr/uploads/2021/11/2079449962.png" alt="56328-flzph6yvszd.png" title="56328-flzph6yvszd.png"style=""><br>　　<img src="http://47.98.116.174/usr/uploads/2021/11/3680678498.png" alt="43943-0tcgvlf5zo69.png" title="43943-0tcgvlf5zo69.png"style=""></p></li></ol><p>　　注意：在给空间设置大小时，数字必须是一个block_size的大小乘以3（128<em>3=384），所以至少是384M；129M的文件需要768M，因为129M会被切成两个block，每个block又需要三个副本，128</em>6=768</p><ol start="3"><li>hdfs的安全模式</li></ol><p><img src="http://47.98.116.174/usr/uploads/2021/11/480123127.png" alt="20998-1qzwdgivly5.png" title="20998-1qzwdgivly5.png"style=""></p><p><img src="http://47.98.116.174/usr/uploads/2021/11/953477686.png" alt="48317-ia16qm2f6x9.png" title="48317-ia16qm2f6x9.png"style=""></p><h3>8. hdfs基准测试</h3><p>实际生产环境当中，hadoop的环境搭建完成之后，第一件事情就是进行压力测试，测试我们的集群的读取和写入速度，测试我们的网络带宽是否足够一些基准测试</p><ol><li>测试写入速度</li></ol><p><img src="http://47.98.116.174/usr/uploads/2021/11/2961932090.png" alt="43154-f5g31p9tith.png" title="43154-f5g31p9tith.png"style=""></p><p><img src="http://47.98.116.174/usr/uploads/2021/11/1308827886.png" alt="28317-8e9hcyoqpnh.png" title="28317-8e9hcyoqpnh.png"style=""></p><p><img src="http://47.98.116.174/usr/uploads/2021/11/3829026436.png" alt="17452-8k7805em23p.png" title="17452-8k7805em23p.png"style=""></p><ol start="2"><li>测试读取速度</li></ol><p><img src="http://47.98.116.174/usr/uploads/2021/11/352756546.png" alt="19532-8ud5zk0hzqw.png" title="19532-8ud5zk0hzqw.png"style=""></p><p><img src="http://47.98.116.174/usr/uploads/2021/11/3293000609.png" alt="48881-w1sat8djzym.png" title="48881-w1sat8djzym.png"style=""></p><p><img src="http://47.98.116.174/usr/uploads/2021/11/4003654838.png" alt="18488-nej4d12yfue.png" title="18488-nej4d12yfue.png"style=""></p><ol start="3"><li>清除测试数据</li></ol><p><img src="http://47.98.116.174/usr/uploads/2021/11/2446918438.png" alt="44481-spwcgoorvi.png" title="44481-spwcgoorvi.png"style=""></p><p>清除的是hdfs上benchmarks的内容</p><h3>9. hdfs的文件写入过程</h3><ol><li>客户请求上传文件</li><li>namenode检测上传权限，看看文件是否已存在</li><li>namenode给client发送信息，可以上传</li><li>将文件切分block，请求上传blk1</li><li>根据集群dn上的block信息和机架感知，选出可以上传的三个主机</li><li>返回datanode列表</li><li>client和datanode之间建立管道，dn之间建立管道</li><li>client向dn传递数据，传递的单位：packet（64k）</li><li>datanode收到packet后会进行缓存</li><li>发送应答ack，告诉已收到（3-&gt;2, 2-&gt;1, 1-&gt;client）</li><li>回到4，上传blk2</li></ol><p><img src="http://47.98.116.174/usr/uploads/2021/11/2749372834.png" alt="85195-gihbxduhfok.png" title="85195-gihbxduhfok.png"style=""></p><h3>10. hdfs文件的读取过程</h3><ol><li>client想namenode请求下载文件</li><li>namenode权限检查，文件block列表检查，检查那个datanode上有对应的blk，选出每一个block对应的主机列表</li><li>返回block主机列表</li><li>client和对应的主机建立管道</li><li>开始数据的读取，读取的单位：packet（64k），三个读操作可以并行进行</li><li>将block进行合并，合并成一个完整的文件</li></ol><p><img src="http://47.98.116.174/usr/uploads/2021/11/3144579485.png" alt="43088-cy9tbr6xfnb.png" title="43088-cy9tbr6xfnb.png"style=""></p><h3>11. HDFS的元数据辅助管理</h3><h4>1. <img src="http://47.98.116.174/usr/uploads/2021/11/617859059.png" alt="29031-09ayewkw1o4.png" title="29031-09ayewkw1o4.png"style=""></h4><ul><li>fsimage是NameNode的完整的镜像，如果每次都加载到内存生成树装拓扑结构，这是非常耗内存和cpu，所以一般开始时对NameNode的操作都放在edits中</li><li>fsimage内容包含了NameNode管理下的所有DataNode文件及文件block及block所在的DataNide的元数据信息</li><li>随着edits内容增大，就需要在一定时间点和faimage合并</li></ul><h4>2. SecondaryNameNode如何辅助管理fsimage与edits文件</h4><p>SecondaryNameNode定期合并fsimage和edits，把edits控制在一个范围内</p><p>触发条件（可以通过core-site.xml设置）：</p><ol><li>时间：1小时</li><li>文件大小：64M<br><img src="http://47.98.116.174/usr/uploads/2021/11/748781024.png" alt="04438-1ds6k2f9kc4.png" title="04438-1ds6k2f9kc4.png"style=""></li></ol><p>合并完会将原来的日志文件清空，得到新的fsimage，替换旧的fsimage</p><p><img src="http://47.98.116.174/usr/uploads/2021/11/2918599968.png" alt="57778-wnytljgopjr.png" title="57778-wnytljgopjr.png"style=""></p><h3>12. HDFS的高可用机制</h3><p><img src="http://47.98.116.174/usr/uploads/2021/11/3220011181.png" alt="03045-hff6rwu1b9m.png" title="03045-hff6rwu1b9m.png"style=""></p><ol><li>组件介绍</li></ol><p>　　ZKfailoverController<br>　　　　是基于zookeeper</p>

Hadoop学习笔记-hdfs

1.hdfs概述

1.介绍

2 历史

2. HDFS应用场景

1. 适合的应用场景

2. 不适合的应用场景

3. HDFS的架构

4. NameNode和DataNode

1. Namenode作用

2. DataNode作用

5. HDFS的副本机制和机架感知

1. HDFS文件副本机制

2. 机架（rack）感知

6. hdfs的命令行使用

7.hdfs的高级使用命令

8. hdfs基准测试

9. hdfs的文件写入过程

10. hdfs文件的读取过程

11. HDFS的元数据辅助管理

1.

2. SecondaryNameNode如何辅助管理fsimage与edits文件

12. HDFS的高可用机制

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

计算机网络ppt

python正则表达式

JSON数据与Java对象的转换

欢迎使用 Typecho

关于服务器被攻击导致半年的博文以及图片消失

Hadoop学习笔记-hive

对Vue的computed()的理解

Educational Codeforces Round 124 (Rated for Div. 2)

欢迎使用 Typecho

CSS

Hadoop学习笔记-hdfs

1.hdfs概述

1.介绍

2 历史

2. HDFS应用场景

1. 适合的应用场景

2. 不适合的应用场景

3. HDFS的架构

4. NameNode和DataNode

1. Namenode作用

2. DataNode作用

5. HDFS的副本机制和机架感知

1. HDFS文件副本机制

2. 机架（rack）感知

6. hdfs的命令行使用

7.hdfs的高级使用命令

8. hdfs基准测试

9. hdfs的文件写入过程

10. hdfs文件的读取过程

11. HDFS的元数据辅助管理

1.

2. SecondaryNameNode如何辅助管理fsimage与edits文件

12. HDFS的高可用机制

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

Hadoop学习笔记-hdfs

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款