熟知排名算法,快速提升网站转化率
HDFS架构。首先,管理网络上多台计算机的存储的文件系统称为分布式文件系统。HDFS(Hadoop分布式文件系统)就是其中之一,并且是专门为诸如MapReduce之类的分布式编程框架开发的文件系统,用于执行大规模数据处理。HDFS使用服务器/客户端架构,每个HDFS群集主要由两部分组成,一个是NameNode,另一个是DataNode。“名称”节点主要控制HDFS文件系统的名称空间,并维护存储在整个集群中的文件系统树。与元数据有关的所有服务也由名称节点进程提供,因此它们也称为元数据节点。“名称”节点记录文件名和拆分文件的块列表之间的映射关系,以及块和实际系统之间的对应关系。“名称”节点以快照的形式在本地文件系统中存储映射关系,并在每次系统重新启动时在本地加载映像,并获取文件的存储地址。在大多数情况下,名称节点仅被动地接受来自数据节点的请求,执行其任务并更新。数据节点是实际存储文件的节点,通常一个物理系统对应一个数据节点。通常,不执行数据节点的磁盘阵列备份,因为文件被设计为备份到多个数据节点,而不是一个数据节点上的多个文件。HDFS数据块备份和分发策略存储一系列数据块,每个文件都在其中划分。除最后一个分段数据块外,分段成文件的所有其他数据块大小相同。为了提高容错能力,通常以多份副本备份数据块,同时用户也可以自行配置数据块的大小和备份副本的数量。基于HDFS的应用程序可以通过配置文件更改参数,创建数据备份时,用户可以指定块备份的数量或稍后对其进行修改,但是在HDFS中,每个文件一次写入。名称节点会定期在每个数据节点上执行心跳检查和数据库快速状态报告,以确定哪些数据节点当前可用以及哪些数据文件已存储。通常,如果很长时间未收到数据节点的心跳,则系统会使它无效并重新启动该节点以恢复数据从而重新加入系统。
上一篇:公司网站制作优化处理