加入收藏 | 设为首页 | 会员中心 | 我要投稿 财气旺网 - 财气网 (https://www.caiqiwang.com/)- AI开发硬件、专属主机、建站、CDN、云容器引擎!
当前位置: 首页 > 大数据 > 正文

大数据如何存储,Hadoop大数据储存系统解析

发布时间:2023-05-24 02:08:29 所属栏目:大数据 来源:转载
导读: 大数据海量、巨大,传统的数据库不足以存储这么多的数据量,那么大数据怎么储存呢? 大数据,作为近两三年的热点趋势,受到了不小的关注,以大数据来说大数据存储系统,解决大数据问题的

大数据海量、巨大,传统的数据库不足以存储这么多的数据量,那么大数据怎么储存呢? 大数据,作为近两三年的热点趋势,受到了不小的关注,以大数据来说大数据存储系统,解决大数据问题的第一步,是解决大数据存储和计算等问题。

以Hadoop为例,作为目前主流应用较多的数据处理系统之一,将单台机器无法负载的海量数据存储和计算任务分配到计算机集群当中去执行,所以有了分布式存储方案,用来实现大数据存储。

在大数据平台框架当中,Hadoop凭借相对全面且成熟的技术体系,成为企业的首选。大数据存储是大数据处理的底层支持,只有实现稳定灵活的存储,下一步才能进行高效的数据处理。而企业在搭建大数据存储系统时,基于Hadoop主要通过HBASE来实现。

HBASE,也就是DataBase on Hadoop,基于Hadoop框架的分布式架构,形成了分布式文件存储HBASE。HBase是面向列的开源数据库,基于Hadoop自身的分布式文件系统HDFS,能够实现更好的大数据存储性能支持。

HBASE的出现,是因为存储并处理大型的数据需求,在多台机器上搭建起大规模结构化存储集群,仅通过普通的硬件配置,就能实现PB级别的数据存储和处理,并且通过Hadoop集群,在下一步的大数据分析和处理上,也能实现更好的基础支持。

Hbase在大数据存储上具有一些显著的特征——

面向列:Hbase是面向列的存储和权限控制,并支持独立索引。列式存储,能大大减少数据查询时需要读取的数据量,整体上提升数据存储的效率。

高可靠性:Hbase的WAL机制,保证数据写入时不会因集群异常导致数据丢失,而Replication机制保证了数据不会丢失或者损毁。并且,因为Hbase底层使用HDFS,HDFS本身也有备份,所以在数据存储上更加可靠。

高性能:Hbase底层的LSM数据结构和Rowkey有序排列等架构上的独特设计,使得Hbase具有非常高的写入性能。在Hadoop集群当中,能够实现高吞吐的数据访问。

关于HBASE大数据存储系统,首先我们要理解三个基本概念:Zookeeper、HMaster、Region Server。

Zookeeper可以看做是HBASE的协调工具,保证任何时候,集群中只有一个HMaster;实时监控HRegion Server的上线和下线信息,并实时通知给HMaster;存储HBase的schema和table元数据等。

HMaster负责Table和Region的管理工作,并且在Zookeeper的监管下,只允许一个Master运行。管理HRegionServer的负载均衡,调整Region分布;Region Split后,负责新Region的分布;在HRegionServer停机后,负责失效HRegionServer上Region迁移工作。

Region Server,主要负责监控维护Region,处理对这些Region的响应、请求;负责切分在运行过程中变得过大的Region。

这三者在HBASE的运行当中,共同配合完成HBASE发生的需求任务,那么具体HBASE怎么实现数据写入和读取的呢?

HBase写数据流程:

Client先访问zookeeper,从meta表获取相应region信息,然后找到meta表的数据;根据namespace、表名和rowkey根据meta表的数据找到写入数据对应的region信息;找到对应的regionserver;把数据分别写到HLog和MemStore上一份。

MemStore达到一个阈值后则把数据刷成一个StoreFile文件。(若MemStore中的数据有丢失,则可以总HLog上恢复)

Hbase读数据流程:

Client先访问zookeeper,从meta表读取region的位置,然后读取meta表中的数据。meta中又存储了用户表的region信息;

根据namespace、表名和rowkey在meta表中找到对应的region信息;

找到这个region对应的regionserver;

查找对应的region;

先从MemStore找数据,如果没有,再到StoreFile上读(为了读取的效率)。

大数据时代各种技术日新月异,想要保持竞争力就必须得不断地学习。写这些文章的目的是希望能帮到一些人了解学习大数据相关知识 。加米谷大数据,大数据人才培养机构,喜欢的同学可关注下,每天花一点时间学习,长期积累总是会有收获的。返回搜狐,查看更多

(编辑:财气旺网 - 财气网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!