加入收藏 | 设为首页 | 会员中心 | 我要投稿 财气旺网 - 财气网 (https://www.caiqiwang.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

值得收藏!带你学习大数据的5个框架

发布时间:2022-11-06 17:30:39 所属栏目:大数据 来源:未知
导读: 想学习大数据开发的你,但是又不确定从哪里开始,也不确定要学习哪个大数据框架。这里,给大家分享2022年最值得学习的5个大数据框架。以下这些框架中的每一个都提供了不同的功能,对于任何

想学习大数据开发的你,但是又不确定从哪里开始,也不确定要学习哪个大数据框架。这里,给大家分享2022年最值得学习的5个大数据框架。以下这些框架中的每一个都提供了不同的功能,对于任何大数据程序员来说都是必学的。

一、Hadoop大数据框架

Hadoop是基于JAVA语言开发的Apache开源框架,以分布式文件系统 HDFS (Hadoop Distributed File System)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop,为用户提供了系统底层透明的分布式基础构架。

用户可以利用Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。

大数据爬虫框架_大数据并行计算框架_大数据计算框架

二、Storm大数据框架

Storm由Twitter开源并且托管在GitHub上的,Storm大数据框架与Hadoop的批处理模式不同,Storm采用的是流计算框架。但Storm与Hadoop相似之处是也提出了Spout和Bolt两个计算角色。

举个通俗的例子来说明Storm和Hadoop的不同之处,Hadoop类似水桶,而Storm类似水龙头,想要获取水,Hadoop是一桶一桶的去扛回来,而Storm只需要打开水龙头就行了。Storm流计算框架使用的是内存,延迟上具有优势,但是不会持久化数据。Storm对Java、Ruby、Python等语言都有很好的支持。

大数据并行计算框架_大数据爬虫框架_大数据计算框架

三、Samza大数据框架

Samza是一种与Apache Kafka消息系统紧密绑定的流处理框架。处理数据流时,会分别按次处理每条收到的消息。

Samza的流单位既不是元组,也不是Dstream,而是一条条消息。在Samza中,数据流被切分开来,每个部分都由一组只读消息的有序数列构成,而这些消息每条都有一个特定的ID(offset)。

该系统还支持批量处理,即逐次处理同一个数据流分区的多条消息。Samza的执行与数据流模块都是可插拔式的,尽管Samza的特色是依赖Hadoop的Yarn(另一种资源调度器)和Apache Kafka。

四、Spark大数据框架

Spark大数据框架是一种混合式的计算框架,Spark自带实时流处理工具;Spark也可以与Hadoop集成代替MapReduce;甚至Spark还可以单独拿出来借助HDFS等分布式存储系统部署集群。

Spark的运算速度与Storm相似,Spark的速度大约为Hadoop的一百倍,而Spark的成本要比Hadoop低,但是Spark目前还没有Hadoop拥有上万级别的集群,所以现阶段将Spark和Hadoop搭配起来使用是比较不错的方案。

五、Flink大数据框架

Apache Flink是另一个强大的流式和批处理大数据处理框架大数据计算框架,它是Hadoop和Spark的继承者,是Apache Storm的下一代大数据引擎。

打个比方,如果Hadoop是2G,Spark是3G,那么Apache Flink是大数据流处理框架中的4G。

Spark并不是一个真正的流处理框架,它只是一个权宜之计,但Apache Flink是一个真正的流引擎,它增加了执行批处理、图形、表处理以及运行机器学习算法的能力。

市场上对Flink的需求已经在增加。许多著名的公司,阿里巴巴、优步已经开始使用Apache Flink来处理实时大数据,还有其他很多公司正在加入使用。

这些大数据框架功能强大,需求十分旺盛,学习这些框架可以快速提高你的大数据开发技能,从而找到心仪的工作。

(编辑:财气旺网 - 财气网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!