Skip to main content
 首页 » 操作系统 » linux系统

在hadoop和spark之间如何取舍?

其实这两个工具之间一般并不存在取舍关系。

业界一般会结合试用这两个工具。

hadoop基于集群存储和分析调度的工具包,大家常用的有hdfs,mapreduce,yarn,属于平台基础设施,主要负责海量数据存储和并行计算调度。

而spark是个大数据快速分析工具,一般实在hadoop基础上运行(虽然也可独立运行),通过hadoop的yarn调度,实现海量数据的流式处理。

另外,spark也包含一个机器学习的库mllib,用来进行机器学习。

评论列表暂无评论
发表评论
微信