你说的应该是大数据平台中的主流框架,我列举一下:
(一)Hadoop生态圈
HDFS:分布式文件系统,解决大数据的存储Yarn(MapReduce):分布式计算框架,解决大数据的计算Hive:Hadoop中的数据分析引擎,支持SQLHBase:基于HDFS的NoSQL数据库ZooKeeper:分布式协调服务,可以用于实现HA(高可用架构)其他(二)Spark生态圈Spark Core:Spark的核心,用于离线计算Spark SQL:Spark的数据分析引擎,支持SQL语句Spark Streaming:Spark的流式计算引擎,但本质依然是离线计算MLlib:机器学习框架(三)Flink生态圈Flink DataSet:Flink批处理(离线计算)APIFlink DataStream:Flink流处理(实时计算)APIFlink Table&SQL:Flink的数据分析引擎,支持SQL语句MLlib:机器学习框架