Skip to main content
 首页 » 操作系统 » linux系统

大数据技术与Hadoop之间的关系学佳澳告诉你(转载)

  在现如今,随着面对当前企业级用户对于自建数据中心兴趣的不断扩大,以及大数据正在以惊人的速度增长几乎触及各行各业,而大数据是一种新兴的数据挖掘技术,它正在让数据处理和分析变得更便宜更快速。

  大数据技术一旦进入超级计算时代,很快便可应用于普通企业,在遍地开花的过程中,它将改变许多行业业务经营的模式。但是很多人对大数据存在误解,下面就来缕一缕大数据与Hadoop之间的关系。

  我们都听过这个预测:到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB。根据IDC数据显示,截止到2010年,这个数字已经达到了120万PB,或1.2ZB。如果把所有这些数据都存入DVD光盘,光盘高度将等同于从地球到月球的一个来回也就是大约480,000英里。

  走进大数据,一种新兴的数据挖掘技术,它正在让数据处理和分析变得更便宜更快速。大数据技术一旦进入超级计算时代,很快便可应用于普通企业,在遍地开花的过程中,它将改变许多行业业务经营的模式。在计算机世界里,大数据被定义为一种使用非传统的数据过滤工具,对大量有序或无序数据集合进行的挖掘过程,它包括但不仅限于分布式计算(Hadoop)。

  大数据已经站在了数据存储宣传的风口浪尖,也存在着大量不确定因素,这点上非常像“云”。我们请教了一些分析人士和大数据爱好者,请他们解释一下大数据究竟是什么,以及它对于未来数据存储的意义。

  大数据与开源的关系

  “很多人认为Hadoop和大数据基本上是一个意思。这是错误的,”Olofson说。并解释道:Teradata,MySQL和“智能聚合技术”的某些安装启用都用不到Hadoop,但它们也可以被认为是大数据。

  Hadoop是一种用于大数据开发工程师的应用程序,因为它是建立在MapReduce基础上的,所以引起了极大的关注。(MapReduce是一种用于超级计算的普通方法,之后经过了主要由Google资助的一个项目的优化,因此被简化并变得考究了)Hadoop是几个紧密关联的Apache项目组成的混合体的主要安装启用程序,其中包括MapReduce环境中的HBase数据库。

  所以大家要注意这一点,千万不要把大数据与Hadoop画上等号哦!

评论列表暂无评论
发表评论
微信