admin 发表于 2015-12-14 12:50:09

五件事你需要知道Hadoop大数据 灰鸽子下载,远程控制软件

五件事你需要知道Hadoop大数据灰鸽子下载,远程控制软件
他们有时被看作竞争对手在大数据领域,但越来越多的人认为他们更好的在一起

偷听任何讨论大数据,你可能会听到提及Apache Hadoop或火花。这是一个短暂的看他们做什么,以及他们如何比较。
1:他们做不同的事情。Hadoop和Apache火花都是大数据框架,但他们并不真正服务于同样的目的。
Hadoop是一个分布式数据基础设施:分配大量的数据集合一个商品服务器集群内跨多个节点,这意味着您不需要购买昂贵的定制和维护硬件。
它也索引和数据跟踪,使大数据处理和分析更有效地比是可能的。
火花,另一方面,是一个数据处理工具,作用于这些分布式数据收集;它不做分布式存储。
2:你可以使用一个没有。Hadoop不仅包括存储组件,称为Hadoop分布式文件系统,也称为MapReduce的处理组件。
所以你不需要火花来完成处理。相反地,您还可以使用没有Hadoop的火花。
火花不跟自己的文件管理系统,然而,这需要结合——如果不是HDFS,另一个基于云的数据平台。
火花是专为Hadoop,然而,很多同意他们更好的在一起。
3:火花是更快。火花通常比MapReduce快得多,因为它处理数据的方式。
在MapReduce操作步骤,引发对整个数据集一举。“MapReduce工作流程是这样的:从集群读取数据。
执行一个操作,将结果写入集群,从集群中,读取更新的数据执行下一步操作,写未来结果到集群,等等,”柯克承担解释说,主要数据科学家博思艾伦。火花,另一方面,完成完整的数据分析操作内存和接近实时的:“从集群中,读取数据执行所有必要的分析操作,将结果写入集群,完成,“说承担。
火花可高达10倍的速度比MapReduce的批处理和内存分析快100倍,他说。
4:你可能不需要引发的速度。MapReduce的处理风格可以很好如果你的数据操作和报告需求大多是静态的,您可以等待批处理模式处理。但如果你需要在流数据做分析,从传感器在一个工厂,或有需要多个操作的应用程序,你可能想和火花。
例如,大多数机器学习算法需要多个操作灰鸽子远程控制软件,灰鸽子。
常见的应用引发包括实时营销活动,在线产品推荐、网络安全分析和机器的日志监控。
5:故障恢复:不同,但还好。Hadoop系统故障或失败的天然抵抗力,因为每个操作后数据写入磁盘,但引发类似的内置弹性的事实,其数据对象存储在一个叫做弹性分布式数据集分布在集群的数据。“这些数据对象可以存储在内存或磁盘,和抽样提供全面复苏从错误或失败,”指出承担。

你若不离〃一生 发表于 2015-12-14 12:50:20

每次都这么轻松的抢到沙发也是一种无奈:$
页: [1]
查看完整版本: 五件事你需要知道Hadoop大数据 灰鸽子下载,远程控制软件