|
Pentaho编排Apache火花工作补充道,灰鸽子使用教程,灰鸽子远程控制软件
Pentaho宣布本土Pentaho数据集成的集成(PDI)和Apache火花,使火花的编制工作。
Pentaho实验室在过去的几年中,Pentaho业务分析专家的研究机构,制定各种大数据映射用例组织投产的努力提供大数据的蓝图,如果你将一个大数据堆栈。最近,Pentaho实验室与Apache火花,奉行相同的路径,今天宣布本机Pentaho数据集成的集成(PDI)和Apache火花,这将使火花的编制工作。
我不是对技术持怀疑的态度,但我怀疑很多的炒作。还有一些人说一些火花,是非常不现实的。
PDI本质上是一个便携式的ETL、数据机可以部署为一个独立的Pentaho集群或在一个Hadoop集群通过MapReduce或纱线。周二的声明补充道火花,使更快的大数据ETL处理。ETL设计师可以设计、测试和调优在PDI ETL工作使用图形设计环境,然后在引发规模运行它们。
[相关:本地数据分析涉及到MongoDB]
Apache火花是一个集群计算框架设计之上的Hadoop分布式文件系统(HDFS)Hadoop MapReduce的地方。
支持内存集群计算,火花可以实现性能比Hadoop MapReduce快100倍的内存或磁盘上的快10倍。
火花可以是一个优秀的计算数据处理工作流引擎,高级分析、流处理和业务智能/视觉分析。
但火花还年轻——它只有v1.0发布12个月前,它仍然是非常棘手的,远程控制软件。
首先,Pentaho联合创始人兼首席技术官詹姆斯·迪克森说,火花的用例在野外生产的几乎都是数据科学的用例。
“这就是它——一个单用户数据的科学工具,”迪克森说。“这不是为流设计,但引发流。这不是专为SQL,但是有火花SQL”。
内存管理与火花是特别困难的,他说:灰鸽子教程,灰鸽子使用教程。
“火花的用户,你将知道你的数据量是否会适合记忆,”他说。“有四个不同的记忆模式,你必须选择正确的一个。”
(相关:10热hadoop初创公司看)
如果你添加多个用户,它变得更加复杂。然后你需要了解每个人的内存占用,同时希望利用火花。
也就是说,火花SQL是数量级的速度比蜂巢,迪克森说,甚至有重大的承诺而黑斑羚。
“有一个巨大的承诺,”他说。“我不怀疑的技术,但我怀疑很多的炒作。还有一些人说一些火花,是非常不现实的。”
迪克森指出,Pentaho实验室一直在尝试可能引发用例基于大数据的蓝图和规模企业市场机会引发过去两年。Hadoop市场,Pentaho用例合并在过去的几年中三大类:数据仓库优化,精简数据源到数据炼油厂和混合操作数据源和大数据来源来获取客户的360度视图。
“第一Hadoop的5至7年的时间,我们没有这些模式,”他说。“现在又掺入了火花,我们又回到了原地。(作为一个行业)我们不确定这项技术可以用于什么,它应该是做什么用的。”
但这就是Pentaho实验室的原因存在,迪克森说。现在,Pentaho数据集成为Apache火花有Pentaho实验室。Pentaho计划通常可以在2015年6月。 |
|