|
USENIX研究者控制Hadoop的性能 远程控制软件,灰鸽子下载
建模Hadoop就业会很棘手,因为所有的运动部件,研究人员说
现在大数据技术(如Apache Hadoop正进入企业,系统工程师必须开始构建模型,可以估计这些分布式数据处理系统可以做多少工作,他们可以多快完成工作。
拥有大数据工作负载的准确模型意味着组织这些工作可以更好的计划和分配资源,并能自信地断言,当这项工作的结果可以交付给客户。
估计大数据的工作,然而,是一件棘手的事情,和过程不能完全依赖传统的建模工具,根据研究人员在USENIX年会在自主计算,本周在费城举行。
“这是几乎不可能是准确的,因为你是处理不确定的系统,”露西Cherkasova说,惠普实验室的研究员。
她解释说,Hadoop系统是不确定的,因为他们有一个广泛的变量因素导致需要多长时间来完成工作。
一般的Hadoop系统可能有多达190个参数设置为了开始运行,并且每个Hadoop多少计算工作可能有不同的要求,带宽、内存或其他资源。
Cherkasova一直致力于模型和相关工具,评估大型数据处理工作将花多长时间运行Hadoop或其他大型数据处理系统,在一个项目叫做咏叹调(MapReduce自动推理和分配资源环境)。 灰鸽子使用教程
咏叹调旨在回答这个问题,“我应该多少资源分配给这个工作,如果我想要处理这些数据的最后期限,“Cherkasova说。
有人可能会认为,如果你的数量增加一倍的资源Hadoop工作,完成工作所需的时间将会减少一半。“并非如此”Hadoop,Cherkasova说。
工作概要文件可以改变以非线性方式取决于所使用的服务器数量。66年Hadoop集群性能瓶颈节点不同于1000年的瓶颈在Hadoop集群节点,她说。
性能可以根据不同类型的工作。开展的一些研究Cherkasova涉及学习什么大小的虚拟机将Hadoop最适合的工作。 |
|