「“DATABASE”」的归档


什么是MapReduce? Google的分布运算开发工具MapReduce,用于大规模数据集(大于1TB)的并行运算! 可以定义一些函数,对批量数据进行操作。比如可以定义使每个数据乘以二的函数,这样,可以并行执行,而且可以分发到不同服务器进行分布式运算。而且,在某些时候,即使是单机运算也有不小的意义,比如求平均数时很容易就可以实现,相邻数相加的运算,可以使参与运算的项快速减少一半。如果采用普通算法逐个运算。首先,如果一直加下去,很容易溢出,如果采用边加边计算,逐项求平均,很容易造成精确度丢失,解决这个问题的算法可能会相当复杂。

当然,这只是MapReduce功能的冰山一角。google的成功绝对不是偶然的。

Tags:

Comments 一个回复 »