MapReduce:Combiner，partition的作用

2024-11-27 来源：个人技术集锦

combiner其实属于优化方案，由于带宽限制，应该尽量map和reduce之间的数据传输数量。它在Map 端把同一个key的键值对合并在一起并计算，计算规则与reduce一致，所以combiner也可以看作特殊的Reducer。

Partition作用

partition意思为分开，划分。它分割map每个节点的结果，按照key分别映射给不同的reduce，也是可以自定义的。其实可以理解归类。也可以理解为根据key或value及reduce的数量来决定当前的这对输出数据最终应该交由哪个reduce task处理。

partition的作用就是把这些数据归类，将map的结果发送到相应的reduce。

每个map任务会针对输出进行分区，及对每一个reduce任务建立一个分区。划分分区由用户定义的partition函数控制，默认使用哈希函数来划分分区。

partition过程如下：

1）计算(key，value)所属与的分区。

当map输出的时候，写入缓存之前，会调用partition函数，计算出数据所属的分区，并且把这个元数据存储起来。

2）把属与同一分区的数据合并在一起。

当数据达到溢出的条件时（即达到溢出比例，启动线程准备写入文件前），读取缓存中的数据和分区元数据，然后把属与同一分区的数据合并到一起。

Combiner作用

1）每一个map可能会产生大量的输出，Combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。

2）Combiner最基本是实现本地key的归并，Combiner具有类似本地的reduce功能。

如果不用Combiner，那么，所有的结果都是reduce完成，效率会相对低下。

使用Combiner，先完成的map会在本地聚合，提升速度。

注意：Combiner的输出是Reducer的输入，如果Combiner是可插拔的，添加Combiner绝不能改变最终的计算结果。所以Combiner只应该用于那种Reduce的输入key/value与输出key/value类型完全一致，且不影响最终结果的场景。比如累加，最大值等。

注意事项

不是每种作业都可以做combiner操作的，只有满足以下条件才可以：

1）combiner只应该用于那种Reduce的输入key/value与输出key/value类型完全一致，因为combine本质上就是reduce操作。

2）计算逻辑上，combine操作后不能影响计算结果，像求和，最大值就不会影响，求平均值就影响了。

参考：

显示全文