您的当前位置:首页正文

最全大数据技术学习笔记(五)—— MapReduce,2024年最新大数据开发程序员必备

2024-11-09 来源:个人技术集锦

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

c. 测试举例:有4个小文件大小分别为 1.7M、5.1M、3.4M 以及 6.8M 这四个小文件,则虚拟存储之后形成6个文件块,大小分别为:

1.7M,(2.55M、2.55M),3.4M以及(3.4M、3.4M)

最终会形成3个切片,大小分别为:

(1.7+2.55)M,(2.55+3.4)M,(3.4+3.4)M

(3)案例实操

将输入的大量小文件合并成一个切片统一处理。

准备4个小文件

a. 不做任何处理,运行前面的 WordCount 案例程序,观察切片个数为 4 。

b. 在WordcountDriver.java中增加如下代码,运行程序,并观察运行的切片个数为 3。

// 如果不设置InputFormat,它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虚拟存储切片最大值设置4M
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);

c. 在 WordcountDriver.java 中增加如下代码,运行程序,并观察运行的切片个数为 1

// 如果不设置InputFormat,它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虚拟存储切片最大值设置20M
CombineTextInputFormat.setMaxInputSplitSize(job, 20971520);

1.3 OutputFormat 数据输出

1.3.1 OutputFormat 实现类

OutputFormat 是 MapReduce 输出的基类,所有 MapReduce 输出都实现了 OutputFormat 接口,以下是几种常见的OutputFormat 实现类。

  • TextOutputFormat :是默认的输出格式,它把每条记录写为文本行,它的键和值可以是任意类型,因为TextOutputFormat 可以调用 toString() 方法把它们转为字符串。
  • SequenceOutputFormat :将 SequenceOutputFormat 的输出作为后续 MapReduce的输入,这便是一种好的输出格式。因为它的它的格式紧凑,很容易被压缩。
  • 自定义OutputFormat :根据用户的需求,自定义输出格式。
1.3.2 自定义 OutputFormat

(1) 需求

过滤输入的 log 日志,包含atguigu的网站输出到 atguigu.log,不包含 atguigu 的网站输出到 other.log。

http://www.baidu.com
http://www.google.com
http://cn.bing.com
http://www.atguigu.com
http://www.sohu.com
http://www.sina.com
http://www.sin2a.com
http://www.sin2desa.com
http://www.sindsafa.com

(2)代码编写

LogMapper.java

package com.huwei.mr.outputformat;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class LogMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context) throws IOException, InterruptedException {
        // 直接写出
        context.write(value, NullWritable.get());
    }
}

LogReducer.java

package com.huwei.mr.outputformat;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class LogReducer extends Reducer<Text, NullWritable, Text, NullWritable> {
    @Override
    protected void reduce(Text key, Iterable<NullWritable> values, Reducer<Text, NullWritable, Text, NullWritable>.Context context) throws IOException, InterruptedException {
        // 遍历直接写出
        for (NullWritable value : values) {
            context.write(key, NullWritable.get());
        }
    }
}

自定义 LogOutputFormat.java

package com.huwei.mr.outputformat;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
/\*\*
 \* 自定义的LogOutputFormat需要继承Hadoop提供的OutputFormat
 \*/
public class LogOutputFormat extends FileOutputFormat<Text, NullWritable> {
    /\*\*
 \* 返回一个RecordWriter对象
 \* @param job
 \* @return
 \* @throws IOException
 \* @throws InterruptedException
 \*/
    @Override
    public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException {
        LogRecordWriter lrw = new LogRecordWriter(job);
        return lrw;
    }
}

自定义的 LogRecordWriter.java

package com.huwei.mr.outputformat;

import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;

import java.io.IOException;

/\*\*
 \* 自定义的LogRecordWriter需要继承Hadoop提供的RecordWriter
 \*/
public class LogRecordWriter extends RecordWriter<Text, NullWritable> {
    // 定义输出路径
    private String atguiguPath = "E:\\hadoop\\out\\logs\\atguigu.txt";
    private String otherPath = "E:\\hadoop\\out\\logs\\other.txt";
    private FileSystem fs;
    private FSDataOutputStream atguigu;
    private FSDataOutputStream other;

    /\*\*
 \* 初始化工作
 \*
 \* @param job
 \*/
    public LogRecordWriter(TaskAttemptContext job) throws IOException {
        // 获取Hadoop文件系统对象
        fs = FileSystem.get(job.getConfiguration());
        // 获取输出流
        atguigu = fs.create(new Path(atguiguPath));
        // 获取输出流
        other = fs.create(new Path(otherPath));

    }

    /\*\*
 \* 实现数据写出的逻辑
 \*
 \* @param text
 \* @param nullWritable
 \* @throws IOException
 \* @throws InterruptedException
 \*/
    @Override
    public void write(Text text, NullWritable nullWritable) throws IOException, InterruptedException {
        // 获取当前输入的数据
        String logData = text.toString();
        if (logData.contains("atguigu")) {
            atguigu.writeBytes(logData + "\n");
        } else {
            other.writeBytes(logData + "\n");
        }

    }

    /\*\*
 \* 关闭资源
 \*
 \* @param taskAttemptContext
 \* @throws IOException
 \* @throws InterruptedException
 \*/
    @Override
    public void close(TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
        IOUtils.closeStream(atguigu);
        IOUtils.closeStream(other);
    }
}


LogDriver.java

package com.huwei.mr.outputformat;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class LogDriver {
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        // 声明配置对象
        Configuration conf = new Configuration();
        // 声明Job对象
        Job job = Job.getInstance(conf);

        // 指定当前Job的驱动类
        job.setJarByClass(LogDriver.class);
        // 指定当前Job的Mapper
        job.setMapperClass(LogMapper.class);
        // 指定当前Job的Reducer
        job.setReducerClass(LogReducer.class);

        // 指定Map端输出数据的key的类型和输出数据value的类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);
        // 指定最终(Reduce端)输出数据的key的类型和输出数据value的类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);

        // 指定自定义的 OutputFormat
        job.setOutputFormatClass(LogOutputFormat.class);

        // 指定输入数据的路径和输出数据的路径
        FileInputFormat.setInputPaths(job,new Path("E:\\hadoop\\in\\log"));
        FileOutputFormat.setOutputPath(job,new Path("E:\\hadoop\\out\\log"));

        // 提交Job
        // 参数代表是否监控提交过程
        job.waitForCompletion(true);
    }
}


如何实现OutputFormat自定义:

  • 自定义一个 OutputFormat 类,继承Hadoop提供的OutputFormat,在该类中实现
    getRecordWriter() ,返回一个RecordWriter
  • 自定义一个 RecordWriter 并且继承Hadoop提供的RecordWriter类,在该类中
    重写 write() 和 close() 在这些方法中完成自定义输出。

2 MapReduce 框架原理

2.1 MapTask 工作机制

(1)Read 阶段:MapTask 通过 InputFormat 获得的 RecordReader,从输入InputSplit 中解析出一个个key/value。

(2)Map 阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的 key/value。

(3)Collect 收集阶段:在用户编写 map() 函数中,当数据处理完成后,一般会调用 OutputCollector.collect() 输出结果。在该函数内部,它会将生成的 key/value 分区(调用Partitioner),并写入一个环形内存缓冲区中。

(4)Spill 阶段:即“溢写”,当环形缓冲区满后,MapReduce 会将数据写到本地磁盘上,生成一个临时文件。需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作。

溢写阶段详情:

  • 步骤1:利用快速排序算法对缓存区内的数据进行排序,排序方式是,先按照分区编号 Partition 进行排序,然后按照 key 进行排序。这样,经过排序后,数据以分区为单位聚集在一起,且同一分区内所有数据按照key有序。
  • 步骤2:按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件output/spillN.out(N表示当前溢写次数)中。如果用户设置了Combiner,则写入文件之前,对每个分区中的数据进行一次聚集操作。
  • 步骤3:将分区数据的元信息写到内存索引数据结构 SpillRecord 中,其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。如果当前内存索引大小超过1MB,则将内存索引写到文件 output/spillN.out.index 中。

(5)Merge阶段:当所有数据处理完成后,MapTask 对所有临时文件进行一次合并,以确保最终只会生成一个数据文件。

当所有数据处理完后,MapTask 会将所有临时文件合并成一个大文件,并保存到文件output/file.out 中,同时生成相应的索引文件 output/file.out.index

在进行文件合并过程中,MapTask 以分区为单位进行合并。对于某个分区,它将采用多轮递归合并的方式。每轮合并 mapreduce.task.io.sort.factor(默认10)个文件,并将产生的文件重新加入待合并列表中,对文件排序后,重复以上过程,直到最终得到一个大文件。

让每个 MapTask 最终只生成一个数据文件,可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销。

2.2 ReduceTask 工作机制

(1)Copy 阶段:ReduceTask 从各个 MapTask 上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。

(2)Merge 阶段:在远程拷贝数据的同时,ReduceTask 启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。

(3)Sort 阶段:按照 MapReduce 语义,用户编写 reduce() 函数输入数据是按 key 进行聚集的一组数据。为了将 key 相同的数据聚在一起,Hadoop 采用了基于排序的策略。由于各个 MapTask 已经实现对自己的处理结果进行了局部排序,因此,ReduceTask 只需对所有数据进行一次归并排序即可。

(4)Reduce 阶段:对排序后的键值对调用 reduce() 方法,键相同的键值对调用一次reduce() 方法。

(5)Write 阶段:reduce()函数将计算结果写到 HDFS上。

2.3 MapTask 并行度决定机制

MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。

数据块:Block是 HDFS 物理上把数据分成一块一块。数据块是 HDFS 存储数据单位。

数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。数据切片是 MapReduce 程序计算输入数据的单位,一个切片会对应启动一个MapTask。

  • 一个Job的Map阶段并行度(MapTask )由客户端在提交Job时的切片数决定;(一个切片就会产生一个MapTask并行处理)
  • 默认情况下,切片大小=BlockSize=128M;(这样设计的目的是为了避免将来切片读取数据的时候有跨机器读取数据 的情况,这样效率是很低的)
  • 切片时不考虑整体数据集,而是逐个针对每一个文件单独切片

2.4 ReduceTask 并行度决定机制

回顾:MapTask并行度由切片个数决定,切片个数由输入文件和切片规则决定。
思考:ReduceTask并行度由谁决定?

ReduceTask 的并行度同样影响整个Job的执行并发度和执行效率,但与 MapTask 的并发数由切片数决定不同,ReduceTask 数量的决定是可以直接手动设置的。

// 默认值是1,手动设置为4
job.setNumReduceTasks(4);

(1)ReduceTask = 0,表示没有 Reduce 阶段,输出文件的个数和 Map 个数一致。

(2)ReduceTask 的默认值就是1,所以输出文件的个数为1个。

(3)如果数据分布不均匀,就有可能在Reduce阶段产生数据倾斜

(4)ReduceTask 数量不是任意设置的,还要考虑业务逻辑需求,在有些情况下,需要计算全局汇总结果,就只能有一个ReduceTask 。

(5)具体多少个ReduceTask ,需要根据集群的性能而定。

(6)如果分区数不是1,但是 ReduceTask 为1,是否执行分区过程?答案是:不执行,因为在 MapTask 的源码中,执行分区的前提是先判断 ReduceNum 是否大于1,不大于1则不执行。

2.5 Shuffle 机制

2.5.1 Shuffle 机制流程

Map 方法之后,Reduce 方法之前的数据处理过程称之为 Shuffle 。

注意:

  • 图中的Map1方法不要理解为 Mapper 中重写的 map 方法,把它看成一个 MapTask 的执行,一个 MapTask 是会调用多个 map 方法的;
  • 环形缓冲区(默认大小为100M)其实就是在内存中,其中每一个分区内部所使用的排序算法是快速排序;
  • 每个相同分区之间采用的是归并排序,在磁盘上进行
  • 当环形缓冲区的数据量达到自身容量的 80%,会发生第一次溢写

Shuffle 机制流程

(1)MapTask收集我们的map()方法输出的 kv 对,放到内存缓冲区中

(2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件

(3)多个溢出文件会被合并成大的溢出文件

(4)在溢出过程及合并的过程中,都要调用Partitioner进行分区和针对key进行排序

(5)ReduceTask根据自己的分区号,去各个MapTask机器上取相应的结果分区数据

(6)ReduceTask会抓取到同一个分区的来自不同MapTask的结果文件,ReduceTask会将这些文件再进行合并(归并排序)

(7)合并成大文件后,Shuffle的过程也就结束了,后面进入ReduceTask的逻辑运算过程(从文件中取出一个一个的键值对Group,调用用户自定义的reduce()方法)

注意:

  • Shuffle中的缓冲区大小会影响到 MapReduce
    程序的执行效率,原则上说,缓冲区越大,则可以容纳更多的数据并减少写入磁盘的次数,磁盘IO的次数越少,执行速度就越快。
  • 缓冲区的大小可以通过参数调整,参数:mapreduce.task.io.sort.mb 默认100M。
2.5.2 Paratition 分区

要求将统计结果按照条件输出到不同的文件(分区)中。比如:将统计结果按照手机归属地不同省份输出到不同的文件中(分区)。

(1)Hadoop默认的分区规则源码解析

  • 定位 MapTask 的 map 方法中 context.write(outk, outv);
  • 跟到 write(outk, outv) 中进入到 ChainMapContextImpl 类的实现中
public void write(KEYOUT key, VALUEOUT value) throws IOException,
	InterruptedException {
		output.write(key, value);
	}

  • 跟到 output.write(key, value) 内部实现类 NewOutputCollector
public void write(K key, V value) throws IOException, InterruptedException {
	collector.collect(key, value,
					partitioner.getPartition(key, value, partitions));
}

重点理解 partitioner.getPartition(key, value, partitions);

  • 跟进默认的分区规则实现类 HashPartitioner
public int getPartition(K key, V value,
						  int numReduceTasks) {				  
	// 根据当前的key的hashCode值和ReduceTask的数量进行取余操作
	// 获取到的值就是当前kv所属的分区编号。
	return (key.hashCode() & Integer.MAX\_VALUE) % numReduceTasks;
}

Partitioner是 Hadoop 的分区器对象,负责给 Map 阶段输出数据选择分区的功能。

默认分区是根据 keyhashCodeReduceTask 的个数取模得到的数字编号,这个分区编号在Job提交的时候就已经定义好了。用户没法控制哪个 key 存储到哪个分区。

(2)自定义分区规则

将统计结果按照手机归属地不同省份输出到不同文件(分区)中。

使用在 2.3小节案例的数据 phone_data.txt,手机号136、137、138、139开头都分别放到一个独立的4个文件中,其他开头的放到一个文件中。

在案例 2.3 的基础上,增加一个分区类

//自定义一个分区器对象,需要继承Hadoop提供的Partitioner对象
//这里的泛型就是Mapper输出的泛型
public class FlowPartitioner extends Partitioner<Text, FlowBean> {
    /\*\*
 \* 定义当前kv所属分区的规则
 \*
 \* @param text the key to be partioned.
 \* @param flowBean the entry value.
 \* @param numPartitions the total number of partitions.
 \* 分区
 \* 136 ——> 0
 \* 137 ——> 1
 \* 138 ——> 2
 \* 139 ——> 3
 \* 其他 ——> 4
 \*/
    @Override
    public int getPartition(Text text, FlowBean flowBean, int numPartitions) {
        int phonePartition;
        // 获取手机号
        String phoneNum = text.toString();
        if(phoneNum.startsWith("136")){
            phonePartition=0;
        } else if (phoneNum.startsWith("137")) {
            phonePartition=1;
        }else if (phoneNum.startsWith("138")) {
            phonePartition=2;
        }else if (phoneNum.startsWith("139")) {
            phonePartition=3;
        }else {
            phonePartition=4;
        }
        return phonePartition;
    }
}

在驱动函数中增加自定义数据分区设置和 ReduceTask 设置

// 指定ReduceTask的数量
job.setNumReduceTasks(5);
// 指定自定义的分区器对象实现
job.setPartitionerClass(FlowPartitioner.class);

分区器使用时注意事项

  • 当 ReduceTask 的数量(设置的分区数) > getPartition的结果数(实际用到的分区数), 此时会生成空的分区文件
  • 当 ReduceTask 的数量(设置的分区数) < getPartition的结果数(实际用到的分区数), 导致有一部分数据无处安放,此时会报错
  • 当 ReduceTask 的数量(设置的分区数) = 1, 则不管 MapTask 端输出多少个分区文件,最终结果文件会输出到一个文件part-r-00000
  • 分区编号生成的规则:根据指定的ReduceTask的数量 从 0 开始,依次累加。
2.5.3 WritableComparable 排序

排序是MR最重要的操作之一。

MapTask 和 ReduceTask 均会对数据按照 key 进行排序。该操作属于 Hadoop 的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。

默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。

对于 MapTask,它会将处理的结果暂时存放到环形缓冲区中,当环形缓冲区使用率达到一定的阈值后,再对缓冲区中的数据进行一次快速排序,并将这些有序数据溢写到磁盘上,而当数据处理完毕后,它会对磁盘上所有的文件进行归并排序

对于ReduceTask,它从每个 MapTask上远程拷贝相应的数据文件,如果文件大小超过一定阈值,则溢写到磁盘上,否则存储在内存中。如果磁盘上文件数目达到一定的阈值,则进行一次归并排序以生成一个更大的文件;如果内存中文件大小或文件数目超过一定的阈值,则进行一次合并后将数据溢写到磁盘上。当所有的数据拷贝完成后,ReduceTask统一对内存和磁盘上所有的数据进行一次归并排序

排序分类

  • 部分排序:MapReduce根据输入记录的键对数据集排序。保证每个输出文件内部有序。
  • 全排序:最终的输出结果只有一个文件,且文件内部有序。实现方式是只设置一个ReduceTask。但该方法在处理大型文件时效率极低,因为一台机器处理所有的文件,完全丧失了 MapReduce 所提供的并行架构。
  • 二次排序:在自定义排序过程中,如果 compareTo 中的判断条件为两个即为二次排序。

这里仍然使用在 2.3小节案例

代码编写

FlowBean.java

package com.huwei.mr.sort;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class FlowBean implements WritableComparable<FlowBean> {

    private Integer upFlow;
    private Integer downFlow;
    private Integer sumFlow;

    // 默认有无参构造方法

    public Integer getUpFlow() {
        return upFlow;
    }

    public void setUpFlow(Integer upFlow) {
        this.upFlow = upFlow;
    }

    public Integer getDownFlow() {
        return downFlow;
    }

    public void setDownFlow(Integer downFlow) {
        this.downFlow = downFlow;
    }

    public Integer getSumFlow() {
        return sumFlow;
    }

    public void setSumFlow(Integer sumFlow) {
        this.sumFlow = sumFlow;
    }

    @Override
    public String toString() {
        return "FlowBean{" +
                "upFlow=" + upFlow +
                ", downFlow=" + downFlow +
                ", sumFlow=" + sumFlow +
                '}';
    }

    /\*\*
 \* 序列化方法
 \*/
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeInt(upFlow);
        dataOutput.writeInt(downFlow);
        dataOutput.writeInt(sumFlow);
    }

    /\*\*
 \* 反序列化方法
 \* (顺序要和序列化方法一致)
 \*/
    @Override
    public void readFields(DataInput dataInput) throws IOException {
        upFlow = dataInput.readInt();
        downFlow = dataInput.readInt();
        sumFlow = dataInput.readInt();
    }

    // 计算上下行流量之和
    public void setSumFlow() {
        this.sumFlow = this.upFlow + this.downFlow;
    }

    /\*\*
 \* 自定义排序规则
 \* 需求:根据总流量倒序
 \* @param o the object to be compared.
 \* @return
 \*/
    @Override
    public int compareTo(FlowBean o) {
        //按照总流量比较,倒序排列
        if(this.sumFlow > o.sumFlow){
            return -1;
        }else if(this.sumFlow < o.sumFlow){
            return 1;
        }else {
            return 0;
        }

// return -this.getSumFlow().compareTo(o.getSumFlow());

    }
}

注意:在public class FlowBean implements WritableComparable<FlowBean>中我将,WritableComparable写成Writable, Comparable,出现ClassCastException报错。参考中方法二

2.5.4 Combiner 合并

Combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件,Combiner 的父类就是 Reducer 。

Combiner 和 Reducer 的区别就在于运行的位置,

  • Combiner 是在每一个 MapTask 所在的节点运行
  • Reducer 是接收全局所有 Mapper 的输出结果。

Combiner 的意义就是对每一个 MapTask 的输出进行局部汇总,以减小网络的传输量。总的来说,就是为了减轻 ReduceTask 的压力,减少了IO开销,提升 MR 的运行效率。

注意: Combiner 能够运用的前提是不能影响最终的业务逻辑,而且, Combiner 的输出 kv 应该和 Reducer 的输入 kv 类型要对应起来。

以 WordCount 案例为例

(1)增加一个WordCountCombiner类继承Reducer

package com.huwei.mr.combiner;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/\*\*
 \* 自定义Combiner类需要继承Hadoop提供的Reducer类
 \* 注意:Combiner流程一定发生在Map阶段
 \*/
public class WordCountCombiner extends Reducer<Text, IntWritable, Text, IntWritable>{
    private Text outk = new Text();
    private IntWritable outv = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
        int total = 0;
        // 遍历values
        for (IntWritable value : values) {
            // 对value累加,输出结果
            total += value.get();
        }
        // 封装key和value
        outk.set(key);
        outv.set(total);
        context.write(outk, outv);
    }
}

(2)在WordcountDriver驱动类中指定 Combiner

// 指定自定义的Combiner类
job.setCombinerClass(WordCountCombiner.class);

运行程序,如下图所示

注意:
Combiner不适用的场景:Reduce端处理的数据考虑到多个MapTask的数据的整体集时就不能提前合并了。(如求平均数)

2.6 MapReduce 工作流程

上面的流程是整个 MapReduce 的工作流程,其中从第7步开始到第16步结束为Shuffle过程。

3 Join 应用

3.1 Reduce Join

(1)案例需求

其中

order.txt

1001	01	1
1002	02	2
1003	03	3
1004	01	4
1005	02	5
1006	03	6

pd.txt

01	小米
02	华为
03	格力

(2)需求分析

通过将关联条件作为 Map 输出的 key,将两表满足 Join 条件的数据并携带数据所来源的文件信息,发往同一个 ReduceTask,在 Reduce 中进行数据的串联。

(3)代码编写

商品和订单表合并后的对象类 Orderpd.java

package com.huwei.mr.reducejoin;

import org.apache.hadoop.io.Writable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class Orderpd implements Writable {
    // order表数据
    private String orderId;
    private String pid;
    private Integer amount;
    // pd表数据
    private String pname;
    // 区分数据来源,判断是order表还是pd表的标志字段
    private String flag;

    public String getOrderId() {
        return orderId;
    }

    public void setOrderId(String orderId) {
        this.orderId = orderId;
    }

    public String getPid() {
        return pid;
    }

    public void setPid(String pid) {
        this.pid = pid;
    }

    public Integer getAmount() {
        return amount;
    }

    public void setAmount(Integer amount) {
        this.amount = amount;
    }

    public String getPname() {
        return pname;
    }

    public void setPname(String pname) {
        this.pname = pname;
    }

    public String getFlag() {
        return flag;
    }

    public void setFlag(String flag) {
        this.flag = flag;
    }

    @Override
    public String toString() {
        return "Orderpd{" +
                "orderId='" + orderId + '\'' +
                ", pname='" + pname + '\'' +
                ", amount='" + amount + '\'' +
                '}';
    }

    /\*\*
 \* 序列化
 \* @param dataOutput
 \* @throws IOException
 \*/
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeUTF(orderId);


![img](https://img-blog.csdnimg.cn/img_convert/8b602451a5adfb431bff72c60b230f4d.png)
![img](https://img-blog.csdnimg.cn/img_convert/8f93fc5b356ae3567c76607d2ff3b667.png)

**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**


**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

     this.amount = amount;
    }

    public String getPname() {
        return pname;
    }

    public void setPname(String pname) {
        this.pname = pname;
    }

    public String getFlag() {
        return flag;
    }

    public void setFlag(String flag) {
        this.flag = flag;
    }

    @Override
    public String toString() {
        return "Orderpd{" +
                "orderId='" + orderId + '\'' +
                ", pname='" + pname + '\'' +
                ", amount='" + amount + '\'' +
                '}';
    }

    /\*\*
 \* 序列化
 \* @param dataOutput
 \* @throws IOException
 \*/
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeUTF(orderId);


[外链图片转存中...(img-osiwKdvT-1715803961461)]
[外链图片转存中...(img-I4m6Wpt4-1715803961461)]

**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**


**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

显示全文