Hadoop集群WordCount详解

来源：五一七教育网

Hadoop集群WordCount详解

MapReduce理论介绍
MapReduce处理过程
MapReduce代码

1.MapReduce 理论介绍

1.1 MapReduce编程模型

1.2 MapReduce处理过程

在Hadoop中，每个MapReduce任务都被初始化为一个Job，每个Job又可以分为两种阶段：map阶段和reduce阶段。这两个阶段分别用两个函数表示，即map函数和reduce函数。map函数接收一个

public static void main(String[] args) throws Exception {
  Configuration conf = new Configuration();
  String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
  if (otherArgs.length != 2) {
    System.err.println("Usage: wordcount <in> <out>");
    System.exit(2);
  }
  Job job = new Job(conf, "word count");
  job.setJarByClass(WordCount.class);
  job.setMapperClass(TokenizerMapper.class);
  job.setCombinerClass(IntSumReducer.class);
  job.setReducerClass(IntSumReducer.class);
  job.setOutputKeyClass(Text.class);
  job.setOutputValueClass(IntWritable.class);
  FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
  FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
  System.exit(job.waitForCompletion(true) ? 0 : 1);
}

在MR程序中，首先创建一个Job，并进行配置，然后通过调用Job的waitForCompletion方法将Job提交到MapReduce集群。这个过程中，Job存在两种状态：Job.JobState.DEFINE和Job.JobState.RUNNING，创建一个Job后，该Job的状态为Job.JobState.DEFINE，Job内部通过JobClient基于org.apache.hadoop.mapred.JobSubmissionProtocol协议提交给JobTracker，然后该Job的状态变为Job.JobState.RUNNING。

运行WorkCount

1.准备工作

1）创建本地示例文件

接着创建两个文本文件file1.txt和file2.txt，使file1.txt 内容为”Hello World”，而file2.txt的内容为”Hello Hadoop”。
2）在HDFS上创建输入文件夹

3）上传本地file中文件到集群的input目录下

2 运行例子

1）在集群上运行WordCount程序

已经编译好的WordCount的Jar在”/usr/hadoop”下面，就是”hadoop-examples-1.0.0.jar”，所以在下面执行命令时记得把路径写全了，不然会提示找不到该Jar包。

3 查看结果

2）查看结果输出文件内容

3WordCount源码分析

Hadoop提供了如下内容的数据类型，这些数据类型都实现了WritableComparable接口，以便用这些类型定义的数据可以被序列化进行网络传输和文件存储，以及进行大小比较。

BooleanWritable：标准布尔型数值

ByteWritable：单字节数值

DoubleWritable：双字节数

FloatWritable：浮点数

IntWritable：整型数

LongWritable：长整型数

Text：使用UTF8格式存储的文本

NullWritable：当<key,value>中的key或value为空时使用

用

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文