引言

随着大数据时代的到来,Hadoop作为一款强大的分布式大数据处理框架,已经广泛应用于各个领域。本文将详细讲解在CentOS系统下如何安装与配置Hadoop集群,帮助您轻松上手大数据处理。

准备工作

在开始之前,请确保您已满足以下准备工作:

  1. 一台安装有CentOS操作系统的服务器。
  2. Java环境,Hadoop需要Java作为运行环境。
  3. 网络环境,确保服务器之间可以互相访问。

安装步骤

1. 安装Java

Hadoop依赖于Java环境,因此首先需要安装Java。

# 安装Java
sudo yum install java-1.8.0-openjdk -y
# 验证Java版本
java -version

2. 下载Hadoop

前往下载适合您系统的Hadoop版本。

# 下载Hadoop
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
# 解压下载的Hadoop压缩包
tar -zxf hadoop-3.3.4.tar.gz
# 将Hadoop移动到/usr/local目录下
sudo mv hadoop-3.3.4 /usr/local/hadoop

3. 配置环境变量

将Hadoop的bin目录添加到环境变量中。

# 编辑环境变量配置文件
sudo nano /etc/profile
# 在文件末尾添加以下内容
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
# 使配置生效
source /etc/profile

4. 配置Hadoop

进入Hadoop的配置目录,进行以下配置:

配置hadoop-env.sh

# 编辑hadoop-env.sh
sudo nano /usr/local/hadoop/etc/hadoop/hadoop-env.sh
# 设置Java的home路径
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.322.x86_64

配置core-site.xml

# 编辑core-site.xml
sudo nano /usr/local/hadoop/etc/hadoop/core-site.xml
# 添加以下内容
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
</configuration>

配置hdfs-site.xml

# 编辑hdfs-site.xml
sudo nano /usr/local/hadoop/etc/hadoop/hdfs-site.xml
# 添加以下内容
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>

配置yarn-site.xml

# 编辑yarn-site.xml
sudo nano /usr/local/hadoop/etc/hadoop/yarn-site.xml
# 添加以下内容
<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
  </property>
</configuration>

配置mapred-site.xml

# 编辑mapred-site.xml
sudo nano /usr/local/hadoop/etc/hadoop/mapred-site.xml
# 添加以下内容
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

5. 格式化HDFS

在主节点上执行以下命令格式化HDFS。

# 格式化HDFS
sudo -u hdfs hadoop fs -format

6. 启动Hadoop服务

在主节点上启动Hadoop服务。

# 启动HDFS
sudo -u hdfs hadoop-daemon.sh start namenode
# 启动YARN
sudo -u yarn hadoop-daemon.sh start resourcemanager
# 启动NodeManager
sudo -u hdfs hadoop-daemon.sh start datanode

验证安装

在主节点上执行以下命令查看Hadoop服务状态。

# 查看HDFS状态
sudo -u hdfs hadoop dfsadmin -report
# 查看YARN状态
yarn node -list

结语

通过以上步骤,您已经成功在CentOS系统下安装与配置了Hadoop集群。接下来,您可以使用Hadoop处理海量数据,探索大数据的奥秘。祝您使用愉快!