Hadoop 单机模式

介绍

Hadoop是一个用于分布式存储和处理大规模数据的开源框架。它通常运行在由多台机器组成的集群上，但在学习和开发过程中，单机模式（Standalone Mode）是一个非常有用的起点。单机模式允许你在本地机器上运行Hadoop，无需配置复杂的集群环境。

在单机模式下，Hadoop的所有组件（如HDFS和MapReduce）都运行在单个JVM进程中。这种模式非常适合初学者学习和测试Hadoop的基本功能。

单机模式的配置

1. 安装Hadoop

首先，你需要在本地机器上安装Hadoop。你可以从Apache Hadoop官网下载最新版本的Hadoop。

# 下载并解压Hadoop
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
tar -xzvf hadoop-3.3.4.tar.gz

2. 配置环境变量

接下来，你需要配置Hadoop的环境变量。编辑你的 ~/.bashrc 或 ~/.zshrc 文件，添加以下内容：

export HADOOP_HOME=/path/to/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin

然后，运行以下命令使配置生效：

source ~/.bashrc

3. 配置Hadoop单机模式

Hadoop的单机模式是默认配置，因此你无需进行额外的配置。你可以通过以下命令验证Hadoop是否安装成功：

hadoop version

如果安装成功，你将看到类似以下的输出：

Hadoop 3.3.4
Source code repository https://github.com/apache/hadoop.git -r a3b9c37a397ad4188041dd80621bdeefc46885f2
Compiled by ubuntu on 2022-07-25T08:41Z
Compiled with protoc 3.7.1
From source with checksum 707d5d9d9f6e1a7f6f9f5f5f5f5f5f5f5f5f5f5f
This command was run using /path/to/hadoop-3.3.4/share/hadoop/common/hadoop-common-3.3.4.jar

运行Hadoop单机模式

1. 运行MapReduce作业

在单机模式下，你可以运行一个简单的MapReduce作业来验证Hadoop的功能。Hadoop自带了一些示例程序，我们可以使用这些示例来测试。

首先，创建一个输入目录并将一些文本文件放入其中：

mkdir input
echo "Hello World" > input/file1.txt
echo "Hello Hadoop" > input/file2.txt

接下来，运行Hadoop自带的WordCount示例程序：

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount input output

如果一切顺利，你将看到类似以下的输出：

2023-10-01 12:34:56,789 INFO mapreduce.Job: Job job_1234567890123_0001 completed successfully

2. 查看输出结果

运行完成后，你可以查看输出目录中的结果：

cat output/part-r-00000

输出应该类似于：

Hadoop  1
Hello   2
World   1

实际应用场景

单机模式虽然不适合处理大规模数据，但在以下场景中非常有用：

学习和测试：单机模式是学习Hadoop基础概念和API的理想选择。你可以在本地机器上快速测试和调试代码。
开发环境：在开发过程中，单机模式可以作为一个轻量级的开发环境，帮助你快速验证代码的正确性。
小规模数据处理：如果你只需要处理小规模的数据集，单机模式可以满足需求，而无需配置复杂的集群。

总结

Hadoop单机模式是一个简单而强大的工具，特别适合初学者学习和测试Hadoop的基本功能。通过单机模式，你可以在本地机器上运行Hadoop，无需配置复杂的集群环境。本文介绍了如何安装和配置Hadoop单机模式，并通过一个简单的MapReduce作业展示了其基本用法。

附加资源

练习

尝试在单机模式下运行其他Hadoop示例程序，如grep或pi。
修改WordCount示例程序，使其能够统计输入文件中每个单词的出现次数，并按字母顺序排序输出结果。

介绍​

单机模式的配置​

1. 安装Hadoop​

2. 配置环境变量​

3. 配置Hadoop单机模式​

运行Hadoop单机模式​

1. 运行MapReduce作业​

2. 查看输出结果​

实际应用场景​

总结​

附加资源​

练习​

介绍