石山園

附錄A 編譯安裝Hadoop

A.1 編譯Hadoop

A.1.1 搭建環境

第一步安裝并設置maven

1. 下載maven安裝包

建議安裝3.0以上版本（由于Spark2.0編譯要求Maven3.3.9及以上版本），本次安裝選擇的是maven3.3.9的二進制包，下載地址如下：

http://mirror.bit.edu.cn/apache/maven/maven-3/

2. 上傳git并解壓縮

把下載的maven安裝包上傳到/home/spark/work目錄,使用如下命令解壓縮并把文件夾移動到/app/soft目錄下：

$cd /home/spark/work

$tar -zxf apache-maven-3.3.9-bin.tar.gz

$mv maven-3.3.9 /app/soft

$ll /app/soft

3. 編譯安裝

在/etc/profile配置文件中加入如下設置：

export PATH=/app/soft/maven-3.3.9/bin:$PATH

修改/etc/profile配置文件并驗證配置是否成功：

$source /etc/profile

$mvn -version

圖附錄A?1查看Maven是否安裝成功

第二步使用yum安裝必要軟件

以root用戶使用yum安裝svn、gcc等編譯所需要的軟件：

#yum install svn

#yum install autoconf automake libtool cmake

#yum install ncurses-devel

#yum install openssl-devel

#yum install gcc*

第三步安裝并設置protobuf

注：該程序包需要在gcc安裝完畢后才能安裝，否則提示無法找到gcc編譯器。

1. 下載protobuf安裝包

下載鏈接為https://code.google.com/p/protobuf/downloads/list

圖附錄A?2 Protobuf下載頁面

2. 解壓安裝包并移動目錄

把protobuf-2.5.0.tar.gz安裝包上傳到/home/spark/work目錄，通過如下命令把該安裝包解壓并移動到/app/soft目錄中

$tar -zxf protobuf-2.5.0.tar.gz

$mv protobuf-2.5.0 /app/soft

$ll /app/soft

3. 編譯安裝

進入目錄以root用戶運行如下命令對protobuf進行編譯安裝，該過程比較慢，需要花費十幾分鐘時間：

#cd /app/soft/protobuf-2.5.0

#./configure

#make

#make check

#make install

4. 驗證是否安裝成功

編譯安裝成功之后，通過如下方式來驗證是否安裝成功：

#protoc

圖附錄A?3 確認Protobuf是否安裝成功

A.1.2 編譯Hadoop

第一步下載Hadoop源代碼并解壓

可以在apache官網或者鏡像站點下載hadoop源代碼包，比如在下面地址中選擇下載hadoop-2.7.2-src.tar.gz源代碼包：

http://apache.fayea.com/hadoop/common/hadoop-2.7.2/

下載后把源代碼包上傳到/home/spark/work目錄中解壓，然后移動到/app/compile目錄：

$cd /home/spark/work

$tar -zxf hadoop-2.7.2-src.tar.gz

$mv hadoop-2.7.2-src /app/compile

$ll /app/complie

第二步編譯Hadoop源代碼

在Hadoop源代碼的根目錄執行如下命令：

$cd /app/compile/hadoop-2.7.2-src

$mvn package -Pdist,native -DskipTests –Dtar

該過程需要64任務進行編譯，耗費的時間較長，在編譯過程需要聯網，從網絡中下載所需要依賴包。由于依賴包速度較慢，可以打開新的命令終端使用$du -sh查看整個目錄或$du -sh *子目錄大小變化，該過程井場卡死或出現異常，這種情況下可以中斷編譯過程，重新執行命令進行編譯，編譯完成后截圖如下：

圖附錄A?4 Hadoop編譯結果

第三步驗證編譯是否成功

到 hadoop-dist/target/hadoop-2.7.2/lib/native 目錄中，使用$file ./libhadoop.so.1.0.0命令查看libhadoop.so.1.0.0屬性，該文件為ELF 64-bit LSB則表示文件成功編譯為64位，如下圖所示。其中打包好的hadoop-2.7.2.tar.gz文件存在hadoop-dist/target目錄中，作為后續部署的安裝包。

圖附錄A?5 驗證Hadoop編譯是否成功

A.2 安裝Hadoop

由于在實戰過程中，需要使用HDFS文件系統，以及在介紹運行架構使用需要使用YARN調度框架需要安裝Hadoop，這里使用的是Hadoop2.7.2版本。

A.2.1 修改配置文件

第一步上傳并解壓Hadoop安裝包

使用前面編譯好的hadoop-2.7.2安裝包，或者從apache網站上下載，上傳到master節點的/home/spark/work目錄下，解壓縮并移動到/app/spark目錄下：

$cd /home/spark/work

$tar -zxf hadoop-2.7.2.tar.gz

$mv hadoop-2.7.2 /app/spark

$ll /app/spark

第二步在Hadoop目錄下創建子目錄

以hadoop用戶登錄在/app/spark/hadoop-2.7.2目錄下創建tmp、name和data目錄

$cd /app/spark/hadoop-2.7.2

$mkdir tmp

$mkdir name

$mkdir data

$ll

第三步配置hadoop-env.sh

使用如下命令打開配置文件hadoop-env.sh：

$cd /app/spark/hadoop-2.7.2/etc/hadoop

$sudo vi hadoop-env.sh

加入如下配置內容，設置JAVA_HOME和PATH路徑：

export JAVA_HOME=/app/soft/jdk1.7.0_55

export PATH=$PATH:/app/spark/hadoop-2.7.2/bin

export HADOOP_CONF_DIR=/app/spark/hadoop-2.7.2/etc/hadoop

編譯配置文件hadoop-env.sh，并確認生效

$source hadoop-env.sh

$hadoop version

圖附錄A?6 驗證Hadoop部署是否正確

第四步配置yarn-env.sh

在/app/spark/hadoop-2.7.2/etc/hadoop打開配置文件yarn-env.sh

$cd /app/spark/hadoop-2.7.2/etc/hadoop

$sudo vi yarn-env.sh

加入配置內容，設置JAVA_HOME路徑

export JAVA_HOME=/app/soft/jdk1.7.0_55

使用如下命令編譯配置文件yarn-env.sh，使其生效：

$source yarn-env.sh

第五步配置core-site.xml

使用如下命令打開core-site.xml配置文件

$cd /app/spark/hadoop-2.7.2/etc/hadoop

$sudo vi core-site.xml

在配置文件中，按照如下內容進行配置

<name>fs.default.name</name>

<value>hdfs://master:9000</value>

</property>

<name>fs.defaultFS</name>

<value>hdfs://master:9000</value>

</property>

<name>io.file.buffer.size</name>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/app/spark/hadoop-2.7.2/tmp</value>

<description>Abase for other temporary directories.</description>

</property>

<name>hadoop.proxyuser.hduser.hosts</name>

</property>

<name>hadoop.proxyuser.hduser.groups</name>

</property>

</configuration>

第六步配置hdfs-site.xml

使用如下命令打開hdfs-site.xml配置文件：

$cd /app/spark/hadoop-2.7.2/etc/hadoop

$sudo vi hdfs-site.xml

在配置文件中，按照如下內容進行配置

<name>dfs.namenode.secondary.http-address</name>

<value>master:9001</value>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/app/spark/hadoop-2.7.2/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/app/spark/hadoop-2.7.2/data</value>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

</configuration>

第七步配置mapred-site.xml

默認情況下不存在mapred-site.xml文件，可以從模板拷貝一份，并打開該配置文件：

$cd /app/spark/hadoop-2.7.2/etc/hadoop

$cp mapred-site.xml.template mapred-site.xml

$sudo vi mapred-site.xml

在配置文件中，按照如下內容進行配置

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

<value>master:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>master:19888</value>

</property>

</configuration>

第八步配置yarn-site.xml

使用如下命令打開yarn-site.xml配置文件

$cd /app/spark/hadoop-2.7.2/etc/hadoop

$sudo vi yarn-site.xml

在配置文件中，按照如下內容進行配置

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

<value>master:8032</value>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>master:8030</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>master:8031</value>

</property>

<name>yarn.resourcemanager.admin.address</name>

<value>master:8033</value>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<value>master:8088</value>

</property>

</configuration>

第九步配置Slaves文件

使用$sudo vi slaves打開從節點配置文件，在文件中加入master、slave1和slave2節點作為數據節點（DataNode）：

master

slave1

slave2

第十步向各節點分發Hadoop程序

確認slave1和slave2節點/app/spark所屬組和用戶均為spark，然后進入mater節點/app/spark目錄，使用如下命令把hadoop-2.7.2文件夾復制到slave1和slave2節點：

$cd /app/spark

$scp -r hadoop-2.7.2 spark@slave1:/app/spark/

$scp -r hadoop-2.7.2 spark@slave2:/app/spark/

A.2.2 啟動并驗證部署

第一步格式化NameNode

$cd /app/spark/hadoop-2.7.2/

$./bin/hdfs namenode -format

圖附錄A?7 格式化NameNode

第二步啟動并驗證HDFS

使用如下命令啟動HDFS：

$cd /app/spark/hadoop-2.7.2/sbin

$./start-dfs.sh

此時在master上面運行的進程有：NameNode、SecondaryNameNode和DataNode，而slave1和slave2上面運行的進程有：NameNode和DataNode

第三步啟動并驗證YARN

使用如下命令啟動YARN：

$cd /app/spark/hadoop-2.7.2/sbin

$./start-yarn.sh

此時在master上運行的進程有：NameNode、SecondaryNameNode、DataNode、NodeManager和ResourceManager，而slave1和slave2上面運行的進程有：NameNode、DataNode和NodeManager。

posted @ 2016-12-19 08:54 shishanyuan 閱讀(1383) 評論(0) 收藏舉報

刷新頁面返回頂部

石山園

附錄A 編譯安裝Hadoop

公告