1.修改主机名和用户名 1.1 创建用户 在开始时,建议创建一个单独的用户Hadoop以从Linux文件系统隔离Hadoop文件系统。按照下面给出的步骤来创建用户:
$ useradd hadoop
$ passwd hadoop密码设置为1234561.2 设置主机名修改主机名 vim /etc/sysconfig/network把HOSTNAME后的名称,修改为 master,如果有其他节点,分别修改为slave1 、slave2 ...1.3 节点间互相访问 执行vim /etc/hosts ,在末尾加上:192.168.30.150 master如果是分布式,还需要加上:192.168.30.151 slave1...2.配置SSH无密码连接2.1 关闭防火墙 永久关闭防火墙:执行:chkconfig iptables off
2.2 查看SSH是否安装 执行:yum install sshyum install rsync (rsync是一个远程数据同步工具)启动SSH服务命令:service sshd restart检查是否安装成功,执行:rpm -qa | grep openssh rpm -qa | grep rsync
2.3 生成SSH公钥 首先在主节点上(以hadoop用户)执行:ssh-keygen -t rsa 遇到提示回车生成公钥后,需要发送至本机的authorized_keys的列表,执行:ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@master 如果是完全分布式安装,需要把公钥复制到其他节点中,执行:ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@slave1ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@slave2...
2.3 验证安装 hadoop用户执行:ssh master 如果没有出现输入密码提示则安装成功,否则需要执行:chmod 700 /home/hadoop/.sshchmod 644 /home/hadoop/.ssh/authorized_keys
3.安装JDK3.1 卸载JDK查询已安装的JDK版本:执行:rpm -qa | grep jdk卸载命令:执行:yum -y remove xxx (xxx是查询后的jdk名称)
3.2 安装JDK下载jdk到本地,解压:tar -xzvf jdk-xxx.tar.gz配置环境变量,vim /etc/profile 后追加:export JAVA_HOME=/opt/jdk1.8.0_121export PATH=$PATH:$JAVA_HOME/bin立即生效,执行:source /etc/profile
3.2 验证安装执行: java -version
4.配置Hadoop4.1 下载解压 (hadoop用户)使用时2.6.0-cdh5.6.0版本,放在/opt文件下:tar -zxvf hadoop-2.6.0-cdh5.6.04.2 修改配置文件 (hadoop用户)(1)修改hadoop-env.sh ,文件结尾追加: export JAVA_HOME=/opt/jdk1.8.0_121 export HADOOP_HOME=/opt/hadoop-2.6.0-cdh5.6.0 (2)修改core-site.xml ,core-site.xml文件中包含如读/写缓冲器用于Hadoop的实例的端口号的信息,分配给文件系统存储,用于存储所述数据存储器的限制和大小。打开core-site.xml 并在<configuration>,</configuration>标记之间添加以下属性:
<configuration>
<property>
<name>fs.default.name </name>
<value> hdfs://localhost:9000 </value>
</property>
</configuration>
(3)修改hdfs-site.xml ,文件中包含如复制数据的值,NameNode路径的信息,本地文件系统的数据节点的路径。这意味着是存储Hadoop基础工具的地方:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/opt/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/opt/hdfs/data</value>
</property>
</configuration>
(4)修改mapred-site.xml ,该项配置指明了MapReduce计算框架基于YARN进行工作:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration
(5)修改yarn-site.xml ,该项配置指明了ResourceManager服务的主机名和端口号:
<configuration>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8080</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8082</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
(6)修改slaves :修改为 master .如果是完全分布模式需要加上:slave1slave2... 然后利用scp命令将安装文件夹分发到其他节点相同路径下:scp -r /opt/hadoop-2.6.0-cdh5.6.0 hadoop@slave1:/opt scp -r /opt/hadoop-2.6.0-cdh5.6.0 hadoop@slave2:/opt
4.3 配置环境变量 (root用户,所有节点都需要执行)修改 vim /etc/profile 后追加:export HADOOP_HOME=/opt/hadoop-2.6.0-cdh5.6.0export PATH=$PATH:$HADOOP_HOME/bin立即生效,执行:source /etc/profile
5.格式化HDFS第一次启动时,必须先将HDFS格式化,执行:hadoop namenode -format
6.启动Hadoop首先root用户赋予hadoop执行权限:chmod +x -R /opt/hadoop-2.6.0-cdh5.6.0/sbin启动命令,hadoop用户执行:./opt/hadoop-2.6.0-cdh5.6.0/sbin/start-all.sh使用jps,查看经常名称:
29072 Jps
26977 NodeManager
26885 ResourceManager
26567 DataNode
26477 NameNode
26750 SecondaryNameNode