Hadoop搭建指南
编程技术  /  houtizong 发布于 3年前   126
1.1 Java环境安装
1. 从Oracle官网下载JDK1.6Linux版本.
下载地址为:
http://download.oracle.com/otn-pub/java/jdk/6u32-b05/jdk-6u32-linux-i586.bin
2. 下载的文件为jdk-6u32-linux-i586.bin 文件,这中后缀名的bin文件可以直接执行..
下载完成之后,可以通过FTP传入到Linux系统中.
3. 接下来,登录linux系统,赋予执行权限,命令如下:
#mkdir /bin/java
# chmod -R 775 jdk-6u32-linux-i586.bin
4. 执行jdk的安装.
# ./jdk-6u32-linux-i586.bin
安装过程中,会提示您按回车键,敲回车键即可. 会在linux的当前目录下,产生一个jdk1.6.0_32文件.
jdk安装完成.
5. 配置环境变量.
环境变量的配置分为几种方式,根据自己的选择配置:
方式一:在/etc/profile文件中配置JAVA_HOME以及PATH和CLASS_PATH
因为这样的设置将对所以用户的shell都生效,对系统安全会产生影响。
就是在这个文件的最后加上:
export JAVA_HOME=/bin/java/jdk1.6.0_32
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
方式二:
修改.bashrc文件来配置环境变量:
#vi .bashrc
export JAVA_HOME=/bin/java/jdk1.6.0_32
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
配置完成之后,使用logout命令退出,然后重新登入使其生效.
验证一下是否安装成功,使用Java -version查看一下.
# java -version
java version "1.6.0_32"
Java(TM) SE Runtime Environment (build 1.6.0_32-b05)
Java HotSpot(TM) Client VM (build 20.7-b02, mixed mode, sharing)
1.2 主机配置
¨ vim /etc/hostname
hadoop5.com
/etc/init.d/hostname.sh start 重启动
¨ vim /etc/hosts
192.168.5.5 hadoop5.com
127.0.0.1 localhost
192.168.5.2 debian.private debian
192.168.5.5 brzh.com ~
1.3 Hadoop安装配置
¨ vim hadoop-env.sh
export JAVA_HOME=/bin/java/jdk1.6.0_32
¨ vim conf/core-site.xml
fs.default.name
定义: Name Node的URI
描述: hdfs://hostname/
<!-- fs.default.name - 这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。-->
<!—hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在这个路径中-->
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name> hadoop.tmp.dir</name>
<value>/home/tmp/hadoop</value> #设定Hadoop临时目录?
<description> </description>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://hadoop5.com:9100</value> #设置文件系统路径
</property>
<property>
<name>heartbeat.recheck.interval</name>#节点间心跳检测间隔时间默10分
<value>1000</value>
</property>
</configuration>
¨ vim conf/hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.relplication</name> ##HDFS的副本数,默认为3,如果DataNode的数量小于这个值会有问题
<value>2</value>
</property>
<property>
<name>dfs.permissions</name> ##是否对dfs中的文件进行权限控制
<value>false</value>
</property>
<property>
<name>dfs.http.address</name>
<value>hadoop5.com:50070</value> #指定namenode地址
</property>
<!--<property>
<name>dfs.secondary.http.address</name> #指定secondary namenode
<value>cloud3:50090</value>
</property>à
</configuration>
¨ vim conf/mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>hadoop5.com:9200</value> ##设置MapReduce Job运行的主机和端口
</property>
</configuration>
1.4 masters/slaves 配置
masters:指定namenode的主机名
slaves:指定datanode/tasktracker的主机名
将Hadoop目录同步到所有节点服务器
1.5 启动hadoop
¨ 格式化分布式文件系统
bin/hadoop namenode –format
¨ 关闭所有节点的防火墙及Selinux
¨ 在namenode上执行
bin/start-all.sh
¨ 每次启动都要删除
rm -R /tmp/hadoop-root 否则无法启动datanode
¨ 查看进程运行情况
$JAVA_HOME/bin/jps
./bin/hadoop namenode 查看namenode 启动情况
tail –f /bin/hadoop/log/*.log 查看各进程启动
1.6 查看运行
HDFS状态:
http://hadoop5.com:50070/dfshealth.jsp
MapReduce状态:
http://hadoop5.com:50030/jobtracker.jsp
查看文件系统情况:
bin/hadoop dfsadmin -report
列出文件系统目录:
bin/hadoop fs -ls hdfs://hadoop5.com:9100/
1.7 增加HDFS节点 (永久加节点在 namenode slave上加)
1、新节点ip/hosts:
192.168.5.6 hadoop6.com
2、在新节点上192.168.5.6上安装Hadoop,配置应与NameNode一致
3、若永久填加该节点,可修改masters和slaves文件
本案例在192.168.5.5 的slave 添加 hadoop6.com
本案例在192.168.5.6 的master 添加 hadoop5.com
4、临时填加节点,192.168.5.6执行命令:
./bin/hadoop-daemon.sh start datanode
./bin/hadoop-daemon.sh start tasktracker
5、查看http://hadoop5.com:50070,已变为4个live节点
1.8 热增加hdfs节点
有的时候, datanode或者tasktracker crash,或者需要向集群中增加新的机器时又不能重启集群。下面方法也许对你有用。
1.把新机器的增加到conf/slaves文件中(datanode或者tasktracker crash则可跳过)
2.在新机器上进入hadoop安装目录
$bin/hadoop-daemon.sh start datanode
$bin/hadoop-daemon.sh start tasktracker
3.在namenode上
$bin/hadoop balancer
1.9 Hadoop重启动
1.清空/tmp目录 rm –R /tmp/*
2.service iptables stop (看系统是否决定要执行这步)
3. ./bin/hadoop namenode –format
4. ./bin/start-all.sh (需要密码登录,执行下步)
1.10 配置SSH(免)密码登录
1、(namenode即master上)生成密钥
ssh-keygen -t rsa 默认存放目录为 /root/.ssh/
cd /root/.ssh
cp /root/.ssh/id_rsa.pub /root/.ssh/authorized_keys
2、slave 也执行 ssh-keygen -t rsa
3、拷贝密钥和授权
scp -r /root/.ssh/authorized_keys [email protected]:/root/.ssh/
然后在slave节点机上chmod 0600 /root/.ssh/authorized_keys
1.11 Hadoop配置项意义
配置项
fs.default.name
定义: Name Node的URI
描述: hdfs://hostname/
mapred.job.tracker
定义: JobTracker的地址
描述: hostname:port
dfs.name.dir
定义: Name Node 保存元数据和事务日志的本地目录
描述: 逗号分隔的目录列表用于指定多份数据的冗余备份.
dfs.data.dir
定义: Data Node 保存块文件的本地目录
描述: 逗号分隔的目录列表指定这些目录用于保存块文件.
mapred.system.dir
定义: HDFS上MapReduce保存系统文件的目录.
描述:
mapred.local.dir
定义: 保存MapReduce临时文件的本地目录
描述: 逗号分隔的目录列表用于指定多个目录同时做为临时数据空间
mapred.tasktracker.{map|reduce}.tasks.maximum
定义: TaskTracker上最多能够同时运行的map/reduce task数目.
描述: 默认map/reduce task数目各为2.
dfs.hosts/dfs.hosts.exclude
定义: Data Node白名单/黑名单文件
描述:
mapred.hosts/mapred.hosts.exclude
定义: MapReduce白名单/黑名单文件
描述:
mapred.queue.names
定义: 队列名
描述: hadoop MapReduce系统默认有一个"default"的Job队列(pool).
dfs.block.size
定义: hdfs默认块大小
描述: 默认是128M
dfs.namenode.handler.count
定义: namenode同时和datanode通信的线程数
描述:
mapred.reduce.parallel.copies
定义: reducer同时从mapper上拉取的文件数
描述:
mapred.child.java.opts
定义: child jvm的堆大小
描述:
3fs.inmemory.size.mb
定义: reducer在合并map输出数据使用的内存空间
描述: 默认使用200M
io.sort.factor
定义: 排序因子。同时合并的数据流的数量
描述:
io.sort.mb
定义: 排序使用的最大内存
描述:
io.file.buffer.size
定义: 读写文件的缓冲区大小
描述:
mapred.job.tracker.handler.count
定义: jobtracker同时与tasktracker通信的线程数
描述:
tasktracker.http.threads
定义:tasktracker开http服务的线程数。用于reduce拉取map输出数据。
1.12 Root登录
系统>系统管理>登录窗口,点“安全”选项页,选择“允许本地管理员登录”。
请勿发布不友善或者负能量的内容。与人为善,比聪明更重要!
技术博客集 - 网站简介:
前后端技术:
后端基于Hyperf2.1框架开发,前端使用Bootstrap可视化布局系统生成
网站主要作用:
1.编程技术分享及讨论交流,内置聊天系统;
2.测试交流框架问题,比如:Hyperf、Laravel、TP、beego;
3.本站数据是基于大数据采集等爬虫技术为基础助力分享知识,如有侵权请发邮件到站长邮箱,站长会尽快处理;
4.站长邮箱:[email protected];
文章归档
文章标签
友情链接