建设工作站服务器
上一步:
Hadoop群集守护进程
HDFS :
NameNode,NN
SecondaryNode,SNN
DataNode:DN
/data/hadoop/hdfs/{nn,snn,dn}
nn:fsp_w_picpath,editlog//镜像和日志编辑
//hdfs的NN将数据存储在存储器中,根据文件的状态持续变更元数据
fsp_w_picpath是对文件进行分割并存储在哪个节点中的
//文件元数据的变更被写入editllog,最后被写入fsp_w_picpath,因此即使下次重新启动NN,数据也会保留,从fsp_w_picpath读取数据,获取到存储器中
//NN崩溃会导致数据恢复需要大量时间
SNN(nn崩溃时,立即顶起,修复nn,省去使nn恢复在线的时间。 但是,各data node报告数据的状态,进行修复的时间仍然是必要的。
通常: snn负责copy nn的fsp_w_picpath和editlog,通过snn合并
check point :因为nn在不断变化,所以snn指定在那个时候合并。
//官方建议30个以上的node构建hadoop集群
由于data在raid//HDFS中已经具有复制功能,因此再次提供冗馀的必要性很低
hadoop-daemon.sh执行进程
在群集模式下使用hadoop-daemon.sh start DataNode时,必须自动查找每个DataNode节点并在每个DataNode上自动引导。
如何发现或如何保证命令通过主节点自动连接到每个从节点,并有权执行命令。
主节点:配置
YARN :
资源管理器
节点管理器:
yarn-daemon.sh start/stop
实际执行过程:
【NN】【SNN】【RM】
|||
————————3433543——————3354 -
[node1/NN][nod2/NN][node3/NN]
用node启动: datanode进程和nodemanager进程就可以了
实验模型:
【NN/SNN/RM】
|
——————33543354——335433543354——33——35433334 -
[node1/NN][nod2/NN][node3/NN]
在主节点上运行: namenode、secondarynamenode和资源管理器这三个进程
在其他node上启动: datanode进程和nodemanager进程
准备:
1.ntpdate同步
tzselect,
查看timedatactl //时区设置
timedatectl list-timezones #列出所有时区
timedatectl set-local-rtc 1 #将硬件时钟调整为与本地时钟匹配,0设置为UTC时间
timedatectlset-time zone Asia/Shanghai #将系统时区设置为上海
CP/usr/share/zoneinfo/Asia/Shanghai/etc/local time//最简单的方案
2 .主机通信
172.16.100.67 node1. mt.com node1master
172.16.100.68node2.mt.com node2
172.16.100.69node3.mt.com node3
172.16.100.70node4.mt.com node4
如果需要从主节点启动或关闭整个群集,则必须基于密钥ssh链接配置在主节点上运行服务的用户,如hdfs或yarn
节点1 :
一.前奏
(1)配置环境
vim /etc/profile.d/java.sh
JAVA_HOME=/usr
yuminstalljava-1.8.0-open JDK-devel.x86 _ 64
scp/etc/profile.d/Java.sh node2:/etc/profile.d /
scp/etc/profile.d/Java.sh node3:/etc/profile.d /
scp/etc/profile.d/Java.sh node4:/etc/profile.d /
vim /etc/profile.d/hadoop.sh
export Hadoop _ prefix=/BDA PPS/Hadoop
export path=$ path:$ { Hadoop _ prefix }/bin:$ { Hadoop _ prefix }/sbin
export Hadoop _ yarn _ home=$ { Hadoop _ prefix }
export Hadoop _ mapperd _ home=$ { Hadoop _ prefix }
export Hadoop _ common _ home=$ { Hadoop _ prefix }
export Hadoop _ HDFS _ home=$ { Hadoop _ prefix }
./etc/profile.d/hadoop.sh
scp/etc/profile.d/Hadoop.sh node2:/etc/profile.d /
scp/etc/profile.d/Hadoop.sh node3:/etc/profile.d /
scp/etc/profile.d/Hadoop.sh node4:/etc/profile.d /
)2)修改主机文件
vim /etc/hosts
172.16.100.67 node1. mt.com node1master
172.16.100.68node2.mt.com node2
172.16.100.69node3.mt.com node3
172.16.100.70node4.mt.com node4
从scp到节点2、节点3、节点4
)3) hadoop密钥注册
useradd Hadoop//node 2、3和4有一个Hadoop用户
echo Hadoop|passwdstdin Hadoop
useradd -g hadoop hadoop //您可以在此处使用一个用户,也可以分别创建yarn和hdfs用户
suHadoop
ssh-keygen
for i in 2 3 4; dossh-copy-id-I.ssh/id _ RSA.pub Hadoop @ node $ { I }; 唐
验证:
shnode2\\\&; quot; date\\&; quot;
shnode3\\\&; quot; date\\&; quot;
shnode4\\\&; quot; date\\&; quot;
二. hadoop安装部署
(1)解冻
mkdir-PV/BDA PPS//data/Hadoop/HDFS/{ nn,snn,dn}/此处的dn不可用。 因为主节点不保存数据,所以可以不创建
chown-r Hadoop:Hadoop/data/Hadoop/HDFS
tarxvfhadoop-2.6.2.tar.gz-c/BDA PPS /
cd /bdapps/
ln -sv hadoop-2.6.2 hadoop
光碟cd hadoop
mkdir logs
chown g w logs
chown -R hadoop:hadoop ./*
)2)更改配置文件
1.core-site.xml配置
vim etc/hadoop/core-site.xml
配置
属性
namefs.defaultFS/name
valuehdfs://master:8020/value
//hdfs的访问接口如果主机无法解析的话也可以是ip地址
文件真/文件
/property
/configuration
//core指的是NN
2.yanr-site.xml文件配置
vim etc/hadoop/yarn-site.xml
配置
属性
name yarn.resource manager.address/name
valuemaster:8032/value
/property
属性
name yarn.resource manager.scheduler.address/name
valuemaster:8030/value
/property
属性
name yarn.resource manager.resource-tracker.address/name
valuemaster:8031/value
/property
属性
name yarn.resource manager.admin.address/name
valuemaster:8033/value
/property
属性
name yarn.resource manager.web app.address/name
valuemaster:8088/value
/property
属性
name yarn.node manager.aux-services/name
valuemapreduce_shuffle/value
/property
属性
name yarn.node manager.aux services.MapReduce _ shuffle.class/name
value org.Apache.Hadoop.mapred.shuffle handler/value
/property
属性
name yarn.resource manager.scheduler.class/name
value org.Apache.Hadoop.yarn.server.resource manager.scheduler.capacity.capacity scheduler/value
/property
/configuration
//% s/localhost/master/g//localhost替换为master
指向资源管理器
3.hdfs-site.xml配置
vim etc/hadoop/hdfs-site.xml
配置
属性
namedfs.replication/name //dfs的副本数
value2/value
/property
专业人士
namedfs.namenode.name.dir/name
value file://data/Hadoop/HDFS/nn/value
/property
专业人士
namedfs.datanode.data.dir/name
value file://data/Hadoop/HDFS/dn/value
/property
属性
namefs.checkpoint.dir/name
value file://data/Hadoop/HDFS/snn/value
/property
属性
name fs.check point.edits.dir/name
value file://data/Hadoop/HDFS/snn/value
/property
/configuration
4.
mapred-site.xml是唯一不需要修改的东西
默认为杨就可以了
5.
vim slaves
节点2
节点3
节点4
//slaves是datanode和nodemanager
(3) ) )。
将节点2、节点3和节点4分配给此步骤后: chown -R hadoop:hadoop ./*
suHadoop
scp/BDA PPS/Hadoop/etc/Hadoop/* node2:/BDA PPS/Hadoop/etc/Hadoop /
scp/BDA PPS/Hadoop/etc/Hadoop/* node3:/BDA PPS/Hadoop/etc/Hadoop /
scp/BDA PPS/Hadoop/etc/Hadoop/* node4:/BDA PPS/Hadoop/etc/Hadoop /
3 .格式化并启动
suHadoop
hdfs namenode -format
表示/data/Hadoop/HDFS/nnhashbeensuccessfulformatted成功
有两种方法可以启动hadoop。
1 .在每个节点上单独启动要启动的服务
要启动yarn服务,请使用yarn用户id
主节点: NameNode服务和资源管理器服务
su-HDFS-c\\\&; quot; Hadoop-daemon.shstartnamenode\\ & amp; quot;
su-HDFS-c\\\&; quot; yarn-daemon.shstartresourcemanager\\ & amp; quot;
slave节点: DataNode服务和节点管理器服务
su-HDFS-c\\\&; quot; Hadoop-daemon.shstartdatanode\\ & amp; quot;
su-HDFS-c\\\&; quot; yarn-daemon.shstartnodemanager\\ & amp; quot;
2 .在主机上启动整个群集
su - hdfs -c \\\&; #039; start-dfs.sh\\\&; quot;
su - hdfs -c \\\&; #039; start-yarn.sh\\\&; quot;
旧版本通过start-all.sh和stop-all.sh控制hdfs和mapreduce
启动服务:
su - hdfs -c \\\&; #039; start-dfs.sh\\\&; quot;
su-HDFS-c\\&; quot; stop-DFS.sh\\\&; quot; 关闭/HDFS
将指示在2、3和4节点上启动
su - hdfs -c \\\&; #039; start-yarn.sh\\\&; quot;
主节点启动资源管理器
在slave上启动节点管理器
测试:
node3: suHadoop
查看JPS//datanode和NodeManager进程
node1: suHadoop
jps //将启动secondaryNameNode和NameNode进程
hdfs dfs -mkdir /test
HD fsdfs-put/etc/fstab/test/fstab
hdfs dfs -ls -R /test
hdfs dfs -cat /test/fstab
节点3 :
ls/data/Hadoop/HDFS/dn/current//blk,…存储在此处
注意:节点2、3、4之一没有保存文件,因为定义的slaves有两个
vim etc/hadoop/hdfs-site.xml
namedfs.replication/name //dfs的副本数
value2/value
显示Web界面:
172.16.100.67:8088
内存显示为24G。 由于是3G,所以每个node的物理内存世代的大小为8G
172.16.100.67:50070
有两个datanode
如果一个文件太小,它不会被剪切,而大于64M的文件会被剪切
可以直接上传压缩文件,会被剪掉
运行任务测试:
yarn jar/BDA PPS/Hadoop/share/Hadoop/MapReduce/Hadoop-MapReduce-example-2.6.jar word count/test/fstab/ted
hdfs dfs cat /test/wc/part-r-0000
四.其他节点
节点2 :
用户硬件
echo Hadoop|passwdstdin Hadoop
只有mkdir-PV/BDA PPS/data/Hadoop/HDFS/{ nn,snn,dn} //是有用的
chown-r Hadoop:Hadoop/data/Hadoop/HDFS /
tarxvfhadoop-2.6.2.tar.gz-c/BDA PPS /
cd /bdapps/
ln -sv hadoop-2.6.2 hadoop
光碟cd hadoop
mkdir logs
chown g w logs
chown -R hadoop:hadoop ./*
//修改配置文件后,可以直接复制到node3和node4是因为配置相同
节点3 :
用户硬件
echo Hadoop|passwdstdin Hadoop
只有mkdir-PV/BDA PPS/data/Hadoop/HDFS/{ nn,snn,dn} //是有用的
chown-r Hadoop:Hadoop/data/Hadoop/HDFS /
tarxvfhadoop-2.6.2.tar.gz-c/BDA PPS /
cd /bdapps/
ln -sv hadoop-2.6.2 hadoop
光碟cd hadoop
mkdir logs
chown g w logs
chown -R hadoop:hadoop ./*
节点4 :
用户硬件
echo Hadoop|passwdstdin Hadoop
只有mkdir-PV/BDA PPS/data/Hadoop/HDFS/{ nn,snn,dn} //是有用的
chown-r Hadoop:Hadoop/data/Hadoop/HDFS /
tarxvfhadoop-2.6.2.tar.gz-c/BDA PPS /
cd /bdapps/
ln -sv hadoop-2.6.2 hadoop
光碟cd hadoop
mkdir logs
chown g w logs
chown -R hadoop:hadoop ./*
=========================================================================================
yarn的集群管理命令
yarn [configconfdir ] command
删除资源管理器-格式-状态-存储//rmstatestore
运行资源管理器//资源管理器
运行节点管理器//nodemanageroneachslave
运行timelineserver//timelineserver、组织任务和时间线
管理RM admin//资源管理器
版本
运行jar//jar文件
查看APP//APP信息
报告/kill应用程序
尝试运行applicationattempt //相关报告
容器//容器信息
显示节点//node
队列//报告队列信息
logs //容器日志备份
显示classpath//Java运行程序时类的加载路径
获取daemonlog //守护程序的日志级别
jar、application、node、logs、classpath、version是常用的用户命令
资源管理器、节点管理器、代理服务器、rmadmin、daemon是常见的管理类命令
yarn application [options]
-状态应用程序id状态信息
yarn application-status application _ 1494685700454 _ 0001
-列表将显示yarn的APP列表
-appTypes:MAPREDUCE,YARN
-appStates:ALL,NEW,NEW_SAVING,SUBMITTED,ACCEPTED,RUNNING,FINISHED,FAILED,KILLED
yarn application -appStates=all
-kill ApplicationID
yarn node
-列出列表//节点列表
-states: NEW、RUNNING、UNHEALTHY不健康,DECOMMISSION退役,LOST、REBOOTED
-显示-staus Node-ID //节点信息
logs :显示已完成的YARN程序的日志(以及状态为FAILED、KILLED、FINISHED )
如果需要在命令行中查看日志,则必须配置yarn-site.xml
yarn.log-aggregation-enable属性值为true
yarn logs-application id [ application id ] [ options ]
-从资源管理器获取详细信息所需的-applicationId applicationID必需选项。
-appOwner APPOwner默认为当前用户。 选项
- nodeaddressnodeaddress-containeridcontainerid :获取有关当前在指定节点上指定的容器的信息; 其中NodeAddress的格式与NodeId相同
classpath :
加载yarncaLasspath//Java程序路径
管理命令:
rmadmin
节点管理器
timelineserver
rmadmin是资源管理器的客户端程序,可用于更新访问控制策略、调度程序队列、已在RM中注册的节点等。
刷新后,无需重新启动即可生效。
yarn rmadmin [options]
-帮助
-refreshQueues :重新加载队列的acl、状态和调用队列; 根据配置文件中的配置信息重新初始化调度程序
- refresh nodes :更新RM的主机信息。 读取RM节点上的include和exclude文件,并更新群集必须包括或排除的节点列表。
-refreshUserToGroupMappings :通过基于配置的Hadoop安全组映射更新组缓存中的信息来更新用户和组之间的映射关系。
- refreshsuperusergroupsconfiguration :更新超级用户代理组映射,以获取在代理主机和core-site.xml配置文件的hadoop.proxyuser属性中定义的代理主机
- refreshadminacls :根据yarn站点配置文件或默认配置文件的yarn.admin.acl属性刷新RM的管理ACL;
-refreshServiceAcl :重新加载服务级别授权策略文件,RM重新加载授权策略文件; 检查hadoop安全许可证是否有效,并更新IPC服务器、应用程序主服务器、客户端和资源跟踪程序的ACL。
DaemonLog :查看或详细信息
http://host:port/logLevel? log=name service?
yarn daemonlog [options] args
-getLevel host:port name :显示指定守护程序的日志级别
-getLevel host:port level :设置守护程序日志级别
运行应用程序
yarn application可以是shell脚本、MapReduce作业或任何其他类型的作业。
步骤:
1.APP初始化提交///客户端完成
2 .分配内存,启动AM //RM完成
3.AM注册和资源分配//AM在节点管理器中完成
4 .启动容器//AM,监视并向NM报告,NM报告RM完成
5.APP进度报告//AM完成
6.APP进度完成/
利用ambari部署hadoop集群
3359 www.IBM.com/developer works/cn/open source/OS-cn-big data-ambari /
3359 c wiki.Apache.org/confluence/display/ambari/installationguideforambari2.5. 0
IBM官方技术论坛: https://www.IBM.com/developer works/cn/open source /
Ambari 2.2.2下载资源
公式
3358 public-repo-1.Horton works.com/ambari/centos7/2. x/updates/2.2.2.2.0
3358 public-repo-1.Horton works.com/ambari/centos6/2. x/updates/2.2.2.0/ambari.repo
3358 public-repo-1.Horton works.com/ambari/centos7/2. x/updates/2.2.2.0/ambari-2.2.2.0-0
HDP 2.4.2下载资源
3358 public-repo-1.Horton works.com/HDP/centos7/2. x/updates/2.4.2.0
3358 public-repo-1.Horton works.com/HDP/centos7/2. x/updates/2.4.2.0/HDP.repo
3358 public-repo-1.Horton works.com/HDP/centos7/2. x/updates/2.4.2.0/HDP-2.4.2.2.0-cece
3358 public-repo-1.Horton works.com/HDP-utils-1.1.0.20/repos/centos 7
3358 public-repo-1.Horton works.com/HDP-utils-1.1.0.20/repos/centos7/HDP-utils-1.1.0.20-com
详情请访问云服务器、域名注册、虚拟主机的问题,请访问西部数码代理商官方网站: www.chenqinet.cn