hadoo分布式安装--陈奇网络工作室

建设工作站服务器

上一步：

Hadoop群集守护进程

HDFS :

NameNode，NN

SecondaryNode，SNN

DataNode:DN

/data/hadoop/hdfs/{nn，snn，dn}

nn:fsp_w_picpath，editlog//镜像和日志编辑

//hdfs的NN将数据存储在存储器中，根据文件的状态持续变更元数据

fsp_w_picpath是对文件进行分割并存储在哪个节点中的

//文件元数据的变更被写入editllog，最后被写入fsp_w_picpath，因此即使下次重新启动NN，数据也会保留，从fsp_w_picpath读取数据，获取到存储器中

//NN崩溃会导致数据恢复需要大量时间

SNN(nn崩溃时，立即顶起，修复nn，省去使nn恢复在线的时间。但是，各data node报告数据的状态，进行修复的时间仍然是必要的。

通常： snn负责copy nn的fsp_w_picpath和editlog，通过snn合并

check point :因为nn在不断变化，所以snn指定在那个时候合并。

//官方建议30个以上的node构建hadoop集群

由于data在raid//HDFS中已经具有复制功能，因此再次提供冗馀的必要性很低

hadoop-daemon.sh执行进程

在群集模式下使用hadoop-daemon.sh start DataNode时，必须自动查找每个DataNode节点并在每个DataNode上自动引导。

如何发现或如何保证命令通过主节点自动连接到每个从节点，并有权执行命令。

主节点：配置

YARN :

资源管理器

节点管理器：

yarn-daemon.sh start/stop

实际执行过程：

【NN】【SNN】【RM】

|||

————————3433543——————3354 -

[node1/NN][nod2/NN][node3/NN]

用node启动： datanode进程和nodemanager进程就可以了

实验模型：

【NN/SNN/RM】

——————33543354——335433543354——33——35433334 -

[node1/NN][nod2/NN][node3/NN]

在主节点上运行： namenode、secondarynamenode和资源管理器这三个进程

在其他node上启动： datanode进程和nodemanager进程

准备：

1.ntpdate同步

tzselect，

查看timedatactl //时区设置

timedatectl list-timezones #列出所有时区

timedatectl set-local-rtc 1 #将硬件时钟调整为与本地时钟匹配，0设置为UTC时间

timedatectlset-time zone Asia/Shanghai #将系统时区设置为上海

CP/usr/share/zoneinfo/Asia/Shanghai/etc/local time//最简单的方案

2 .主机通信

172.16.100.67 node1. mt.com node1master

172.16.100.68node2.mt.com node2

172.16.100.69node3.mt.com node3

172.16.100.70node4.mt.com node4

如果需要从主节点启动或关闭整个群集，则必须基于密钥ssh链接配置在主节点上运行服务的用户，如hdfs或yarn

节点1 :

一.前奏

(1)配置环境

vim /etc/profile.d/java.sh

JAVA_HOME=/usr

yuminstalljava-1.8.0-open JDK-devel.x86 _ 64

scp/etc/profile.d/Java.sh node2:/etc/profile.d /

scp/etc/profile.d/Java.sh node3:/etc/profile.d /

scp/etc/profile.d/Java.sh node4:/etc/profile.d /

vim /etc/profile.d/hadoop.sh

export Hadoop _ prefix=/BDA PPS/Hadoop

export path=$ path:$ { Hadoop _ prefix }/bin:$ { Hadoop _ prefix }/sbin

export Hadoop _ yarn _ home=$ { Hadoop _ prefix }

export Hadoop _ mapperd _ home=$ { Hadoop _ prefix }

export Hadoop _ common _ home=$ { Hadoop _ prefix }

export Hadoop _ HDFS _ home=$ { Hadoop _ prefix }

./etc/profile.d/hadoop.sh

scp/etc/profile.d/Hadoop.sh node2:/etc/profile.d /

scp/etc/profile.d/Hadoop.sh node3:/etc/profile.d /

scp/etc/profile.d/Hadoop.sh node4:/etc/profile.d /

)2)修改主机文件

vim /etc/hosts

172.16.100.67 node1. mt.com node1master

172.16.100.68node2.mt.com node2

172.16.100.69node3.mt.com node3

172.16.100.70node4.mt.com node4

从scp到节点2、节点3、节点4

)3) hadoop密钥注册

useradd Hadoop//node 2、3和4有一个Hadoop用户

echo Hadoop|passwdstdin Hadoop

useradd -g hadoop hadoop //您可以在此处使用一个用户，也可以分别创建yarn和hdfs用户

suHadoop

ssh-keygen

for i in 2 3 4； dossh-copy-id-I.ssh/id _ RSA.pub Hadoop @ node $ { I }；唐

验证：

shnode2\\\&amp； quot； date\\&amp； quot；

shnode3\\\&amp； quot； date\\&amp； quot；

shnode4\\\&amp； quot； date\\&amp； quot；

二. hadoop安装部署

(1)解冻

mkdir-PV/BDA PPS//data/Hadoop/HDFS/{ nn，snn，dn}/此处的dn不可用。因为主节点不保存数据，所以可以不创建

chown-r Hadoop:Hadoop/data/Hadoop/HDFS

tarxvfhadoop-2.6.2.tar.gz-c/BDA PPS /

cd /bdapps/

ln -sv hadoop-2.6.2 hadoop

光碟cd hadoop

mkdir logs

chown g w logs

chown -R hadoop:hadoop ./*

)2)更改配置文件

1.core-site.xml配置

vim etc/hadoop/core-site.xml

配置

属性

namefs.defaultFS/name

valuehdfs://master:8020/value

//hdfs的访问接口如果主机无法解析的话也可以是ip地址

文件真/文件

/property

/configuration

//core指的是NN

2.yanr-site.xml文件配置

vim etc/hadoop/yarn-site.xml

配置

属性

name yarn.resource manager.address/name

valuemaster:8032/value

/property

属性

name yarn.resource manager.scheduler.address/name

valuemaster:8030/value

/property

属性

name yarn.resource manager.resource-tracker.address/name

valuemaster:8031/value

/property

属性

name yarn.resource manager.admin.address/name

valuemaster:8033/value

/property

属性

name yarn.resource manager.web app.address/name

valuemaster:8088/value

/property

属性

name yarn.node manager.aux-services/name

valuemapreduce_shuffle/value

/property

属性

name yarn.node manager.aux services.MapReduce _ shuffle.class/name

value org.Apache.Hadoop.mapred.shuffle handler/value

/property

属性

name yarn.resource manager.scheduler.class/name

value org.Apache.Hadoop.yarn.server.resource manager.scheduler.capacity.capacity scheduler/value

/property

/configuration

//% s/localhost/master/g//localhost替换为master

指向资源管理器

3.hdfs-site.xml配置

vim etc/hadoop/hdfs-site.xml

配置

属性

namedfs.replication/name //dfs的副本数

value2/value

/property

专业人士

namedfs.namenode.name.dir/name

value file://data/Hadoop/HDFS/nn/value

/property

专业人士

namedfs.datanode.data.dir/name

value file://data/Hadoop/HDFS/dn/value

/property

属性

namefs.checkpoint.dir/name

value file://data/Hadoop/HDFS/snn/value

/property

属性

name fs.check point.edits.dir/name

value file://data/Hadoop/HDFS/snn/value

/property

/configuration

mapred-site.xml是唯一不需要修改的东西

默认为杨就可以了

vim slaves

节点2

节点3

节点4

//slaves是datanode和nodemanager

(3) ) )。

将节点2、节点3和节点4分配给此步骤后： chown -R hadoop:hadoop ./*

suHadoop

scp/BDA PPS/Hadoop/etc/Hadoop/* node2:/BDA PPS/Hadoop/etc/Hadoop /

scp/BDA PPS/Hadoop/etc/Hadoop/* node3:/BDA PPS/Hadoop/etc/Hadoop /

scp/BDA PPS/Hadoop/etc/Hadoop/* node4:/BDA PPS/Hadoop/etc/Hadoop /

3 .格式化并启动

suHadoop

hdfs namenode -format

表示/data/Hadoop/HDFS/nnhashbeensuccessfulformatted成功

有两种方法可以启动hadoop。

1 .在每个节点上单独启动要启动的服务

要启动yarn服务，请使用yarn用户id

主节点： NameNode服务和资源管理器服务

su-HDFS-c\\\&amp； quot； Hadoop-daemon.shstartnamenode\\ & amp； quot；

su-HDFS-c\\\&amp； quot； yarn-daemon.shstartresourcemanager\\ & amp； quot；

slave节点： DataNode服务和节点管理器服务

su-HDFS-c\\\&amp； quot； Hadoop-daemon.shstartdatanode\\ & amp； quot；

su-HDFS-c\\\&amp； quot； yarn-daemon.shstartnodemanager\\ & amp； quot；

2 .在主机上启动整个群集

su - hdfs -c \\\&amp； #039； start-dfs.sh\\\&amp； quot；

su - hdfs -c \\\&amp； #039； start-yarn.sh\\\&amp； quot；

旧版本通过start-all.sh和stop-all.sh控制hdfs和mapreduce

启动服务：

su - hdfs -c \\\&amp； #039； start-dfs.sh\\\&amp； quot；

su-HDFS-c\\&amp； quot； stop-DFS.sh\\\&amp； quot；关闭/HDFS

将指示在2、3和4节点上启动

su - hdfs -c \\\&amp； #039； start-yarn.sh\\\&amp； quot；

主节点启动资源管理器

在slave上启动节点管理器

测试：

node3: suHadoop

查看JPS//datanode和NodeManager进程

node1: suHadoop

jps //将启动secondaryNameNode和NameNode进程

hdfs dfs -mkdir /test

HD fsdfs-put/etc/fstab/test/fstab

hdfs dfs -ls -R /test

hdfs dfs -cat /test/fstab

节点3 :

ls/data/Hadoop/HDFS/dn/current//blk，…存储在此处

注意：节点2、3、4之一没有保存文件，因为定义的slaves有两个

vim etc/hadoop/hdfs-site.xml

namedfs.replication/name //dfs的副本数

value2/value

显示Web界面：

172.16.100.67:8088

内存显示为24G。由于是3G，所以每个node的物理内存世代的大小为8G

172.16.100.67:50070

有两个datanode

如果一个文件太小，它不会被剪切，而大于64M的文件会被剪切

可以直接上传压缩文件，会被剪掉

运行任务测试：

yarn jar/BDA PPS/Hadoop/share/Hadoop/MapReduce/Hadoop-MapReduce-example-2.6.jar word count/test/fstab/ted

hdfs dfs cat /test/wc/part-r-0000

四.其他节点

节点2 :

用户硬件

echo Hadoop|passwdstdin Hadoop

只有mkdir-PV/BDA PPS/data/Hadoop/HDFS/{ nn，snn，dn} //是有用的

chown-r Hadoop:Hadoop/data/Hadoop/HDFS /

tarxvfhadoop-2.6.2.tar.gz-c/BDA PPS /

cd /bdapps/

ln -sv hadoop-2.6.2 hadoop

光碟cd hadoop

mkdir logs

chown g w logs

chown -R hadoop:hadoop ./*

//修改配置文件后，可以直接复制到node3和node4是因为配置相同

节点3 :

用户硬件

echo Hadoop|passwdstdin Hadoop

只有mkdir-PV/BDA PPS/data/Hadoop/HDFS/{ nn，snn，dn} //是有用的

chown-r Hadoop:Hadoop/data/Hadoop/HDFS /

tarxvfhadoop-2.6.2.tar.gz-c/BDA PPS /

cd /bdapps/

ln -sv hadoop-2.6.2 hadoop

光碟cd hadoop

mkdir logs

chown g w logs

chown -R hadoop:hadoop ./*

节点4 :

用户硬件

echo Hadoop|passwdstdin Hadoop

只有mkdir-PV/BDA PPS/data/Hadoop/HDFS/{ nn，snn，dn} //是有用的

chown-r Hadoop:Hadoop/data/Hadoop/HDFS /

tarxvfhadoop-2.6.2.tar.gz-c/BDA PPS /

cd /bdapps/

ln -sv hadoop-2.6.2 hadoop

光碟cd hadoop

mkdir logs

chown g w logs

chown -R hadoop:hadoop ./*

=========================================================================================

yarn的集群管理命令

yarn [configconfdir ] command

删除资源管理器-格式-状态-存储//rmstatestore

运行资源管理器//资源管理器

运行节点管理器//nodemanageroneachslave

运行timelineserver//timelineserver、组织任务和时间线

管理RM admin//资源管理器

版本

运行jar//jar文件

查看APP//APP信息

报告/kill应用程序

尝试运行applicationattempt //相关报告

容器//容器信息

显示节点//node

队列//报告队列信息

logs //容器日志备份

显示classpath//Java运行程序时类的加载路径

获取daemonlog //守护程序的日志级别

jar、application、node、logs、classpath、version是常用的用户命令

资源管理器、节点管理器、代理服务器、rmadmin、daemon是常见的管理类命令

yarn application [options]

-状态应用程序id状态信息

yarn application-status application _ 1494685700454 _ 0001

-列表将显示yarn的APP列表

-appTypes:MAPREDUCE，YARN

-appStates:ALL，NEW，NEW_SAVING，SUBMITTED，ACCEPTED，RUNNING，FINISHED，FAILED，KILLED

yarn application -appStates=all

-kill ApplicationID

yarn node

-列出列表//节点列表

-states: NEW、RUNNING、UNHEALTHY不健康，DECOMMISSION退役，LOST、REBOOTED

-显示-staus Node-ID //节点信息

logs :显示已完成的YARN程序的日志(以及状态为FAILED、KILLED、FINISHED )

如果需要在命令行中查看日志，则必须配置yarn-site.xml

yarn.log-aggregation-enable属性值为true

yarn logs-application id [ application id ] [ options ]

-从资源管理器获取详细信息所需的-applicationId applicationID必需选项。

-appOwner APPOwner默认为当前用户。选项

- nodeaddressnodeaddress-containeridcontainerid :获取有关当前在指定节点上指定的容器的信息；其中NodeAddress的格式与NodeId相同

classpath :

加载yarncaLasspath//Java程序路径

管理命令：

rmadmin

节点管理器

timelineserver

rmadmin是资源管理器的客户端程序，可用于更新访问控制策略、调度程序队列、已在RM中注册的节点等。

刷新后，无需重新启动即可生效。

yarn rmadmin [options]

-帮助

-refreshQueues :重新加载队列的acl、状态和调用队列；根据配置文件中的配置信息重新初始化调度程序

- refresh nodes :更新RM的主机信息。读取RM节点上的include和exclude文件，并更新群集必须包括或排除的节点列表。

-refreshUserToGroupMappings :通过基于配置的Hadoop安全组映射更新组缓存中的信息来更新用户和组之间的映射关系。

- refreshsuperusergroupsconfiguration :更新超级用户代理组映射，以获取在代理主机和core-site.xml配置文件的hadoop.proxyuser属性中定义的代理主机

- refreshadminacls :根据yarn站点配置文件或默认配置文件的yarn.admin.acl属性刷新RM的管理ACL；

-refreshServiceAcl :重新加载服务级别授权策略文件，RM重新加载授权策略文件；检查hadoop安全许可证是否有效，并更新IPC服务器、应用程序主服务器、客户端和资源跟踪程序的ACL。

DaemonLog :查看或详细信息

http://host:port/logLevel？ log=name service？

yarn daemonlog [options] args

-getLevel host:port name :显示指定守护程序的日志级别

-getLevel host:port level :设置守护程序日志级别

运行应用程序

yarn application可以是shell脚本、MapReduce作业或任何其他类型的作业。

步骤：

1.APP初始化提交///客户端完成

2 .分配内存，启动AM //RM完成

3.AM注册和资源分配//AM在节点管理器中完成

4 .启动容器//AM，监视并向NM报告，NM报告RM完成

5.APP进度报告//AM完成

6.APP进度完成/

利用ambari部署hadoop集群

3359 www.IBM.com/developer works/cn/open source/OS-cn-big data-ambari /

3359 c wiki.Apache.org/confluence/display/ambari/installationguideforambari2.5. 0

IBM官方技术论坛： https://www.IBM.com/developer works/cn/open source /

Ambari 2.2.2下载资源

公式

3358 public-repo-1.Horton works.com/ambari/centos7/2. x/updates/2.2.2.2.0

3358 public-repo-1.Horton works.com/ambari/centos6/2. x/updates/2.2.2.0/ambari.repo

3358 public-repo-1.Horton works.com/ambari/centos7/2. x/updates/2.2.2.0/ambari-2.2.2.0-0

HDP 2.4.2下载资源

3358 public-repo-1.Horton works.com/HDP/centos7/2. x/updates/2.4.2.0

3358 public-repo-1.Horton works.com/HDP/centos7/2. x/updates/2.4.2.0/HDP.repo

3358 public-repo-1.Horton works.com/HDP/centos7/2. x/updates/2.4.2.0/HDP-2.4.2.2.0-cece

3358 public-repo-1.Horton works.com/HDP-utils-1.1.0.20/repos/centos 7

3358 public-repo-1.Horton works.com/HDP-utils-1.1.0.20/repos/centos7/HDP-utils-1.1.0.20-com

详情请访问云服务器、域名注册、虚拟主机的问题，请访问西部数码代理商官方网站： www.chenqinet.cn

相关推荐