BigData大数据运维-linux运维-PHP中文网

大数据运维

一.HDFS分布式文件系统运维

1.在HDFS文件系统的根目录下创建递归目录“1daoyun/file”，将附件中的BigDataSkills.txt文件，上传到1daoyun/file目录中，使用相关命令查看文件系统中1daoyun/file目录的文件列表信息。

hadoop fs -mkdir -p /1daoyun/file

hadoop fs -put BigDataSkills.txt /1daoyun/file

hadoop fs -ls /1daoyun/file

2.在HDFS文件系统的根目录下创建递归目录“1daoyun/file”，将附件中的BigDataSkills.txt文件，上传到1daoyun/file目录中，并使用HDFS文件系统检查工具检查文件是否受损。

hadoop fs -mkdir -p /1daoyun/file

hadoop fs -put BigDataSkills.txt/1daoyun/file

hadoop fsck /1daoyun/file/BigDataSkills.txt

3.在HDFS文件系统的根目录下创建递归目录“1daoyun/file”，将附件中的BigDataSkills.txt文件，上传到1daoyun/file目录中，上传过程指定BigDataSkills.txt文件在HDFS文件系统中的复制因子为2，并使用fsck工具检查存储块的副本数。

hadoop fs -mkdir -p /1daoyun/file

hadoop fs -D dfs.replication=2 -put BigDataSkills.txt /1daoyun/file

hadoop fsck /1daoyun/file/BigDataSkills.txt

4.HDFS文件系统的根目录下存在一个/apps的文件目录，要求开启该目录的可创建快照功能，并为该目录文件创建快照，快照名称为apps_1daoyun，使用相关命令查看该快照文件的列表信息。

hadoop dfsadmin -allowSnapshot /apps

hadoop fs -createSnapshot /apps apps_1daoyun

hadoop fs -ls /apps/.snapshot

5.当Hadoop集群启动的时候，会首先进入到安全模式的状态，该模式默认30秒后退出。当系统处于安全模式时，只能对HDFS文件系统进行读取，无法进行写入修改删除等的操作。现假设需要对Hadoop集群进行维护，需要使集群进入安全模式的状态，并检查其状态。

hdfs dfsadmin -safemode enter

hdfs dfsadmin -safemode get

6.为了防止操作人员误删文件，HDFS文件系统提供了回收站的功能，但过多的垃圾文件会占用大量的存储空间。要求在先电大数据平台的WEB界面将HDFS文件系统回收站中的文件彻底删除的时间间隔为7天。高级core-sitefs.trash.interval：10080

7.为了防止操作人员误删文件，HDFS文件系统提供了回收站的功能，但过多的垃圾文件会占用大量的存储空间。要求在Linux Shell中使用“vi”命令修改相应的配置文件以及参数信息，关闭回收站功能。完成后，重启相应的服务。高级core-sitefs.trash.interval：0

vi /etc/hadoop/2.4.3.0-227/0/core-site.xml

fs.trash.interval

sbin/stop-dfs.sh

sbin/start-dfs.sh

8.Hadoop集群中的主机在某些情况下会出现宕机或者系统损坏的问题，一旦遇到这些问题，HDFS文件系统中的数据文件难免会产生损坏或者丢失，为了保证HDFS文件系统的可靠性，现需要在先电大数据平台的WEB界面将集群的冗余复制因子修改为5。

General
Block replication
5

9.Hadoop集群中的主机在某些情况下会出现宕机或者系统损坏的问题，一旦遇到这些问题，HDFS文件系统中的数据文件难免会产生损坏或者丢失，为了保证HDFS文件系统的可靠性，需要将集群的冗余复制因子修改为5，在Linux Shell中使用“vi”命令修改相应的配置文件以及参数信息，完成后，重启相应的服务。

或者

vi/etc/hadoop/2.4.3.0-227/0/hdfs-site.xml

dfs.replication

su - hdfs

/usr/hdp/current/hadoop-client/sbin/hadoop-daemon.sh --config /usr/hdp/current/hadoop-client/conf stop {namenode/datenode}

/usr/hdp/current/hadoop-client/sbin/hadoop-daemon.sh --config /usr/hdp/current/hadoop-client/conf start {namenode/datenode}

10.使用命令查看hdfs文件系统中/tmp目录下的目录个数，文件个数和文件总大小。

hadoop fs -count /tmp

2.MapREDUCE案例题

1.在集群节点中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目录下，存在一个案例JAR包hadoop-mapreduce-examples.jar。运行JAR包中的PI程序来进行计算圆周率π的近似值，要求运行5次Map任务，每个Map任务的投掷次数为5。

cd/usr/hdp/2.4.3.0-227/hadoop-mapreduce/

hadoop jar hadoop-mapreduce-examples-2.7.1.2.4.3.0-227.jar pi 5 5

2.在集群节点中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目录下，存在一个案例JAR包hadoop-mapreduce-examples.jar。运行JAR包中的wordcount程序来对/1daoyun/file/BigDataSkills.txt文件进行单词计数，将运算结果输出到/1daoyun/output目录中，使用相关命令查询单词计数结果。

hadoop jar/usr/hdp/2.4.3.0-227/hadoop-mapreduce/hadoop-mapreduce-examples-2.7.1.2.4.3.0-227.jar wordcount /1daoyun/file/BigDataSkills.txt /1daoyun/output

3.在集群节点中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目录下，存在一个案例JAR包hadoop-mapreduce-examples.jar。运行JAR包中的sudoku程序来计算下表中数独运算题的结果。。

cat puzzle1.dta

hadoop jarhadoop-mapreduce-examples-2.7.1.2.4.3.0-227.jar sudoku /root/puzzle1.dta

4.在集群节点中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目录下，存在一个案例JAR包hadoop-mapreduce-examples.jar。运行JAR包中的grep程序来统计文件系统中/1daoyun/file/BigDataSkills.txt文件中“Hadoop”出现的次数，统计完成后，查询统计结果信息。