[AWS-EC2 Hadoop|Hive|Spark] Hdfs 파일 포맷, Hdfs/Yarm 시작 종료

Cloud | AI | BigData

[AWS-EC2 Hadoop|Hive|Spark] Hdfs 파일 포맷, Hdfs/Yarm 시작 종료

개폰지밥 2022. 12. 10. 08:00

| SystemStructure

내용

1. Hdfs 파일 포맷

[hadoop@Namenode hadoop]$ hdfs namenode -format

2. HDFS, YARM 시작 종료

2.1 Hdfs, Yarm 시작

[hadoop@Namenode hadoop]$ start-dfs.sh

[hadoop@secondnode data]$ start-yarn.sh

저는 Resource Manager가 SecondaryNameNode에 위치했기 때문에 second 서버에서 start-yarm.sh 명령어를 했습니다.

NameNode에 Resource Manager가 있으면 NameNode서버에서 start-yarm.sh를 하시기 바랍니다 :)

[hadoop@Namenode hadoop]$ mapred --daemon start historyserver

2.2 Hdfs, Yarm 구동 확인

2.2.1 jps로 확인

2.2.1.1 NameNode, DataNode1, Job History

[hadoop@Namenode data]$ jps
5137 DataNode
5013 NameNode
5687 Jps
5451 NodeManager
5629 JobHistoryServer

2.2.1.2 Secdondary NameNode, DataNode2, Resource Manager
[hadoop@secondnode data]$ jps
5344 Jps
4737 SecondaryNameNode
4614 DataNode
4858 ResourceManager
4972 NodeManager

2.2.1.3 DataNode3

[hadoop@datanode3 ~]$ jps
2915 DataNode
3044 NodeManager
3193 Jps

2.2.1.4 Client

[hadoop@client ~]$ jps
2142 Jps

2.2.2 Web에서 확인

2.2.2.1 NameNode

http://NameNode설치서버_publicDNSorIP:50070

저는 NameNode서버에 NameNode를 설치했기 때문에 아래와 같이 접속했습니다.

AWS는 재시작시 마다 Public DNS와 IP가 바뀌기 때문에 확인해야 합니다.

현재 기준

- NameNode, History Server의 DNS : ec2-15-165-159-119.ap-northeast-2.compute.amazonaws.com

- SecondaryNode그리고Resource Manager DNS : ec2-3-36-128-89.ap-northeast-2.compute.amazonaws.com

http://ec2-15-165-159-119.ap-northeast-2.compute.amazonaws.com:50070/

접속이 안되는 분들은 포트 번호를 확인해보세요.

1. port 번호 확인 -> 50070

cat /home/hadoop/hadoop/etc/hadoop/hdfs-site.xml

<name>dfs.namenode.http-address</name>
<value>namenode:50070</value>

2. Port가 실행중인지 확인

netstat -tulpn | grep LISTEN

tcp        0      0 172.31.40.48:50070      0.0.0.0:*               LISTEN      5013/java

2.2.2.2 Secondary NameNode

http://NameNode설치서버_publicDNSorIP:50090

http://ec2-3-36-128-89.ap-northeast-2.compute.amazonaws.com:50090/

접속이 안되는 분들은 아래를 확인해보세요.

1. port 번호 확인 -> 50090

cat /home/hadoop/hadoop/etc/hadoop/hdfs-site.xml

<name>dfs.namenode.secondary.http-address</name>
<value>secondnode:50090</value>

2. Port가 실행중인지 확인

netstat -tulpn | grep LISTEN

tcp        0      0 172.31.38.6:50090       0.0.0.0:*               LISTEN      4737/java

2.2.2.3 Reousr Manager

http://Resource Manager 설치서버_publicDNSorIP:8088

-> 저는 Second 서버가 Resource Manager입니다.

http://ec2-3-36-128-89.ap-northeast-2.compute.amazonaws.com:8088/

접속이 안되는 분들은 아래를 확인해보세요.

1. port 번호 확인 -> 8088

참조 : https://hadoop.apache.org/docs/r3.2.3/hadoop-project-dist/hadoop-common/ClusterSetup.html

2. Port가 실행중인지 확인

netstat -tulpn | grep LISTEN

tcp        0      0 172.31.38.6:8088        0.0.0.0:*               LISTEN      4858/java

2.2.2.4 JobHistory Server

http://JobHistory Server 설치서버_publicDNSorIP:19888

-> 저는 namenode 서버에 같이 jobhistory server를 설치했습니다.

접속이 안되는 분들은 아래를 확인해보세요.

1. port 번호 확인 -> 19888

참조 : https://hadoop.apache.org/docs/r3.2.3/hadoop-project-dist/hadoop-common/ClusterSetup.html

2. Port가 실행중인지 확인

netstat -tulpn | grep LISTEN

tcp        0      0 172.31.40.48:19888      0.0.0.0:*               LISTEN      5629/java

2.2.3 Hadoop 테스트

[hadoop@Namenode hadoop]$ hdfs dfs -mkdir -p /hadoop-dir/test
[hadoop@Namenode hadoop]$ echo "HelloWorld" > HelloWorld.txt
[hadoop@Namenode hadoop]$ hdfs dfs -copyFromLocal HelloWorld.txt /hadoop-dir/test

이제 잘 올라갔는지 확인을 해보겠습니다.

http://ec2-15-165-159-119.ap-northeast-2.compute.amazonaws.com:50070/

Utilities -> Browse the file system -> 만든 폴더 Name선택 -> 만든 폴더 확인

2.3 Hdfs, Yarm 종료

namenode, resource manager 그리고 job history 서버에 맞춰 종료 명령어를 실행해주세요.

[hadoop@secondnode hadoop]$ stop-dfs.sh
Stopping namenodes on [namenode]
Stopping datanodes
Stopping secondary namenodes [secondnode]
[hadoop@Namenode hadoop]$ mapred --daemon stop historyserver

[hadoop@Namenode hadoop]$ stop-yarn.sh
Stopping nodemanagers
Stopping resourcemanager

저작자표시 비영리 변경금지

티스토리