Installez Apache Hadoop sur CentOS !-Linux-php.cn

Installez Apache Hadoop sur CentOS !

PHPz

Libérer： 2024-01-07 09:14:19

avant

990 Les gens l'ont consulté

Présentation

La bibliothèque logicielle Apache Hadoop est un framework qui permet le traitement distribué de grands ensembles de données sur un cluster d'ordinateurs à l'aide d'un modèle de programmation simple. Apache™ Hadoop® est un logiciel open source pour une informatique distribuée fiable, évolutive.

Le projet comprend les modules suivants :

Hadoop Common : outils communs prenant en charge d'autres modules Hadoop.
Hadoop Distributed File System (HDFS™) : un système de fichiers distribué qui fournit une prise en charge d'accès à haut débit aux données d'application.
Hadoop YARN : cadre de planification des tâches et de gestion des ressources du cluster.
Hadoop MapReduce : un système de traitement parallèle basé sur YARN pour les grands ensembles de données.

Cet article vous aidera à installer hadoop sur CentOS étape par étape et à configurer un cluster hadoop à nœud unique.

Installer Java

Avant d'installer hadoop, assurez-vous que Java est installé sur votre système. Utilisez cette commande pour vérifier la version installée de Java.

java -version
java version "1.7.0_75"
Java(TM) SE Runtime Environment (build 1.7.0_75-b13)
Java HotSpot(TM) 64-Bit Server VM (build 24.75-b04, mixed mode)

Copier après la connexion

Pour installer ou mettre à jour Java, veuillez suivre les instructions étape par étape ci-dessous.

La première étape consiste à télécharger la dernière version de Java depuis le site officiel d'Oracle.

cd /opt/
wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24=http%3A%2F%2Fwww.oracle.com%2F; oraclelicense=accept-securebackup-cookie" "http://download.oracle.com/otn-pub/java/jdk/7u79-b15/jdk-7u79-linux-x64.tar.gz"
tar xzf jdk-7u79-linux-x64.tar.gz

Copier après la connexion

Nécessite une configuration pour utiliser une version plus récente de Java comme alternative. Utilisez la commande suivante pour ce faire.

cd /opt/jdk1.7.0_79/
alternatives --install /usr/bin/java java /opt/jdk1.7.0_79/bin/java 2
alternatives --config java
There are 3 programs which provide 'java'.
Selection Command
-----------------------------------------------
* 1 /opt/jdk1.7.0_60/bin/java
+ 2 /opt/jdk1.7.0_72/bin/java
3 /opt/jdk1.7.0_79/bin/java
Enter to keep the current selection[+], or type selection number: 3 [Press Enter]

Copier après la connexion

Maintenant, vous devrez peut-être également utiliser la commande alternatives pour définir les chemins des commandes javac et jar.

alternatives --install /usr/bin/jar jar /opt/jdk1.7.0_79/bin/jar 2
alternatives --install /usr/bin/javac javac /opt/jdk1.7.0_79/bin/javac 2
alternatives --set jar /opt/jdk1.7.0_79/bin/jar
alternatives --set javac /opt/jdk1.7.0_79/bin/javac

Copier après la connexion

L'étape suivante consiste à configurer les variables d'environnement. Utilisez les commandes suivantes pour définir correctement ces variables.

Définissez la variable JAVA_HOME :

export JAVA_HOME=/opt/jdk1.7.0_79

Copier après la connexion

Définissez la variable JRE_HOME :

export JRE_HOME=/opt/jdk1.7.0_79/jre

Copier après la connexion

Définir la variable PATH :

export PATH=$PATH:/opt/jdk1.7.0_79/bin:/opt/jdk1.7.0_79/jre/bin

Copier après la connexion

Installer Apache Hadoop

Après avoir configuré l'environnement Java. Commencez à installer Apache Hadoop.

La première étape consiste à créer un compte utilisateur système pour l'installation de Hadoop.

useradd hadoop
passwd hadoop

Copier après la connexion

Vous devez maintenant configurer la clé ssh pour l'utilisateur hadoop. Utilisez la commande suivante pour activer la connexion SSH sans mot de passe.

su - hadoop
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
exit

Copier après la connexion

Téléchargez dès maintenant la dernière version disponible de hadoop sur le site officiel hadoop.apache.org.

cd ~
wget http://apache.claz.org/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz
tar xzf hadoop-2.6.0.tar.gz
mv hadoop-2.6.0 hadoop

Copier après la connexion

L'étape suivante consiste à définir les variables d'environnement utilisées par hadoop.

Modifiez ~/.bashrc et ajoutez ces valeurs suivantes à la fin du fichier.

export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Copier après la connexion

Appliquer les modifications dans l'environnement d'exécution actuel.

source ~/.bashrc

Copier après la connexion

Modifiez $HADOOP_HOME/etc/hadoop/hadoop-env.sh et définissez la variable d'environnement JAVA_HOME.

export JAVA_HOME=/opt/jdk1.7.0_79/

Copier après la connexion

Maintenant, commençons par configurer un cluster hadoop de base à nœud unique.

Modifiez d'abord le fichier de configuration hadoop et apportez les modifications suivantes.

cd /home/hadoop/hadoop/etc/hadoop

Copier après la connexion

Modifions core-site.xml.

fs.default.name
hdfs://localhost:9000

Copier après la connexion

Puis éditez hdfs-site.xml :

dfs.replication
1
dfs.name.dir
file:///home/hadoop/hadoopdata/hdfs/namenode
dfs.data.dir
file:///home/hadoop/hadoopdata/hdfs/datanode

Copier après la connexion

et éditez mapred-site.xml :

mapreduce.framework.name
yarn

Copier après la connexion

Dernière modification de fil-site.xml :

yarn.nodemanager.aux-services
mapreduce_shuffle

Copier après la connexion

Formatez maintenant le namenode à l'aide de la commande suivante :

hdfs namenode -format

Copier après la connexion

Pour démarrer tous les services Hadoop, utilisez la commande suivante :

cd /home/hadoop/hadoop/sbin/
start-dfs.sh
start-yarn.sh

Copier après la connexion

Pour vérifier si tous les services démarrent normalement, utilisez la commande jps :

jps

Copier après la connexion

Vous devriez voir un résultat comme celui-ci.

26049 SecondaryNameNode
25929 DataNode
26399 Jps
26129 JobTracker
26249 TaskTracker
25807 NameNode

Copier après la connexion

Vous pouvez désormais accéder au service Hadoop dans votre navigateur : http://votre-adresse-ip:8088/.
CentOS 上安装 Apache Hadoop!

hadoop

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!