Die drei Kernkomponenten von HADOOP_Was sind die drei Kernkomponenten von HADOOP?-häufiges Problem-php.cn

Inhaltsverzeichnis

Die drei Kernkomponenten von Hadoop sind HDFS (verteilter Dateispeicher), MapReduce (verteiltes Computing) und YARN (Ressourcenplanung).

Heim

häufiges Problem

Was sind die drei Kernkomponenten von HADOOP?

小老鼠

Jan 04, 2024 am 10:52 AM

hadoop Kernkomponenten

Die drei Kernkomponenten von HADOOP sind HDFS, MapReduce und YARN. Detaillierte Einführung: 1. HDFS: Verteiltes Dateisystem, das zum Speichern großer Datenmengen in Hadoop-Clustern verwendet wird. Es verfügt über eine hohe Fehlertoleranz, kann Daten über mehrere Datenknoten hinweg speichern und bietet einen Datenzugriff mit hohem Durchsatz. 2. MapReduce: wird für die parallele Verarbeitung großer Datensätze verwendet. Es zerlegt Big-Data-Aufgaben in mehrere kleine Aufgaben, verarbeitet sie parallel auf mehreren Knoten und fasst schließlich die Ergebnisse zusammen. 3. YARN: Verantwortlich für die Zuweisung und Verwaltung von Clusterressourcen.

Was sind die drei Kernkomponenten von HADOOP?

Die drei Kernkomponenten von Hadoop sind HDFS (verteilter Dateispeicher), MapReduce (verteiltes Computing) und YARN (Ressourcenplanung).

1. HDFS: HADOOP Distributed File System

HDFS (Hadoop Distributed File System) ist hauptsächlich für die Speicherung und das Lesen von Clusterdaten verantwortlich. Slave-Architektur (Master/Slave) für verteilte Dateisysteme. HDFS unterstützt eine traditionelle hierarchische Dateiorganisationsstruktur, bei der Benutzer oder Anwendungen Verzeichnisse erstellen und dann Dateien in diesen Verzeichnissen speichern können. Die hierarchische Struktur des Dateisystem-Namespace ähnelt der der meisten vorhandenen Dateisysteme. Dateien können über Dateipfade erstellt, gelesen, aktualisiert und gelöscht werden. Aufgrund der Natur des verteilten Speichers unterscheidet er sich jedoch offensichtlich von herkömmlichen Dateisystemen.

HDFS-Vorteile:

Hohe Fehlertoleranz. Die von HDFS hochgeladenen Daten speichern automatisch mehrere Kopien und ihre Fehlertoleranz kann durch Hinzufügen von Daten in den Kopien erhöht werden. Wenn ein Replikat verloren geht, repliziert HDFS das Replikat auf dem anderen Computer, und wir müssen uns nicht um die Implementierung kümmern.
Geeignet für die Verarbeitung großer Datenmengen. HDFS ist in der Lage, Gigabytes, Terabytes und sogar Petabytes an Daten zu verarbeiten, deren Größe bis zu Millionen reicht, was sehr groß ist. (1PB=1024TB, 1TB=1014GB)
Streaming-Datenzugriff. HDFS verwendet ein Streaming-Datenzugriffsmodell, um sehr große Dateien zu speichern, einmal zu schreiben und mehrmals zu lesen. Das heißt, sobald eine Datei geschrieben wurde, kann sie nicht mehr geändert, sondern nur hinzugefügt werden. Dadurch bleibt die Datenkonsistenz erhalten.

2. MapReduce: Datenverarbeitung im großen Maßstab ) und Reduzieren (Reduktion).

Wenn eine MapReduce-Aufgabe gestartet wird, liest die Map-Seite die Daten auf HDFS, ordnet die Daten dem erforderlichen Schlüssel-Wert-Paartyp zu und überträgt sie an die Reduce-Seite. Die Reduce-Seite empfängt die von der Map-Seite übergebenen Schlüssel-Wert-Paar-Daten, gruppiert sie nach verschiedenen Schlüsseln, verarbeitet jede Datengruppe mit demselben Schlüssel, erhält neue Schlüssel-Wert-Paare und gibt sie an HDFS aus. Dies ist der Kern Idee von MapReduce.

Ein vollständiger MapReduce-Prozess umfasst Dateneingabe und Sharding, Datenverarbeitung in der Kartenphase, Datenverarbeitung in der Reduzierphase, Datenausgabe und andere Phasen:

Eingabedaten lesen. Daten im MapReduce-Prozess werden aus dem verteilten HDFS-Dateisystem gelesen. Wenn eine Datei auf HDFS hochgeladen wird, wird sie im Allgemeinen entsprechend 128 MB in mehrere Datenblöcke unterteilt. Wenn Sie also das MapReduce-Programm ausführen, generiert jeder Datenblock eine Karte. Sie können die Anzahl der Karten jedoch auch anpassen, indem Sie die Dateifragmentgröße zurücksetzen . Beim Ausführen von MapReduce wird die Datei entsprechend der eingestellten Fragmentgröße neu aufgeteilt (Split), und ein Datenblock der Fragmentgröße entspricht einer Map.

Shuffle/Sort-Phase: Diese Phase bezieht sich auf den Prozess, bei dem mit der Kartenausgabe begonnen und die Kartenausgabe als Eingabe an Reduce übertragen wird. Bei diesem Prozess werden zunächst die Ausgabedaten mit demselben Schlüssel in derselben Karte integriert, um die übertragene Datenmenge zu reduzieren. Anschließend werden die Daten nach der Integration nach dem Schlüssel sortiert.
Reduzierungsstufe: Es kann auch mehrere Reduzierungsaufgaben geben, die entsprechend der in der Kartenstufe festgelegten Datenpartition bestimmt werden. Eine Partitionsdaten werden von einer Reduzierung verarbeitet. Für jede Reduce-Aufgabe empfängt Reduce Daten von verschiedenen Map-Aufgaben, und die Daten von jeder Map sind in Ordnung. Bei jeder Verarbeitung in einer Reduzieraufgabe werden die Daten für alle Daten mit demselben Schlüssel reduziert und als neues Schlüssel-Wert-Paar an HDFS ausgegeben.
3. Yarn: Ressourcenmanager

Hadoops MapReduce-Architektur heißt YARN (Yet Another Resource Negotiator, ein weiterer Ressourcenkoordinator) und ist der Kern eines effizienteren Ressourcenmanagements.

YARN besteht hauptsächlich aus drei Modulen: Resource Manager (RM), Node Manager (NM) und Application Master (AM):

Resource Manager ist für die Überwachung, Zuweisung und Verwaltung aller Ressourcen verantwortlich;

Node Manager ist für die Wartung jedes Knotens verantwortlich.

Das obige ist der detaillierte Inhalt vonWas sind die drei Kernkomponenten von HADOOP?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undress AI Tool

Ausziehbilder kostenlos

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Rimworld Odyssey -Temperaturführer für Schiffe und Gravtech

1 Monate vor By Jack chen

Anfängerleitfaden zu Rimworld: Odyssey

1 Monate vor By Jack chen

Variabler PHP -Bereich erklärt

4 Wochen vor By 百草

Tipps zum Schreiben von PHP -Kommentaren

3 Wochen vor By 百草

Code in PHP aus dem Code ausgehen

3 Wochen vor By 百草

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Laravel-Tutorial

1604

PHP-Tutorial

1509

276

Related knowledge

Java-Fehler: Hadoop-Fehler, wie man damit umgeht und sie vermeidet Jun 24, 2023 pm 01:06 PM

Java-Fehler: Hadoop-Fehler, wie man damit umgeht und sie vermeidet Wenn Sie Hadoop zur Verarbeitung großer Datenmengen verwenden, stoßen Sie häufig auf einige Java-Ausnahmefehler, die sich auf die Ausführung von Aufgaben auswirken und zum Scheitern der Datenverarbeitung führen können. In diesem Artikel werden einige häufige Hadoop-Fehler vorgestellt und Möglichkeiten aufgezeigt, mit ihnen umzugehen und sie zu vermeiden. Java.lang.OutOfMemoryErrorOutOfMemoryError ist ein Fehler, der durch unzureichenden Speicher der Java Virtual Machine verursacht wird. Wenn Hadoop ist

Neues Werk von Yan Shuicheng/Cheng Mingming! DiT-Training, die Kernkomponente von Sora, wird um das Zehnfache beschleunigt und Masked Diffusion Transformer V2 ist Open Source Mar 13, 2024 pm 05:58 PM

Als eine der überzeugenden Kerntechnologien von Sora nutzt DiT DiffusionTransformer, um das generative Modell auf einen größeren Maßstab zu erweitern und so hervorragende Bilderzeugungseffekte zu erzielen. Größere Modellgrößen führen jedoch zu einem sprunghaften Anstieg der Schulungskosten. Das Forschungsteam von Yan Shuicheng und Cheng Mingming von SeaAILab, der Nankai University und dem Kunlun Wanwei 2050 Research Institute schlug auf der ICCV2023-Konferenz ein neues Modell namens MaskedDiffusionTransformer vor. Dieses Modell verwendet die Maskenmodellierungstechnologie, um das Training von DiffusionTransfomer durch das Erlernen semantischer Darstellungsinformationen zu beschleunigen und SoTA-Ergebnisse im Bereich der Bilderzeugung zu erzielen. Dieses hier

Hadoop Pseudo-verteilte Clusterkonstruktion May 07, 2025 pm 04:45 PM

Softwarevorbereitung Ich verwende eine virtuelle Maschine mit CentOS-6.6 mit dem Hostnamen Repo. In den Schritten zur Installation eines linux -virtuellen Computers in Windows habe ich JDK in dieser virtuellen Maschine installiert. Siehe Anleitung zum Installieren von JDK unter Linux. Darüber hinaus ist die virtuelle Maschine mit einem Schlüsselfreie anmeldung selbst konfiguriert, und die Einstellungen zum Konfigurieren der key-freien Anmeldung zwischen den einzelnen virtuellen Maschine werden referenziert. Die Download -Adresse des Hadoop -Installationspakets lautet: https://mirrors.aliyun.com/apache/hadoop/common/. Ich benutze Hadoop 2.6.5 -Version. Laden Sie das Hadoop -Installationspaket auf den Server hoch und entpacken Sie [root@repo ~] #tarzxv

Wie man PHP und Hadoop für die Big-Data-Verarbeitung verwendet Jun 19, 2023 pm 02:24 PM

Da die Datenmenge weiter zunimmt, sind herkömmliche Datenverarbeitungsmethoden den Herausforderungen des Big-Data-Zeitalters nicht mehr gewachsen. Hadoop ist ein Open-Source-Framework für verteiltes Computing, das das Leistungsengpassproblem löst, das durch Einzelknotenserver bei der Verarbeitung großer Datenmengen verursacht wird, indem große Datenmengen verteilt gespeichert und verarbeitet werden. PHP ist eine Skriptsprache, die in der Webentwicklung weit verbreitet ist und die Vorteile einer schnellen Entwicklung und einfachen Wartung bietet. In diesem Artikel wird die Verwendung von PHP und Hadoop für die Verarbeitung großer Datenmengen vorgestellt. Was ist HadoopHadoop ist

Entdecken Sie die Anwendung von Java im Bereich Big Data: Verständnis von Hadoop, Spark, Kafka und anderen Technologie-Stacks Dec 26, 2023 pm 02:57 PM

Java-Big-Data-Technologie-Stack: Verstehen Sie die Anwendung von Java im Bereich Big Data wie Hadoop, Spark, Kafka usw. Da die Datenmenge weiter zunimmt, ist die Big-Data-Technologie im heutigen Internetzeitalter zu einem heißen Thema geworden. Im Bereich Big Data hören wir oft die Namen Hadoop, Spark, Kafka und andere Technologien. Diese Technologien spielen eine entscheidende Rolle, und Java spielt als weit verbreitete Programmiersprache auch im Bereich Big Data eine große Rolle. Dieser Artikel konzentriert sich auf die Anwendung von Java im Großen und Ganzen

So installieren Sie Hadoop unter Linux May 18, 2023 pm 08:19 PM

1: Installieren Sie JDK1. Führen Sie den folgenden Befehl aus, um das JDK1.8-Installationspaket herunterzuladen. wget--no-check-certificatehttps://repo.huaweicloud.com/java/jdk/8u151-b12/jdk-8u151-linux-x64.tar.gz2. Führen Sie den folgenden Befehl aus, um das heruntergeladene JDK1.8-Installationspaket zu dekomprimieren . tar-zxvfjdk-8u151-linux-x64.tar.gz3. Verschieben Sie das JDK-Paket und benennen Sie es um. mvjdk1.8.0_151//usr/java84. Konfigurieren Sie Java-Umgebungsvariablen. Echo'

Verwendung von Hadoop und HBase in Beego für die Speicherung und Abfrage großer Datenmengen Jun 22, 2023 am 10:21 AM

Mit dem Aufkommen des Big-Data-Zeitalters sind Datenverarbeitung und -speicherung immer wichtiger geworden und die effiziente Verwaltung und Analyse großer Datenmengen ist für Unternehmen zu einer Herausforderung geworden. Hadoop und HBase, zwei Projekte der Apache Foundation, bieten eine Lösung für die Speicherung und Analyse großer Datenmengen. In diesem Artikel wird erläutert, wie Sie Hadoop und HBase in Beego für die Speicherung und Abfrage großer Datenmengen verwenden. 1. Einführung in Hadoop und HBase Hadoop ist ein verteiltes Open-Source-Speicher- und Computersystem, das dies kann

Umfassende Analyse der Kernkomponenten und Funktionen der Java-Technologieplattform Jan 09, 2024 pm 08:01 PM

Eine eingehende Analyse der Kernkomponenten und Funktionen der Java-Technologieplattform. Java-Technologie ist in vielen Bereichen weit verbreitet und hat sich zu einer gängigen Programmiersprache und Entwicklungsplattform entwickelt. Die Java-Technologieplattform besteht aus einer Reihe von Kernkomponenten und -funktionen, die Entwicklern eine Fülle von Tools und Ressourcen zur Verfügung stellen und so die Java-Entwicklung effizienter und komfortabler machen. In diesem Artikel werden die Kernkomponenten und -funktionen der Java-Technologieplattform eingehend analysiert und ihre Bedeutung und Anwendungsszenarien in der Softwareentwicklung untersucht. Erstens ist die Java Virtual Machine (JVM) Java