Hadoop における HDF の役割は、大規模なデータ用のストレージを提供し、高スループットのデータ アクセスを提供することです。HDFS は高いフォールト トレランスの特性を持ち、低コストのハードウェアに導入できるように設計されています。アプリケーション データへの高スループット アクセスであり、非常に大規模なデータ セットを含むアプリケーションに適しています。
Hadoop は、Apache Foundation によって開発された分散システム インフラストラクチャです。ユーザーは、分散の基礎となる詳細を理解していなくても、分散プログラムを開発できます。高速コンピューティングとストレージのためにクラスターの力を最大限に活用します。
Hadoop は分散ファイル システム (Hadoop 分散ファイル システム) を実装しており、その 1 つが HDFS です。
HDFS は耐障害性が高く、低コストのハードウェアに導入できるように設計されており、アプリケーション データにアクセスするための高いスループットを提供するため、大規模なデータ セットを含むアプリケーションに適しています。 HDFS は POSIX 要件を緩和し、ファイル システム内のデータへのストリーミング アクセスを可能にします。
Hadoop フレームワークの核となる設計は、HDFS と MapReduce です。 HDFS は大規模なデータのストレージを提供し、MapReduce は大規模なデータの計算を提供します。
HDFS
外部クライアントにとって、HDFS は従来の階層ファイル システムのように見えます。ファイルの作成、削除、移動、名前変更などを行うことができます。ただし、HDFS のアーキテクチャは、独自の特性によって決定される特定のノードのセットに基づいて構築されます (図 1 を参照)。これらのノードには、HDFS 内でメタデータ サービスを提供する NameNode (1 つだけ) と、HDFS にストレージ ブロックを提供する DataNode が含まれます。 NameNode が 1 つしか存在しないため、これは HDFS 1.x バージョンの欠点 (単一障害点) です。 Hadoop 2.x バージョンでは、2 つの NameNode が存在できるため、単一ノード障害の問題は解決されます。
HDFS に保存されているファイルはブロックに分割され、これらのブロックは複数のコンピューター (データノード) にコピーされます。これは従来の RAID アーキテクチャとは大きく異なります。ブロックのサイズ (デフォルトは 1.x の場合は 64MB、2.x の場合は 128MB) とコピーされるブロックの数は、ファイルの作成時にクライアントによって決定されます。 NameNode はすべてのファイル操作を制御します。 HDFS 内のすべての通信は、標準の TCP/IP プロトコルに基づいています。
関連知識の詳細については、PHP 中国語 Web サイト をご覧ください。
以上がHadoop における HDF の役割は何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。