hadoop – Verwenden Sie das Python-HDFS-Modul oder andere ähnliche Module, um Protokollinhalte auf HDFS zu filtern

Question

Derzeit verwendet das Unternehmen HDFS zum Speichern der von jedem Knotenserver hochgeladenen Protokolle. Aufgrund historischer Probleme sind die Protokolle recht gemischt. Das heißt, dass alle Arten von Daten im Protokoll gespeichert werden. Eine Protokolldatei ist etwa 200 MB groß. Manchmal müssen Sie einige Inhalte basierend auf dem Zeitstempel filtern und dann den Befehl cat von hdfs verwenden ...

曾经蜡笔没有小新 · Answer

多线程呢，并行计算呢？你这样一次性读几个Gb自然慢。既然是hadoop框架，用好mapreduce应该就行了吧。这玩意应该就不是为了快速而设计的。