Heim häufiges Problem Wie viele Tools werden für die Big-Data-Analyse benötigt?

Wie viele Tools werden für die Big-Data-Analyse benötigt?

Jul 25, 2019 pm 05:25 PM
Big Data -Analyse Werkzeug

Wie viele Tools werden für die Big-Data-Analyse benötigt?

1. Hadoop-bezogene Tools

1. Hadoop-Projekt hat fast das Äquivalent zu Big Data. Es wächst weiter und hat sich zu einem vollständigen Ökosystem mit vielen Open-Source-Tools für hochskalierbares verteiltes Computing entwickelt.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

2.Ambari

Als Teil des Hadoop-Ökosystems bietet dieses Apache-Projekt eine intuitive webbasierte Schnittstelle zum Konfigurieren, Verwalten und Überwachen von Hadoop-Clustern. Für Entwickler, die Ambari-Funktionalität in ihre eigenen Anwendungen integrieren möchten, stellt Ambari eine API zur Verfügung, die REST (Representational State Transfer Protocol) nutzt.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

3.Avro

Dieses Apache-Projekt bietet ein Datenserialisierungssystem mit umfangreichen Datenstrukturen und kompakten Formaten. Schemata werden in JSON definiert, das problemlos in dynamische Sprachen integriert werden kann.

4.Cascading

Cascading ist eine auf Hadoop basierende Anwendungsentwicklungsplattform. Bereitstellung von Unterstützungs- und Schulungsdiensten für Unternehmen.

5.Chukwa

Chukwa basiert auf Hadoop und kann Daten von großen verteilten Systemen zur Überwachung sammeln. Es enthält auch Tools zur Analyse und Anzeige von Daten.

Unterstützte Betriebssysteme: Linux und OSX.

6. Flume

Flume kann Protokolldaten von anderen Anwendungen sammeln und die Daten dann an Hadoop senden. Auf der offiziellen Website heißt es: „Es ist leistungsstark, fehlertolerant und verfügt über einen anpassbaren und optimierbaren Zuverlässigkeitsmechanismus sowie viele Failover- und Wiederherstellungsmechanismen.“

Unterstützte Betriebssysteme: Linux und OSX.

7.HBase

HBase ist für sehr große Tabellen mit Milliarden von Zeilen und Millionen von Spalten konzipiert. Es handelt sich um eine verteilte Datenbank, die eine Randomisierung für große Datenmengen durchführen kann Zugang. Es ähnelt in gewisser Weise Bigtable von Google, basiert jedoch auf Hadoop und dem Hadoop Distributed File System (HDFS).

8. Hadoop Distributed File System (HDFS)

HDFS ist ein Dateisystem für Hadoop, kann aber auch als unabhängiges verteiltes Dateisystem verwendet werden. Es basiert auf Java und ist fehlertolerant, hoch skalierbar und hoch konfigurierbar.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

9.Hive

ApacheHive ist ein Data Warehouse für das Hadoop-Ökosystem. Es ermöglicht Benutzern die Abfrage und Verwaltung großer Datenmengen mithilfe von HiveQL, einer SQL-ähnlichen Sprache.

10.Hivemall

Hivemall kombiniert eine Vielzahl von Algorithmen für maschinelles Lernen für Hive. Es umfasst viele hoch skalierbare Algorithmen für Datenklassifizierung, Rekursion, Empfehlung, k-nächste Nachbarn, Anomalieerkennung und Feature-Hashing.

11.Mahout

Laut der offiziellen Website besteht der Zweck des Mahout-Projekts darin, „eine Umgebung für den schnellen Aufbau skalierbarer, leistungsstarker Anwendungen für maschinelles Lernen zu schaffen“. HadoopMapReduce Es gibt viele Algorithmen für das Data Mining im Internet, darunter einige neuartige Algorithmen für Scala- und Spark-Umgebungen.

12.MapReduce

Als integraler Bestandteil von Hadoop bietet das MapReduce-Programmiermodell eine Methode zur Verarbeitung großer verteilter Datensätze. Es wurde ursprünglich von Google entwickelt, wird aber mittlerweile von mehreren anderen in diesem Artikel behandelten Big-Data-Tools verwendet, darunter CouchDB, MongoDB und Riak.

13.Oozie

Dieses Workflow-Planungstool wurde speziell für die Verwaltung von Hadoop-Aufgaben entwickelt. Es kann Aufgaben basierend auf Zeit oder Datenverfügbarkeit auslösen und lässt sich in MapReduce, Pig, Hive, Sqoop und viele andere verwandte Tools integrieren.

Unterstützte Betriebssysteme: Linux und OSX.

14.Pig

ApachePig ist eine Plattform für verteilte Big-Data-Analyse. Es basiert auf einer Programmiersprache namens PigLatin, die die Vorteile einer vereinfachten parallelen Programmierung, Optimierung und Skalierbarkeit bietet.

15.Sqoop

Unternehmen müssen häufig Daten zwischen relationalen Datenbanken und Hadoop übertragen, und Sqoop ist ein Tool, das diese Aufgabe erledigen kann. Es kann Daten in Hive oder HBase importieren und von Hadoop in ein relationales Datenbankverwaltungssystem (RDBMS) exportieren.

16.Spark

Als Alternative zu MapReduce ist Spark eine Datenverarbeitungs-Engine. Es soll bis zu 100-mal schneller als MapReduce sein, wenn es im Speicher verwendet wird, und bis zu 10-mal schneller als MapReduce, wenn es auf der Festplatte verwendet wird. Es kann mit Hadoop und Apache Mesos oder unabhängig davon verwendet werden.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

17.Tez

Tez basiert auf Apache HadoopYARN, „einem Anwendungsframework, das den Aufbau eines komplexen gerichteten azyklischen Graphen für Aufgaben zur Datenverarbeitung ermöglicht.“ Es ermöglicht Hive und Pig, komplexe Aufgaben zu vereinfachen Andernfalls wären mehrere Schritte erforderlich.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

18.Zookeeper

Dieses Big-Data-Management-Tool gibt an, „ein zentraler Dienst zu sein, der zur Verwaltung von Konfigurationsinformationen, zum Benennen, zur Bereitstellung verteilter Synchronisierung und zur Bereitstellung von Gruppendiensten verwendet werden kann“. Knoten im Hadoop-Cluster, um miteinander zu koordinieren.

Unterstützte Betriebssysteme: Linux, Windows (nur für Entwicklungsumgebung geeignet) und OSX (nur für Entwicklungsumgebung geeignet).

Verwandte Empfehlungen: „

FAQ

2. Big-Data-Analyseplattformen und -Tools

19.Disco

Disco wurde ursprünglich von Nokia entwickelt. welches ebenfalls auf MapReduce basiert. Es umfasst ein verteiltes Dateisystem und eine Datenbank, die Milliarden von Schlüsseln und Werten unterstützen.

Unterstützte Betriebssysteme: Linux und OSX.

20. HPCC

Als Alternative zu Hadoop verspricht eine Big-Data-Plattform wie HPCC sehr hohe Geschwindigkeit und super Skalierbarkeit. Neben der kostenlosen Community-Version bietet HPCC Systems auch kostenpflichtige Enterprise-Versionen, kostenpflichtige Module, Schulungen, Beratung und andere Dienstleistungen an.

Unterstützte Betriebssysteme: Linux.

21. Lumify

Lumify gehört Altamira Technologies (bekannt für seine nationale Sicherheitstechnologie) und ist eine Open-Source-Big-Data-Integrations-, Analyse- und Visualisierungsplattform. Sie können einfach die Demoversion unter Try.Lumify.io ausprobieren, um sie in Aktion zu sehen.

Unterstützte Betriebssysteme: Linux.

22.Pandas

Das Pandas-Projekt umfasst Datenstrukturen und Datenanalysetools, die auf der Programmiersprache Python basieren. Es ermöglicht Unternehmen, Python als Alternative zu R für Big-Data-Analyseprojekte zu verwenden.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

23.Storm

Storm ist jetzt ein Apache-Projekt, das die Echtzeitverarbeitung von Big Data ermöglicht (im Gegensatz zu Hadoop, das nur Batch-Task-Verarbeitung bietet). Zu seinen Nutzern zählen Twitter, The Weather Channel, WebMD, Alibaba, Yelp, Yahoo Japan, Spotify, Group, Flipboard und viele andere.

Unterstützte Betriebssysteme: Linux.

3. Datenbank/Data Warehouse

24.Blazegraph

Blazegraph hieß früher „Bigdata“ und ist ein hoch skalierbares, leistungsstarkes Datenbank. Es ist sowohl mit Open-Source- als auch mit kommerziellen Lizenzen erhältlich.

25. Cassandra

Diese NoSQL-Datenbank wurde ursprünglich von Facebook entwickelt und wird mittlerweile von mehr als 1.500 Unternehmensorganisationen verwendet, darunter Apple, die Europäische Organisation für Kernforschung (CERN), Comcast und Electronic Harbor , GitHub, GoDaddy, Hulu, Instagram, Intuit, Netfilx, Reddit und andere. Es kann sehr große Cluster unterstützen; das von Apple bereitgestellte Cassandra-System umfasst beispielsweise mehr als 75.000 Knoten und speichert mehr als 10 PB an Daten.

26.CouchDB

CouchDB ist als „eine Datenbank, die das Internet vollständig umfasst“ bekannt. Sie speichert Daten in JSON-Dokumenten, die über einen Webbrowser abgefragt und zur Verarbeitung mit JavaScript verwendet werden können. Es ist einfach zu bedienen, hochverfügbar und in einem verteilten Netzwerk skalierbar.

Unterstützte Betriebssysteme: Windows, Linux, OSX und Android.

27.FlockDB

FlockDB wurde von Twitter entwickelt und ist eine sehr schnelle und skalierbare Diagrammdatenbank, die sich gut zum Speichern von Daten aus sozialen Netzwerken eignet. Obwohl es weiterhin zum Download verfügbar ist, wurde die Open-Source-Version des Projekts seit einiger Zeit nicht mehr aktualisiert.

28.Hibari

Dieses auf Erlang basierende Projekt behauptet, „ein verteiltes, geordnetes Schlüsselwertspeichersystem zu sein, das eine starke Konsistenz garantiert.“ Es wurde ursprünglich von Gemini Mobile Technologies entwickelt und wird heute von mehreren Telekommunikationsbetreibern in Europa und Asien verwendet.

29.Hypertable

Hypertable ist eine mit Hadoop kompatible Big-Data-Datenbank, die eine extrem hohe Leistung verspricht. Zu ihren Nutzern gehören Electronic Harbor, Baidu, Gaopeng, Yelp und viele andere Internetunternehmen. Bereitstellung von Unterstützungsdiensten für Unternehmen.

Unterstützte Betriebssysteme: Linux und OSX.

30.Impala

Cloudera behauptet, dass die SQL-basierte Impala-Datenbank „die führende Open-Source-Analysedatenbank für Apache Hadoop“ ist. Es kann als eigenständiges Produkt heruntergeladen werden und ist Teil der kommerziellen Big-Data-Produkte von Cloudera.

Unterstützte Betriebssysteme: Linux und OSX.

31. InfoBright Community Edition

InfoBright wurde für die Datenanalyse entwickelt und ist eine spaltenorientierte Datenbank mit einem hohen Komprimierungsverhältnis. InfoBright.com bietet kostenpflichtige Produkte an, die auf demselben Code basieren, und bietet Supportdienste an.

Unterstützte Betriebssysteme: Windows und Linux.

32.MongoDB

Mit über 10 Millionen Downloads ist mongoDB eine äußerst beliebte NoSQL-Datenbank. Enterprise Edition, Support, Schulungen und zugehörige Produkte und Dienstleistungen sind auf MongoDB.com verfügbar.

Unterstützte Betriebssysteme: Windows, Linux, OSX und Solaris.

Das obige ist der detaillierte Inhalt vonWie viele Tools werden für die Big-Data-Analyse benötigt?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Stock Market GPT

Stock Market GPT

KI-gestützte Anlageforschung für intelligentere Entscheidungen

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Was ist ein Stablecoin? Wie funktioniert es? Eine Liste der bekanntesten Stablecoins Was ist ein Stablecoin? Wie funktioniert es? Eine Liste der bekanntesten Stablecoins Sep 24, 2025 pm 01:54 PM

Verzeichnis Was ist ein Stablecoin? Wie funktioniert Stablecoins? Die dezentrale Unterstützung von Kryptowährungen basiert auf traditionellen Vermögenswerten. Die Klassifizierung von Stablecoins wird durch Algorithmen unterstützt. Das Stablecoin mit Fiat -Währungskollateral -Assets B. Das Stablecoin mit Kryptowährungskollateral -Assets C. Warum hat der algorithmische Stablecoin Stablecoins? Die bekanntesten Stablecoins auf einen Blick. Tether (USDT) Binanceusd (BUSD) USDCoin (USDC) DAI (DAI) Stablecoins Pros and Cons. Stablecoins Kontroverse und zukünftige Kontroversenpunkte: zukünftige Trends: Schlussfolgerung: Stablecoins und ihre Rolle in der Welt der Kryptowährung. Was sind die häufigsten Fragen zu Stablecoins? Was ist der beste Stablecoin?

Was ist Memecoin? Wie funktioniert es? Die berühmtesten Meme -Münzen Was ist Memecoin? Wie funktioniert es? Die berühmtesten Meme -Münzen Sep 24, 2025 pm 01:48 PM

Inhaltsverzeichnis Definition: Was ist eine Meme -Münze? Warum existieren Meme -Münzen? Was ist das Besondere an Meme -Münzen? Wie funktionieren Meme -Münzen? Die bekanntesten Meme-Münzen-Übersicht DogEcoin (DOGE), Shiba Inu (Shib), Pepe (Pepe), Bonk (Bonk) Floki (Floki) Meme Coin (MEME) MEME-Münzmünzen und Risiken wie man Meme-Münzen kauft? Schlussfolgerung: Die Zukunft der Meme -Münzen in der Krypto -Welt. Was sind die gemeinsamen Fragen zu Meme -Münzen? Was ist die beste Memmünze? Was ist die Vorhersage von Meme -Münzen? Was sollten Sie beim Kauf von Mem -Münzen berücksichtigen? Welche Rolle spielt die Marktkapitalisierung bei Meme -Münzen? Meme -Münzen sind normalerweise im Internet beliebt

Was ist BIP? Warum sind sie für die Zukunft von Bitcoin so wichtig? Was ist BIP? Warum sind sie für die Zukunft von Bitcoin so wichtig? Sep 24, 2025 pm 01:51 PM

Inhaltsverzeichnis Was ist Bitcoin Improvement Vorschlag (BIP)? Warum ist BIP so wichtig? Wie funktioniert der historische BIP -Prozess für Bitcoin Improvement Vorschlag (BIP)? Was ist ein BIP -Typ -Signal und wie sendet ein Bergmann es? Taproot und Cons of Quick Trial of BIP -Schlussfolgerung - seit 2011 wurden Verbesserungen an Bitcoin durch ein System namens Bitcoin Improvement Vorschlag oder „BIP“ vorgenommen. Bitcoin Improvement Vorschlag (BIP) enthält Richtlinien dafür, wie sich Bitcoin im Allgemeinen entwickeln kann. Es gibt drei mögliche BIP -Arten, von denen zwei mit den technologischen Veränderungen in Bitcoin zusammenhängen. Jede BIP beginnt mit informellen Diskussionen zwischen Bitcoin -Entwicklern, die sich überall versammeln können, einschließlich TWI

Dieser Computer kann beim Zurücksetzen von Win10_Solve das Problem, dass das System Fortschritt von Win10 zurückgesetzt wird, nicht festhalten Dieser Computer kann beim Zurücksetzen von Win10_Solve das Problem, dass das System Fortschritt von Win10 zurückgesetzt wird, nicht festhalten Sep 24, 2025 pm 05:30 PM

Wenn der Reset -Computer steckt, warten Sie und beobachten Sie die Aktivität der Festplatte, um zu bestätigen, ob er ausgeführt wird. Trennen Sie dann das Netzwerk, um die Aktualisierung von Interferenzen zu vermeiden, oder geben Sie den abgesicherten Modus ein, um Softwarekonflikte zu beseitigen. Überprüfen Sie die Festplattenfehler über CHKDSK und reinigen Sie den SoftwaredItribution -Cache, um Update -Probleme zu beheben. Wenn es noch ungültig ist, verwenden Sie Windows Installation Media, um die Reparatur zu starten und den Zurücksetzen des Zurücksetzens durchzuführen.

So reinigen Sie das C -Laufwerk des Win10 -Systems, wenn es sich So reinigen Sie das C -Laufwerk des Win10 -Systems, wenn es sich Sep 24, 2025 pm 05:36 PM

Verwenden Sie zunächst das Festplattenreinigungswerkzeug, um temporäre Dateien und alte Versionsaktualisierungen zu löschen, und löschen Sie dann den Cache in % temp % und C: \ Windows \ TEMP -Verzeichnis manuell. Führen Sie anschließend PowerCFG-Hoff aus, um den Winterschlaf zu schließen und HiberFil.SYS-Speicherplatz über die Eingabeaufforderung Administrator zu veröffentlichen, und migrieren Sie dann die virtuelle Speicherpaging-Datei auf andere Festplatten. Schließlich durch Komprimieren benachbarter Partitionen und die Erweiterung der Kapazität der C-Festplatte oder die Verwendung von Tools von Drittanbietern, um den Kapazitätserweiterungsbetrieb abzuschließen.

In diesem Artikel wird erklärt, dass die Ethereum (ETH) -Anschluss -Warteschlange einen 'parabolischen' Trend zeigt: Was bedeutet das für Preise? In diesem Artikel wird erklärt, dass die Ethereum (ETH) -Anschluss -Warteschlange einen 'parabolischen' Trend zeigt: Was bedeutet das für Preise? Sep 24, 2025 pm 12:51 PM

Wichtige Punkte des Katalogs: Ethereum entsperrte Warteschlange erreicht einen Rekord von 12 Milliarden US -Dollar. Starke institutionelle Nachfrage lindert ETF-Ausverkaufsbedenken. Inmitten des Anstiegs der Ethereum -Preise von fast 100% im vergangenen Jahr kann ein beträchtlicher Teil der fast 12 Milliarden US -Dollar, die derzeit darauf warten, zurückgezogen zu werden, zur Gewinne verwendet werden. Wichtige Punkte: Die Menge an nicht stachelnden Warteschlangen von Ethereum hat einen Rekord von 12 Milliarden US -Dollar erreicht, und derzeit 44 Tage, um auf die Unstetpaker zu warten. Seit dem 1. Juli sind die Gesamtbestände an strategischen Reserven und Spot-EthetFs um 116%gestiegen, was die Bedenken des Marktes hinsichtlich groß angelegter Verkauf effektiv absicherte. Das Ausmaß der Täuschung von Warteschlangen im Ethereum-Netzwerk ist auf seinen historischen Höhepunkt gestiegen, was darauf hinweist, dass Anleger möglicherweise daran arbeiten, die enormen Gewinne in diesem Jahr zu erzielen. Ethereum entsperrte Warteschlange erreicht 12 Milliarden US -Dollar e

Was ist Portale (Portale) Währung? Was ist das zukünftige Potenzial? Preisprognose für 2025-2030 Was ist Portale (Portale) Währung? Was ist das zukünftige Potenzial? Preisprognose für 2025-2030 Sep 24, 2025 pm 01:27 PM

Inhaltsverzeichnis 1. Was ist das Portale -Projekt? 2. Portale Token Wirtschaftsmodell -Token Details Token Allocation Token Utility Initial Circulation 3. Die neuesten Preistrends und Marktanalyse von Portalen -Token. Inmitten der Welle der Krypto -Welt hat das Portals -Projekt mit seinen einzigartigen Konzepten und Technologien viel Aufmerksamkeit auf sich gezogen. Wenn Ihre Neugier über Portale ansteigt, wundern Sie sich über den zukünftigen Wert der Portale -Token

So batch man Download-Netzwerkdiskateien in quark_tutorial für Multi-File One-Click-Stapel-Download So batch man Download-Netzwerkdiskateien in quark_tutorial für Multi-File One-Click-Stapel-Download Sep 24, 2025 pm 04:57 PM

Der Multi-File-Stapel-Download kann über die integrierten Funktionen des Quark-Browsers erreicht werden: Öffnen Sie den Quark-Browser und geben Sie die Netzwerkdiskette ein. Halten Sie die Datei gedrückt, um den Multi-Selekten-Modus einzugeben und die Zieldatei zu überprüfen. Klicken Sie unten auf die Schaltfläche "Download", um es automatisch herunterzuladen, und anzeigen IT in der Download-Verwaltung nach dem Download-Management.