Combien d'outils sont nécessaires pour l'analyse du Big Data ?-Problème commun-php.cn

1. Outils liés à Hadoop

1. Hadoop

Le projet Hadoop d'Apache est presque équipé. avec les mégadonnées. Il continue de croître et est devenu un écosystème complet avec de nombreux outils open source pour une informatique distribuée hautement évolutive.

Systèmes d'exploitation pris en charge : Windows, Linux et OSX.

2.Ambari

Dans le cadre de l'écosystème Hadoop, ce projet Apache fournit une interface Web intuitive pour la configuration, la gestion et la surveillance des clusters Hadoop. Pour les développeurs qui souhaitent intégrer la fonctionnalité Ambari dans leurs propres applications, Ambari leur fournit une API qui tire parti de REST (Representational State Transfer Protocol).

Systèmes d'exploitation pris en charge : Windows, Linux et OSX.

3.Avro

Ce projet Apache fournit un système de sérialisation de données avec des structures de données riches et des formats compacts. Les schémas sont définis en JSON, qui s'intègre facilement aux langages dynamiques.

4.Cascading

Cascading est une plateforme de développement d'applications basée sur Hadoop. Fournir des services de soutien aux entreprises et de formation.

5.Chukwa

Chukwa est basé sur Hadoop et peut collecter des données à partir de grands systèmes distribués à des fins de surveillance. Il contient également des outils d'analyse et d'affichage des données.

Systèmes d'exploitation pris en charge : Linux et OSX.

6. Flume

Flume peut collecter des données de journal provenant d'autres applications, puis envoyer les données à Hadoop. Le site officiel affirme : « Il est puissant, tolérant aux pannes et dispose d'un mécanisme de fiabilité qui peut être ajusté et optimisé ainsi que de nombreux mécanismes de basculement et de récupération. »

Systèmes d'exploitation pris en charge : Linux et OSX.

7.HBase

HBase est conçu pour de très grandes tables avec des milliards de lignes et des millions de colonnes. Il s'agit d'une base de données distribuée qui peut effectuer une lecture/écriture aléatoire sur du Big Data. accéder. Il est quelque peu similaire à Bigtable de Google, mais est construit sur Hadoop et Hadoop Distributed File System (HDFS).

8. Système de fichiers distribués Hadoop (HDFS)

HDFS est un système de fichiers pour Hadoop, mais il peut également être utilisé comme système de fichiers distribué indépendant. Il est basé sur Java et est tolérant aux pannes, hautement évolutif et hautement configurable.

Systèmes d'exploitation pris en charge : Windows, Linux et OSX.

9.Hive

ApacheHive est un entrepôt de données pour l'écosystème Hadoop. Il permet aux utilisateurs d'interroger et de gérer le Big Data à l'aide de HiveQL, un langage de type SQL.

10.Hivemall

Hivemall combine une variété d'algorithmes d'apprentissage automatique pour Hive. Il comprend de nombreux algorithmes hautement évolutifs pour la classification des données, la récursivité, la recommandation, les k-voisins les plus proches, la détection d'anomalies et le hachage de fonctionnalités.

11.Mahout

Selon le site officiel, l'objectif du projet Mahout est de « créer un environnement permettant de créer rapidement des applications d'apprentissage automatique évolutives et hautes performances ». HadoopMapReduce Il existe de nombreux algorithmes d'exploration de données sur Internet, notamment de nouveaux algorithmes pour les environnements Scala et Spark.

12.MapReduce

En tant que partie intégrante de Hadoop, le modèle de programmation MapReduce fournit une méthode de traitement de grands ensembles de données distribuées. Il a été initialement développé par Google, mais est désormais utilisé par plusieurs autres outils Big Data abordés dans cet article, notamment CouchDB, MongoDB et Riak.

13.Oozie

Cet outil de planification de flux de travail est spécialement conçu pour gérer les tâches Hadoop. Il peut déclencher des tâches en fonction du temps ou de la disponibilité des données et s'intègre à MapReduce, Pig, Hive, Sqoop et de nombreux autres outils associés.

Systèmes d'exploitation pris en charge : Linux et OSX.

14.Pig

ApachePig est une plateforme d'analyse distribuée du Big Data. Il s'appuie sur un langage de programmation appelé PigLatin, qui présente les avantages d'une programmation parallèle simplifiée, d'une optimisation et d'une évolutivité.

15.Sqoop

Les entreprises ont souvent besoin de transférer des données entre des bases de données relationnelles et Hadoop, et Sqoop est un outil qui peut accomplir cette tâche. Il peut importer des données dans Hive ou HBase et les exporter depuis Hadoop vers un système de gestion de base de données relationnelle (SGBDR).

16.Spark

En alternative à MapReduce, Spark est un moteur de traitement de données. Il prétend être jusqu'à 100 fois plus rapide que MapReduce lorsqu'il est utilisé en mémoire et jusqu'à 10 fois plus rapide que MapReduce lorsqu'il est utilisé sur disque. Il peut être utilisé avec Hadoop et Apache Mesos ou indépendamment.

Systèmes d'exploitation pris en charge : Windows, Linux et OSX.

17.Tez

Tez est construit sur Apache HadoopYARN, "un framework d'application qui permet de créer un graphe acyclique dirigé complexe pour les tâches de traitement des données. "Il permet à Hive et Pig de simplifier les tâches complexes cela nécessiterait autrement plusieurs étapes.

Systèmes d'exploitation pris en charge : Windows, Linux et OSX.

18.Zookeeper

Cet outil de gestion du Big Data prétend être "un service centralisé qui peut être utilisé pour conserver les informations de configuration, le nom, fournir une synchronisation distribuée et fournir des services de groupe". nœuds du cluster Hadoop pour se coordonner les uns avec les autres.

Systèmes d'exploitation pris en charge : Linux, Windows (convient uniquement à l'environnement de développement) et OSX (convient uniquement à l'environnement de développement).

Recommandations associées : "FAQ"

2. Plateformes et outils d'analyse de Big Data

19.Disco

Disco a été développé à l'origine par Nokia. Il s'agit d'un framework informatique distribué, comme Hadoop. qui est également basé sur MapReduce. Il comprend un système de fichiers distribué et une base de données prenant en charge des milliards de clés et de valeurs.

Systèmes d'exploitation pris en charge : Linux et OSX.

20. HPCC

Comme alternative à Hadoop, une plate-forme Big Data comme HPCC promet une vitesse très rapide et une super évolutivité. En plus de la version communautaire gratuite, HPCC Systems propose également des versions d'entreprise payantes, des modules payants, des formations, des conseils et d'autres services.

Systèmes d'exploitation pris en charge : Linux.

21. Lumify

Détenue par Altamira Technologies (connue pour sa technologie de sécurité nationale), Lumify est une plateforme open source d'intégration, d'analyse et de visualisation de big data. Vous pouvez simplement essayer la version démo sur Try.Lumify.io pour la voir en action.

Systèmes d'exploitation pris en charge : Linux.

22.Pandas

Le projet Pandas comprend des structures de données et des outils d'analyse de données basés sur le langage de programmation Python. Il permet aux entreprises d'utiliser Python comme alternative à R pour les projets d'analyse Big Data.

Systèmes d'exploitation pris en charge : Windows, Linux et OSX.

23.Storm

Storm est désormais un projet Apache, qui assure le traitement en temps réel du big data (contrairement à Hadoop qui ne propose que le traitement par lots). Ses utilisateurs incluent Twitter, The Weather Channel, WebMD, Alibaba, Yelp, Yahoo Japan, Spotify, Group, Flipboard et bien d'autres.

Systèmes d'exploitation pris en charge : Linux.

3. Base de données/entrepôt de données

24.Blazegraph

Blazegraph s'appelait auparavant « Bigdata », qui est un outil hautement évolutif et performant. base de données. Il est disponible avec des licences open source et commerciales.

25. Cassandra

Cette base de données NoSQL a été initialement développée par Facebook et est maintenant utilisée par plus de 1 500 entreprises, dont Apple, l'Organisation européenne pour la recherche nucléaire (CERN), Comcast, Electronic Harbor. , GitHub, GoDaddy, Hulu, Instagram, Intuit, Netfilx, Reddit et autres. Il peut prendre en charge des clusters à très grande échelle ; par exemple, le système Cassandra déployé par Apple comprend plus de 75 000 nœuds et contient plus de 10 Po de données.

26.CouchDB

CouchDB est connue comme « une base de données qui englobe pleinement Internet ». Elle stocke les données dans des documents JSON, qui peuvent être interrogés via un navigateur Web et utilisés pour les gérer. Il est facile à utiliser, hautement disponible et évolutif sur un réseau distribué.

Systèmes d'exploitation pris en charge : Windows, Linux, OSX et Android.

27.FlockDB

FlockDB développé par Twitter est une base de données graphique très rapide et évolutive qui permet de stocker les données des réseaux sociaux. Bien qu'elle soit toujours disponible en téléchargement, la version open source du projet n'a pas été mise à jour depuis un certain temps.

28.Hibari

Ce projet basé sur Erlang prétend être "un système de stockage clé-valeur ordonné et distribué qui garantit une forte cohérence". Il a été initialement développé par Gemini Mobile Technologies et est désormais utilisé par plusieurs opérateurs de télécommunications en Europe et en Asie.

29.Hypertable

Hypertable est une base de données Big Data compatible avec Hadoop, promettant des performances ultra élevées. Ses utilisateurs incluent Electronic Harbor, Baidu, Gaopeng, Yelp et de nombreuses autres sociétés Internet. Fournir des services de soutien aux entreprises.

Systèmes d'exploitation pris en charge : Linux et OSX.

30.Impala

Cloudera affirme que la base de données Impala basée sur SQL est « la principale base de données analytique open source pour Apache Hadoop ». Il peut être téléchargé en tant que produit autonome et fait partie des produits commerciaux Big Data de Cloudera.

Systèmes d'exploitation pris en charge : Linux et OSX.

31. InfoBright Community Edition

Conçue pour l'analyse des données, InfoBright est une base de données orientée colonnes avec un taux de compression élevé. InfoBright.com propose des produits payants basés sur le même code et fournit des services d'assistance.

Systèmes d'exploitation pris en charge : Windows et Linux.

32.MongoDB

Avec plus de 10 millions de téléchargements, mongoDB est une base de données NoSQL extrêmement populaire. L'édition Entreprise, le support, la formation et les produits et services associés sont disponibles sur MongoDB.com.

Systèmes d'exploitation pris en charge : Windows, Linux, OSX et Solaris.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!