Python introduit le JSON imbriqué pour se transformer en Dataframe en quelques secondes !

coldplay.xixi
Libérer: 2020-12-29 09:34:39
original
3347 Les gens l'ont consulté

Tutoriel PythonLa colonne présente comment imbriquer JSON

Python introduit le JSON imbriqué pour se transformer en Dataframe en quelques secondes !

Recommandé (gratuit) :Tutoriel Python

L'appel deAPIet la base de données de documents renverront des objetsJSONimbriqués, lorsque nous utilisonsPythonpour essayer de convertir les clés dans les objets imbriqués structure Une fois convertis en colonnes, les résultats suivants seront souvent obtenus lorsque les données sont chargées danspandas:

df = pd.DataFrame.from_records(results [“ issues”],columns = [“ key”,“ fields”])
Copier après la connexion
Description : Ici, les résultats sont un grand dictionnaire, les problèmes sont une clé dans les résultats et la valeur des problèmes est une liste imbriquée de dictionnaires d'objets JSON, vous verrez la structure imbriquée JSON plus tard.

Le problème est que l'API renvoie une structureJSONimbriquée, et les clés qui nous intéressent se trouvent effectivement à différents niveaux dans l'objet. La structure

imbriquéeJSONressemble à ceci.

Ce que nous voulons, c'est quelque chose comme ça.

Ce qui suit prend comme exemple les données renvoyées par une API. Les API contiennent généralement des métadonnées sur les champs associés. Disons que ce sont les domaines que nous voulons.

  • clé : clé JSON, au premier niveau.
  • résumé : L'objet "champ" de deuxième niveau.
  • nom du statut : Poste de troisième niveau.
  • statutNom de la catégorie : Situé au 4ème niveau de nidification.

Comme ci-dessus, les champs que nous choisissons d'extraire se trouvent à 4 niveaux d'imbrication différents dans la structureJSONde la liste des tickets, l'un après l'autre.

{ "expand": "schema,names", "issues": [ { "fields": { "issuetype": { "avatarId": 10300, "description": "", "id": "10005", "name": "New Feature", "subtask": False }, "status": { "description": "A resolution has been taken, and it is awaiting verification by reporter. From here issues are either reopened, or are closed.", "id": "5", "name": "Resolved", "statusCategory": { "colorName": "green", "id": 3, "key": "done", "name": "Done", } }, "summary": "Recovered data collection Defraglar $MFT problem" }, "id": "11861", "key": "CAE-160", }, { "fields": { ... more issues], "maxResults": 5, "startAt": 0, "total": 160 }
Copier après la connexion

Une solution pas si bonne

Une option consiste à coder directement et à écrire une fonction qui trouve un champ spécifique, mais le problème est que chaque intégration doit be Appelez cette fonction pour définir les champs, puis appelez.applyà la nouvelle colonne dansDataFrame.

Afin d'obtenir les différents champs souhaités, nous extrayons d'abord les objets dans les champs en colonnes :

df = ( df["fields"] .apply(pd.Series) .merge(df, left_index=True, right_index = True) )
Copier après la connexion

Comme le montre le tableau ci-dessus, seul un résumé est disponible, type de problème , statut, etc. Toujours enfoui dans des objets imbriqués.

Ce qui suit est une méthode pour extraire le nom dans issuetype.

# 提取issue type的name到一个新列叫"issue_type" df_issue_type = ( df["issuetype"] .apply(pd.Series) .rename(columns={"name": "issue_type_name"})["issue_type_name"] ) df = df.assign(issue_type_name = df_issue_type)
Copier après la connexion

Comme ci-dessus, s'il y a trop de niveaux d'imbrication, vous devez implémenter la récursivité vous-même, car chaque niveau d'imbrication doit appeler une méthode comme celle ci-dessus pour analyser et ajouter à une nouvelle colonne.

Pour les amis ayant des bases de programmation faibles, il est en fait assez difficile d'en choisir une, en particulier pour les analystes de données, lorsqu'ils sont impatients d'utiliser des données, ils espèrent obtenir rapidement des données structurées à analyser.

Frère Dong partagera ci-dessous unepandassolution intégrée.

Solution intégrée

pandasa une fonction intégrée géniale appelée.json_normalize. La documentation de

pandasmentionne : Normaliser les donnéesJSONsemi-structurées dans un tableau plat.

Tout le code de la solution précédente peut être complété à l'aide de cette fonction intégrée en seulement 3 lignes. Les étapes sont très simples, il suffit de comprendre l'utilisation suivante.

Déterminez les champs souhaités et utilisez le symbole .

Mettez la liste imbriquée que vous souhaitez traiter (iciresults["issues"]) comme paramètre dans.json_normalize.

Filtrer la liste des CHAMPS que nous avons définis.

FIELDS = ["key", "fields.summary", "fields.issuetype.name", "fields.status.name", "fields.status.statusCategory.name"] df = pd.json_normalize(results["issues"]) df[FIELDS]
Copier après la connexion

Oui, c'est aussi simple que cela.

Autres opérations

Chemin d'enregistrement

En plus de passer la listeresults["issues"]comme ci-dessus, nous utilisons également spécifie le chemin d'accès à la liste dans l'objetrecord_path.JSON

# 使用路径而不是直接用results["issues"] pd.json_normalize(results, record_path="issues")[FIELDS]
Copier après la connexion

Délimiteur personnalisé

Vous pouvez également utiliser le paramètre sep pour personnaliser le délimiteur pour les connexions de structure imbriquées, par exemple, remplacer le "." par défaut par "-" ci-dessous .

### 用 "-" 替换默认的 "." FIELDS = ["key", "fields-summary", "fields-issuetype-name", "fields-status-name", "fields-status-statusCategory-name"] pd.json_normalize(results["issues"], sep = "-")[FIELDS]
Copier après la connexion

Contrôler la récursion

Si vous ne souhaitez pas faire de récursion sur chaque objet enfant, vous pouvez utiliser le paramètre

pour contrôler la profondeur. Dans ce cas, puisque le champmax_levelest au niveau 4 de l'objetstatusCategory.name, il ne sera pas inclus dans leJSONrésultant.DataFrame

# 只深入到嵌套第二级 pd.json_normalize(results, record_path="issues", max_level = 2)
Copier après la connexion
Ce qui suit est la description officielle du document

de.json_normalizeSi vous ne comprenez pas, vous pouvez l'apprendre par vous-même. Cette fois, frère Dong le présentera ici.pandas

Documentation officielle des pandas : https://pandas.pydata.org/pan...

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!