Tutoriel PythonLa colonne présente comment imbriquer JSON
Recommandé (gratuit) :Tutoriel Python
L'appel deAPI
et la base de données de documents renverront des objetsJSON
imbriqués, lorsque nous utilisonsPython
pour essayer de convertir les clés dans les objets imbriqués structure Une fois convertis en colonnes, les résultats suivants seront souvent obtenus lorsque les données sont chargées danspandas
:
df = pd.DataFrame.from_records(results [“ issues”],columns = [“ key”,“ fields”])
Description : Ici, les résultats sont un grand dictionnaire, les problèmes sont une clé dans les résultats et la valeur des problèmes est une liste imbriquée de dictionnaires d'objets JSON, vous verrez la structure imbriquée JSON plus tard.
Le problème est que l'API renvoie une structureJSON
imbriquée, et les clés qui nous intéressent se trouvent effectivement à différents niveaux dans l'objet. La structure
imbriquéeJSON
ressemble à ceci.
Ce que nous voulons, c'est quelque chose comme ça.
Ce qui suit prend comme exemple les données renvoyées par une API. Les API contiennent généralement des métadonnées sur les champs associés. Disons que ce sont les domaines que nous voulons.
Comme ci-dessus, les champs que nous choisissons d'extraire se trouvent à 4 niveaux d'imbrication différents dans la structureJSON
de la liste des tickets, l'un après l'autre.
{ "expand": "schema,names", "issues": [ { "fields": { "issuetype": { "avatarId": 10300, "description": "", "id": "10005", "name": "New Feature", "subtask": False }, "status": { "description": "A resolution has been taken, and it is awaiting verification by reporter. From here issues are either reopened, or are closed.", "id": "5", "name": "Resolved", "statusCategory": { "colorName": "green", "id": 3, "key": "done", "name": "Done", } }, "summary": "Recovered data collection Defraglar $MFT problem" }, "id": "11861", "key": "CAE-160", }, { "fields": { ... more issues], "maxResults": 5, "startAt": 0, "total": 160 }
Une solution pas si bonne
Une option consiste à coder directement et à écrire une fonction qui trouve un champ spécifique, mais le problème est que chaque intégration doit be Appelez cette fonction pour définir les champs, puis appelez.apply
à la nouvelle colonne dansDataFrame
.
Afin d'obtenir les différents champs souhaités, nous extrayons d'abord les objets dans les champs en colonnes :
df = ( df["fields"] .apply(pd.Series) .merge(df, left_index=True, right_index = True) )
Comme le montre le tableau ci-dessus, seul un résumé est disponible, type de problème , statut, etc. Toujours enfoui dans des objets imbriqués.
Ce qui suit est une méthode pour extraire le nom dans issuetype.
# 提取issue type的name到一个新列叫"issue_type" df_issue_type = ( df["issuetype"] .apply(pd.Series) .rename(columns={"name": "issue_type_name"})["issue_type_name"] ) df = df.assign(issue_type_name = df_issue_type)
Comme ci-dessus, s'il y a trop de niveaux d'imbrication, vous devez implémenter la récursivité vous-même, car chaque niveau d'imbrication doit appeler une méthode comme celle ci-dessus pour analyser et ajouter à une nouvelle colonne.
Pour les amis ayant des bases de programmation faibles, il est en fait assez difficile d'en choisir une, en particulier pour les analystes de données, lorsqu'ils sont impatients d'utiliser des données, ils espèrent obtenir rapidement des données structurées à analyser.
Frère Dong partagera ci-dessous unepandas
solution intégrée.
Solution intégrée
pandas
a une fonction intégrée géniale appelée.json_normalize
. La documentation de
pandas
mentionne : Normaliser les donnéesJSON
semi-structurées dans un tableau plat.
Tout le code de la solution précédente peut être complété à l'aide de cette fonction intégrée en seulement 3 lignes. Les étapes sont très simples, il suffit de comprendre l'utilisation suivante.
Déterminez les champs souhaités et utilisez le symbole .
Mettez la liste imbriquée que vous souhaitez traiter (iciresults["issues"]
) comme paramètre dans.json_normalize
.
Filtrer la liste des CHAMPS que nous avons définis.
FIELDS = ["key", "fields.summary", "fields.issuetype.name", "fields.status.name", "fields.status.statusCategory.name"] df = pd.json_normalize(results["issues"]) df[FIELDS]
Oui, c'est aussi simple que cela.
Autres opérations
Chemin d'enregistrement
En plus de passer la listeresults["issues"]
comme ci-dessus, nous utilisons également spécifie le chemin d'accès à la liste dans l'objetrecord_path
.JSON
# 使用路径而不是直接用results["issues"] pd.json_normalize(results, record_path="issues")[FIELDS]
Délimiteur personnalisé
Vous pouvez également utiliser le paramètre sep pour personnaliser le délimiteur pour les connexions de structure imbriquées, par exemple, remplacer le "." par défaut par "-" ci-dessous .### 用 "-" 替换默认的 "." FIELDS = ["key", "fields-summary", "fields-issuetype-name", "fields-status-name", "fields-status-statusCategory-name"] pd.json_normalize(results["issues"], sep = "-")[FIELDS]
Contrôler la récursion
Si vous ne souhaitez pas faire de récursion sur chaque objet enfant, vous pouvez utiliser le paramètrepour contrôler la profondeur. Dans ce cas, puisque le champmax_level
est au niveau 4 de l'objetstatusCategory.name
, il ne sera pas inclus dans leJSON
résultant.DataFrame
# 只深入到嵌套第二级 pd.json_normalize(results, record_path="issues", max_level = 2)
de.json_normalize
Si vous ne comprenez pas, vous pouvez l'apprendre par vous-même. Cette fois, frère Dong le présentera ici.pandas
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!