Équivalent Pandas : comptage distinct par groupe
Lors de l'utilisation de Pandas comme alternative à une base de données, il est souvent nécessaire d'effectuer des opérations complexes telles que le comptage distinct par groupe. Dans ce cas, nous voulons compter le nombre de clients distincts par an et par mois.
En SQL, cela peut être réalisé en utilisant la fonction d'agrégation count(distinct). Cependant, Pandas propose une syntaxe légèrement différente pour cette opération.
Pour compter les clients distincts par an et mois dans Pandas, on peut utiliser le code suivant :
<code class="python">table.groupby('YEARMONTH').CLIENTCODE.nunique()</code>
La fonction groupby() divise le DataFrame en groupes en fonction de la colonne spécifiée (YEARMONTH dans ce cas). La fonction nunique() compte ensuite le nombre de valeurs uniques au sein de chaque groupe.
Voici un exemple pour illustrer :
<code class="python">import pandas as pd # Create a DataFrame with sample data data = { 'YEARMONTH': ['201301', '201301', '201301', '201302', '201302', '201302', '201302'], 'CLIENTCODE': [1, 1, 2, 1, 2, 2, 3] } table = pd.DataFrame(data) # Count distinct clients per year month result = table.groupby('YEARMONTH').CLIENTCODE.nunique() print(result)</code>
Sortie :
YEARMONTH 201301 2 201302 3
Comme vous peut voir, le résultat correspond à la sortie attendue de la requête SQL.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!