Bereichsbasierte Verknüpfungen in Pandas optimieren
Bei der Arbeit mit Datenrahmen ist es häufig erforderlich, Verknüpfungen basierend auf einer Bereichsbedingung durchzuführen. Ein gängiger Ansatz in Pandas besteht darin, eine Dummy-Spalte zu erstellen, diese zu verknüpfen und nicht benötigte Zeilen herauszufiltern. Diese Lösung kann jedoch rechenintensiv sein, insbesondere bei großen Datenmengen.
Glücklicherweise gibt es effizientere und elegantere Möglichkeiten, bereichsbasierte Verknüpfungen in Pandas zu erreichen.
Verwendung von Numpy Broadcasting
Die einfachste Methode ist die Nutzung von Numpy Broadcasting. Dabei werden Pandas-Datenrahmen in Numpy-Arrays konvertiert und boolesche Operationen verwendet, um passende Zeilen zu identifizieren.
<code class="python">import numpy as np a = A.A_value.values bh = B.B_high.values bl = B.B_low.values i, j = np.where((a[:, None] >= bl) & (a[:, None] <= bh)) pd.concat([ A.loc[i, :].reset_index(drop=True), B.loc[j, :].reset_index(drop=True) ], axis=1)</code>
Dieser Ansatz ist äußerst effizient, da er kostspielige Zeileniterationen vermeidet.
Erweiterung nach links Joins
Um diese Lösung auf Left-Joins zu erweitern, können wir die verbleibenden Zeilen aus Datenrahmen A anhängen, die mit keiner Zeile in Datenrahmen B übereinstimmen.
<code class="python">pd.concat([ A.loc[i, :].reset_index(drop=True), B.loc[j, :].reset_index(drop=True) ], axis=1).append( A[~np.in1d(np.arange(len(A)), np.unique(i))], ignore_index=True, sort=False )</code>
Dadurch wird sichergestellt, dass alle Zeilen aus Datenrahmen A werden in das Ergebnis einbezogen, auch wenn sie keine passende Zeile in Datenrahmen B haben.
Das obige ist der detaillierte Inhalt vonWie führt man bereichsbasierte Verknüpfungen in Pandas effizient durch?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!