Testen der Einbeziehung von String-Teilstrings in Pandas
Suche nach einer effizienten Methode, um festzustellen, ob ein String innerhalb einer Pandas-Reihe einen aus einer angegebenen Liste von enthält Teilzeichenfolgen? Eine diesbezügliche Abfrage finden Sie unten:
Ursprüngliche Abfrage:
Gibt es eine Pandas-Funktion, die die Funktionalität von df.isin() und df[col] kombiniert? .str.contains()? Mein Ziel ist es, alle Fälle zu identifizieren, in denen eine Reihe einen beliebigen Teilstring aus einer bestimmten Liste enthält.
Vorgeschlagene Lösung:
Ein im Forum vorgeschlagener Ansatz nutzte eine Schleife und ein Listenverständnis um jeden Teilstring innerhalb der Serie zu überprüfen. Es gibt jedoch eine prägnantere und effizientere Lösung.
Regex-basierte Lösung:
Nutzung des Regex | Mit dem Operator kann man einen regulären Ausdruck erstellen, der mit jedem Teilstring in der angegebenen Liste übereinstimmt. Dieser reguläre Ausdruck kann dann mit str.contains verwendet werden, um die Reihe nach gewünschten Werten zu filtern.
import re searchfor = ['og', 'at'] regex = '|'.join(searchfor) df['matching_column'][df['matching_column'].str.contains(regex)]
Dieser Ansatz ist effizienter als die iterative Methode und erzielt effektiv das gewünschte Ergebnis.
Umgang mit Sonderzeichen:
Wenn die Teilzeichenfolgen Sonderzeichen mit Regex-Bedeutung enthalten, wie z. B. $ oder ^, sollten dies der Fall sein mit re.escape() maskiert, um sicherzustellen, dass sie wörtlich interpretiert werden.
Das obige ist der detaillierte Inhalt vonWie kann ich effizient prüfen, ob eine Pandas-Serie einen Teilstring aus einer bestimmten Liste enthält?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!