Pandas DataFrame-Teilzeichenfolgenfilterung
Das Filtern eines Pandas-Datenrahmens basierend auf teilweisen Zeichenfolgenübereinstimmungen ist eine häufige Datenmanipulationsaufgabe. Um dieses Ziel zu erreichen, bieten vektorisierte String-Methoden, die in Pandas Version 0.8.1 eingeführt wurden, eine elegante Lösung.
Im Gegensatz zum traditionellen Ansatz, reguläre Ausdrücke zu verwenden (z. B. re.search(), um einzelne Zellen zu überprüfen, werden vektorisiert). String-Methoden ermöglichen effiziente Operationen für ganze Spalten. Um beispielsweise Zeilen auszuwählen, in denen die Spalte „A“ den Teilstring „Hallo“ enthält, können Sie Folgendes verwenden Code:
df[df['A'].str.contains("hello")]
Diese Syntax nutzt das str-Attribut des Series-Objekts, das eine Reihe von String-Manipulationsfunktionen bereitstellt. Die Methode enthält() gibt eine boolesche Maske zurück, die angibt, ob jedes Element in der Spalte „A“ ist enthält die angegebene Teilzeichenfolge. Die resultierende Maske wird dann zum Filtern des DataFrame verwendet und wählt nur die Zeilen aus, die die Kriterien erfüllen.
Diese Methode bietet eine präzise und effiziente Möglichkeit, einen teilweisen Zeichenfolgenabgleich in Pandas durchzuführen DataFrames optimieren Datenfilterungsvorgänge.
Das obige ist der detaillierte Inhalt vonWie kann ich einen Pandas-DataFrame basierend auf der Teilstring-Übereinstimmung filtern?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!