Pandas DataFrame 中的部分字串符合
基於字串條件過濾 DataFrame 是資料分析中的常見任務。雖然使用 == 運算子進行精確字串匹配很簡單,但部分字串匹配需要不同的方法。
一種選擇是使用正規表示式,如問題中的程式碼片段所示:
re.search(pattern, cell_in_question)
但是,對於大型DataFrame,由於其迭代性質,這種方法可能效率低下。
使用Pandas Series.str 方法的向量化解決方案是可用且強烈建議以獲得更好的性能:
df[df['A'].str.contains("hello")]
此方法使用內建的contains() 函數來檢查子字串是否存在於一系列字串中。它傳回一個可用於過濾 DataFrame 的布林遮罩。
在Pandas 的早期版本(0.8.1 之前)中,使用了略有不同的語法:
df['A'].apply(lambda x: "hello" in x)
無論如何根據您選擇的方法,Pandas DataFrames 中的部分字符串匹配是高效過濾資料的強大工具。
以上是如何在 Pandas DataFrame 中高效執行部分字串比對?的詳細內容。更多資訊請關注PHP中文網其他相關文章!