從具有特定模式的文本文件中建立Pandas DataFrame
問題陳述:
其中帶有「[edit]」的行表示州,並帶有「[number]」的行表示區域。 DataFrame 應根據這些模式分割數據,並為每個區域名稱重複州名稱。
Alabama[edit] Auburn (Auburn University)[1] Florence (University of North Alabama) Jacksonville (Jacksonville State University)[2] Livingston (University of West Alabama)[2] Montevallo (University of Montevallo)[2] Troy (Troy University)[2] Tuscaloosa (University of Alabama, Stillman College, Shelton State)[3][4] Tuskegee (Tuskegee University)[5] Alaska[edit] Fairbanks (University of Alaska Fairbanks)[2] Arizona[edit] Flagstaff (Northern Arizona University)[6] Tempe (Arizona State University) Tucson (University of Arizona) Arkansas[edit]
解決方案:
要實現這一點,我們可以按照以下步驟操作:
使用pandas 將文字檔案讀取為DataFrame,使用分號作為分隔符號並建立名為「區域名稱」的列:
df = pd.read_csv('filename.txt', sep=";", names=['Region Name'])
df.insert(0, 'State', df['Region Name'].str.extract('(.*)\[edit\]', expand=False).ffill())
df['Region Name'] = df['Region Name'].str.replace(r' \(.+$', '')
df = df[~df['Region Name'].str.contains('\[edit\]')].reset_index(drop=True) print (df)
輸出 DataFrame 將如下所示:
輸出 DataFrame 將如下所示:
State Region Name 0 Alabama Auburn 1 Alabama Florence 2 Alabama Jacksonville 3 Alabama Livingston 4 Alabama Montevallo 5 Alabama Troy 6 Alabama Tuscaloosa 7 Alabama Tuskegee 8 Alaska Fairbanks 9 Arizona Flagstaff 10 Arizona Tempe 11 Arizona Tucson
以上是如何從具有特定模式的文字檔案建立 Pandas DataFrame,其中狀態由「[edit]」表示,區域由「[number]」表示?的詳細內容。更多資訊請關注PHP中文網其他相關文章!