['000001_2017-03-17.csv', '000001_2017-03-20.csv', '000002_2017-03-21.csv', '000002_2017-03-22.csv', '000003_2017-03-23.csv', '000004_2017-03-24.csv']
numpy數組,總共有幾個萬個元素。現在要保留每個元素前面的編號000001之類的,並且去掉重複,只保留唯一的一個編號。結果應該是['000001','000002','000003','000004']
除了用for語句實現外,有沒有更有效率的辦法?
寫個NumPy的吧~
python3
還可以這樣寫:
np.frompyfunc
'|S6'
是以6個位元組儲存字串'
是以6個
小端序Unicode字元
儲存字串綜合兩位仁兄的寫法
@同意並接受 @xiaojieluoff
如果編號長度固定是前六位,最快的寫法下面第一種最快
使用 map 和匿名函數
輸出:
運行下面程式碼可以看到 , 在 6百萬 條資料下,map 比 for 快了 0.6s 左右
輸出:
如果把測試數據擴大到 6千萬, 差距就更明顯了