['000001_2017-03-17.csv', '000001_2017-03-20.csv',
'000002_2017-03-21.csv', '000002_2017-03-22.csv',
'000003_2017-03-23.csv', '000004_2017-03-24.csv']
numpy数组,总共有几个万个元素。现在想保留每个元素前面的编号000001之类的,并且去掉重复,只保留唯一的一个编号。结果应该是['000001','000002','000003','000004']
除了用for语句实现外,有没有更高效的办法?
写个NumPy的吧~
python3
还可以这样写:
np.frompyfunc
'|S6'
是以6个字节存储字符串'<U6'
是以6个小端序Unicode字符
存储字符串综合两位仁兄的写法
@同意并接受 @xiaojieluoff
如果编号长度固定是前六位,最快的写法下面第一种最快
使用 map 和匿名函数
输出:
运行下面代码可以看到 , 在 6百万 条数据下,map 比 for 快了 0.6s 左右
输出:
如果把测试数据扩大到 6千万, 差距就更明显了