用 python 给数据打标签，500 万条数据怎样提高效率？-PHP 중국어 네트워크 Q&A

用 python 给数据打标签，500 万条数据怎样提高效率？

ringa_lee 2017-04-17 16:52:14

498

ringa_lee

모든 응답 (4)

迷茫2017-04-17 16:54:14 4층

所以说你真的就把pandas 当读取数据的工具了吗..

增加了一列is_tobacco 作为你说的标记

filter_query 返回含有这些词的列表效率有一定提升

其次你可以分割后用 multiprocessing 执行这个加速起来不止一点半点

import pandas as pd word = pd.read_table('test.txt', encoding = 'utf-8', names = ['query']) def signquery(word): tobacco = [u'烟', u'白沙', u'黄金叶', u'利群', u'南京九五', u'黄鹤楼软', u'黄鹤楼硬', u'娇子', u'钻石荷花', u'玉溪', u'七匹狼尚品', u'七匹狼软灰'] word['is_tobacco'] = word['query'].apply(lambda name:name in tobacco) return word def filter_query(word): tobacco = [u'烟', u'白沙', u'黄金叶', u'利群', u'南京九五', u'黄鹤楼软', u'黄鹤楼硬', u'娇子', u'钻石荷花', u'玉溪', u'七匹狼尚品', u'七匹狼软灰'] return word[word['query'].apply(lambda name:name in tobacco)]['query'].to_dict().values() result = filter_query(word) print result

좋다+0

답글 추가

刘奇2017-04-17 16:54:14 3층

可以尝试用正则：

import re pattern = re.compile(u'烟|白沙|黄金叶|利群|南京九五|黄鹤楼软|黄鹤楼硬|娇子|钻石荷花|玉溪|七匹狼尚品|七匹狼软灰') result = filter(pattern.search, word['query'])

좋다+0

답글 추가

左手右手慢动作2017-04-17 16:54:14 2층

KMP 算法

좋다+0

답글 추가

Peter_Zhu2017-04-17 16:54:14 1층

KMP
Manacher
TireTree

좋다+0

답글 추가

Php8, 나도 갈게

30분 안에 웹사이트 레이아웃 배우기

Shangguan Oracle 초보자부터 능숙한 비디오 튜토리얼까지

UNI-APP 코드의 첫 번째 줄

처음부터 앱 실행까지 Flutter

Lian 형제 새 Linux 비디오 튜토리얼

AXURE 9 비디오 튜토리얼(제품 관리자 대화형 제품 디자인 UI에 적합)

Zero 기본 숙련도 PS 비디오 튜토리얼

시작하는 데 도움이 되는 16일 UI 비디오 튜토리얼

PS 기술 및 슬라이싱 기술 비디오 튜토리얼

Alibaba Cloud 환경 구축 및 프로젝트 출시 비디오 튜토리얼

컴퓨터 네트워크 개요 - 프로그래머가 마스터해야 하는 기본 지식

프로그래머를 위한 필수 튜토리얼 - HTTP 프로토콜 설명

웹소켓 비디오 튜토리얼