Utilisez Python+pyahocorasick pour faire correspondre des mots-clés, qui contiennent environ 10 à 20 caractères chinois.
Le texte utilisé pour construire ahocorasick est lu à partir du fichier local key_word. Le format est le suivant :
Espace Mère et BébéNouilles, nouilles fines, nouilles épaisses, nouilles faites à la main, nouilles aux légumes, nouilles nutritives, nouilles cassées, nouilles séchées, nouilles |
|
Le résultat correspondant est vide.
Le code est le suivant :
import ahocorasick A = ahocorasick.Automaton() title = 'Hello Kitty3色蔬菜细面300克 婴儿幼儿营养面条宝宝辅食面条' with open('key_word', 'r') as f: for line in f.readlines(): line = line.strip() line = str(line.split('<')) A.add_word(line, line) A.make_automaton() aa = A.iter(title) for item in aa: print(item) # 打印为空值
Si quelqu'un a rencontré ce problème, aidez-moi, fournissez un exemple de code ou proposez des solutions, merci !
Après deux jours de recherche, j'ai moi-même implémenté cette fonction
Le fichier local contient trop de mots-clés répétés et la correspondance n'est pas à 100 %, pour référence
Le code de référence est le suivant :
Résultats d'impression : Section Mère et bébé