网页爬虫 - python如何优雅的进行字符过滤?

Question

比如我在采集一个网站的时候,我想直接过滤或是替换掉一些没用的信息,比如QQ 手机 或是 www 开头的东西 数据量小一点还好我可以这样写: {代码...} 但是数据量大的话那不是很悲剧?难道要一直or来连接? 最优雅的实现...

伊谢尔伦 · Answer

Cela dépend de la taille de vos données. La taille des données est petite. Tout au plus, vous pouvez enregistrer les mots-clés dans Redis ou dans un fichier de configuration. Chaque fois que vous explorez les données, supprimez tous les mots-clés et remplacez-les.

Mais comme vous êtes un robot d'exploration Web, si les mots-clés et les chaînes à filtrer sont particulièrement volumineux, même si vous utilisez des expressions régulières, l'efficacité sera très préoccupante.

Par exemple, vous avez 100 000 mots-clés qui doivent être filtrés. Supposons que vous puissiez combiner ces 100 000 mots-clés en 50 000 expressions régulières (sans parler de la nécessité d'écrire manuellement autant d'expressions régulières ou de générer automatiquement des expressions régulières), la chaîne qui chaque fois est très long et doit être bouclé au moins 50 000 fois pour respecter toutes les règles habituelles. Je pense que cette méthode simple n'est peut-être pas disponible.

Juste ma suggestion personnelle, vous pouvez vous référer à cet article : http://blog.jobbole.com/99910/ Il explique comment segmenter les mots-clés et créer des index de mots-clés pour obtenir des requêtes plus efficaces. Cet article présente le moteur de balises de stackoverflow.

Ou je recommande d'utiliser des poids lourds comme ElasticSearch. . . Évidemment, il n’y a aucun moyen de dire des dizaines de mots ici.

迷茫 · Answer

Ce que vous avez dit ci-dessus est correct, mais si les données sont petites, vous pouvez envisager d'en utiliser n'importe quelle

a = [1, 2]
b = [2, 3]
if any(i in b for i in a):
    pass

Php8, je viens aussi

Apprenez la mise en page d'un site Web en 30 minutes

Tutoriel vidéo Shangguan Oracle débutant à compétent

Votre première ligne de code UNI-APP

Flutter de zéro au lancement de l'application

Brother Lian Nouveau didacticiel vidéo Linux

Tutoriel vidéo AXURE 9 (convient à l'interface utilisateur interactive de conception de produits du chef de produit)

Tutoriel vidéo PS Zero Basic Proficiency

Tutoriel vidéo de 16 jours sur l'interface utilisateur pour vous aider à démarrer

Tutoriel vidéo sur les techniques PS et les techniques de découpage

Tutoriel vidéo sur la construction et le lancement de projets d'Alibaba Cloud Environment

Présentation des réseaux informatiques - Connaissances de base que les programmeurs doivent maîtriser

Tutoriel essentiel pour les programmeurs - Explication du protocole HTTP

Tutoriel vidéo Websocket