Cela dépend de la taille de vos données. La taille des données est petite. Tout au plus, vous pouvez enregistrer les mots-clés dans Redis ou dans un fichier de configuration. Chaque fois que vous explorez les données, supprimez tous les mots-clés et remplacez-les.
Mais comme vous êtes un robot d'exploration Web, si les mots-clés et les chaînes à filtrer sont particulièrement volumineux, même si vous utilisez des expressions régulières, l'efficacité sera très préoccupante.
Par exemple, vous avez 100 000 mots-clés qui doivent être filtrés. Supposons que vous puissiez combiner ces 100 000 mots-clés en 50 000 expressions régulières (sans parler de la nécessité d'écrire manuellement autant d'expressions régulières ou de générer automatiquement des expressions régulières), la chaîne qui chaque fois est très long et doit être bouclé au moins 50 000 fois pour respecter toutes les règles habituelles. Je pense que cette méthode simple n'est peut-être pas disponible.
Juste ma suggestion personnelle, vous pouvez vous référer à cet article : http://blog.jobbole.com/99910/ Il explique comment segmenter les mots-clés et créer des index de mots-clés pour obtenir des requêtes plus efficaces. Cet article présente le moteur de balises de stackoverflow.
Ou je recommande d'utiliser des poids lourds comme ElasticSearch. . . Évidemment, il n’y a aucun moyen de dire des dizaines de mots ici.
Cela dépend de la taille de vos données. La taille des données est petite. Tout au plus, vous pouvez enregistrer les mots-clés dans Redis ou dans un fichier de configuration. Chaque fois que vous explorez les données, supprimez tous les mots-clés et remplacez-les.
Mais comme vous êtes un robot d'exploration Web, si les mots-clés et les chaînes à filtrer sont particulièrement volumineux, même si vous utilisez des expressions régulières, l'efficacité sera très préoccupante.
Par exemple, vous avez 100 000 mots-clés qui doivent être filtrés. Supposons que vous puissiez combiner ces 100 000 mots-clés en 50 000 expressions régulières (sans parler de la nécessité d'écrire manuellement autant d'expressions régulières ou de générer automatiquement des expressions régulières), la chaîne qui chaque fois est très long et doit être bouclé au moins 50 000 fois pour respecter toutes les règles habituelles. Je pense que cette méthode simple n'est peut-être pas disponible.
Juste ma suggestion personnelle, vous pouvez vous référer à cet article : http://blog.jobbole.com/99910/ Il explique comment segmenter les mots-clés et créer des index de mots-clés pour obtenir des requêtes plus efficaces. Cet article présente le moteur de balises de stackoverflow.
Ou je recommande d'utiliser des poids lourds comme ElasticSearch. . . Évidemment, il n’y a aucun moyen de dire des dizaines de mots ici.
Ce que vous avez dit ci-dessus est correct, mais si les données sont petites, vous pouvez envisager d'en utiliser n'importe quelle