分布式爬虫 - scrapy-redis 分布式系统?
迷茫
迷茫 2017-04-24 09:11:57
0
2
562

现在可以从网上下载这些代码,怎么进行部署和运行代码
从github上下载了关于分布式的代码,不知道怎么用,求各位大神指点下。。。
下面是网址
https://github.com/rolando/scrapy-redis
环境已经按照上面的配置好了,但不知道如何实现分布式。
分布式我是这样理解的,有一个redis服务器,从一个网页上获取url种子,并将url种子放到redis服务器了,然后将这些url种子分配给其他机器。中间存在调度方面的问题,以及服务器和机器间的通信。

谢谢。。。

迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

répondre à tous(2)
Ty80

J'ai l'impression que cela ne peut pas être décrit clairement en une ou deux phrases.

Ce billet de blog auquel j'ai déjà fait référence, j'espère qu'il vous sera utile.

Permettez-moi de parler de ma compréhension personnelle.

scrapy utilise le python amélioré de collection.deque pour stocker le request à explorer. Comment deux ou plus Spider peuvent-ils partager ce deque ?

Les files d'attente à explorer ne peuvent pas être partagées et la distribution n'a aucun sens. scrapy-redis fournit une solution, remplacez collection.deque par une base de données redis, et plusieurs robots d'exploration stockent le redis à explorer à partir du même serveur request, afin que plusieurs spider puissent accéder au même Lire dans une base de données, afin que le principal problème de distribution soit résolu.

Remarque : ne remplace pas redis pour stocker request, scrapy peut être distribué directement

!

scrapy est directement lié à 待爬队列 est le planificateur Scheduler.

Référencer la structure de scrapy

Il est chargé de mettre en file d'attente les nouveaux request, de retirer le suivant request à explorer, etc. Par conséquent, après avoir remplacé Redis, d'autres composants doivent être modifiés.

Donc, ma compréhension personnelle est qu'il est relativement simple de déployer le même robot sur plusieurs machines, déploiement distribué redis, adresse de référence
mon blog. Et ces tâches, y compris la déduplication d'URL, sont les fonctions du framework scrapy-redis déjà écrit.

L'adresse de référence est ici. Vous pouvez télécharger l'exemple pour voir l'implémentation spécifique. J'ai également travaillé là-dessus récemment scrapy-redis, et je mettrai à jour cette réponse lorsque je l'aurai déployée.

Si vous avez de nouveaux progrès, vous pouvez les partager avec nous.

黄舟

@伟兴 Bonjour, j'ai vu ce commentaire le 15.10.11 Avez-vous des résultats maintenant ?
Pouvez-vous recommander certains de vos blogs ? Merci~
Vous pouvez me contacter chenjian158978@gmail.com

Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal