分别从几个固定的网站上爬取数据;为了url去重,我用<set get>的字符串型存储?还是用<SADD SMEMBERS>的sets型存储?
需要存储url数目,大概初期在100k-1000k之间。
Collecter avec redisLien
Utilisez des collections, le caractère non répétitif des collections est très adapté.
$key = 'URL_HASH'; if(!$redis->hGet($key, md5($url))){ // do something ... // 抓取一个 $url 后 $redis->hSet($key, md5($url), true); }
Ce qui doit être noté ici, c'est que s'il est multithread, d'autres processus doivent être pris en compte. Vous pouvez remplacer la valeur booléenne par une valeur d'énumération.
Collecter avec redis
Lien
Utilisez des collections, le caractère non répétitif des collections est très adapté.
Ce qui doit être noté ici, c'est que s'il est multithread, d'autres processus doivent être pris en compte. Vous pouvez remplacer la valeur booléenne par une valeur d'énumération.