python - Scrapy存在内存泄漏的问题。-PHP中文网问答

社区学习工具库休闲

简体中文

python - Scrapy存在内存泄漏的问题。

仅有的幸福

仅有的幸福 2017-06-30 09:53:22

0

1

837

再编写爬虫的时候，总是跑了一段时间（不会超过12个小时）就会被OOM掉。很是无奈！！！
根据官方的文档，使用这个prefs()但是实在找不出问题的所在。

Live References

HtmlResponse                       42   oldest: 753s ago
MySuteSpider                        1   oldest: 2964s ago
Request                         32412   oldest: 2920s ago
Selector                           42   oldest: 751s ago
TripItem                           37   oldest: 751s ago

爬虫的处理是获取所有页面的a标签的链接：

#获取域名的后缀
def get_domain_suffix(domain):
    if 'com' in tldextract.extract(domain).suffix:
        return True
    return False
#拼接域名。只存主域名
def save_domain(domain):
    domain_name = tldextract.extract(domain).domain
    suffix_name = tldextract.extract(domain).suffix

    return domain_name + '.' + suffix_name

#获取域名ip
def get_domain_ip(domain):
    try:
        ip = socket.gethostbyname(domain)
        return ip
    except:
        return '114.114.114.114'

# 获取域名所在的国家
def get_domain_ct_iso(ip):
    GEO = geoip2.database.Reader(
        '/var/test/geodb/GeoLite2-City.mmdb')
    r = GEO.city(ip)
    return r.country.iso_code

class MyDomainSpider(scrapy.Spider):
    name = 'my_domain'
    start_urls = [
        'http://xxx.com
    ]

    def parse_items(self, response):
        item = TripItem()
        for url in response.xpath('//a/@href').extract():
            if url.startswith('http'):
                    domain = urlparse.urlparse(url).netloc
                    if get_domain_tw(domain) or get_domain_ct_iso(get_domain_ip(domain)) == 'US':
                        item['domain'] = save_domain(domain)
                        item['ip'] = get_domain_ip(domain)
                        item['datetime'] = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
                        yield item


    def parse(self, response):
        for url in response.xpath('//a/@href').extract():
            if url.startswith('http'):
                domain = urlparse.urlparse(url).netloc
                if get_domain_tw(domain) or get_domain_ct_iso(get_domain_ip(domain)) == 'US':
                     yield scrapy.Request(url, callback=self.parse_items)

请指教一下谢谢

仅有的幸福

仅有的幸福

全部回复(1)

巴扎黑

巴扎黑2017-06-30 09:55:22 1 楼

yield item 是不是得落地，存文件或者db，不然一直存内存了

点赞 +0

添加回复

热门专题

更多>

热门文章

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1420729
php入门教程之一周学会PHP

4264126
JAVA 初级入门视频教程

2511016

最新下载

更多>

网站特效

网站源码

网站素材

前端模板