Gunakan perangkak Scrapy untuk menganalisis data daripada tapak web baharu
Dalam era Internet, sejumlah besar data dikumpul oleh tapak web Cara menggunakan data ini untuk analisis dan perlombongan telah menjadi isu penting. Artikel ini akan memperkenalkan penggunaan rangka kerja perangkak Scrapy untuk merangkak data tapak web novel dan penggunaan Python untuk analisis data.
1. Rangka kerja Scrapy
Scrapy ialah rangka kerja Python untuk merangkak data tapak web dengan cara yang cekap, pantas dan berskala. Scrapy ialah rangka kerja sumber terbuka yang membolehkan kami membuat Spider, Pipeline, DownloaderMiddleware dan modul lain untuk beberapa tugasan perlombongan data dan merangkak berskala besar, rangka kerja Scrapy sangat popular.
2. Laman web Novel
Laman web novel yang dirangkak oleh artikel ini ialah "Biquge", iaitu laman web membaca novel dalam talian percuma. Dalam laman web ini, kandungan novel disusun mengikut bab, jadi kandungan bab novel perlu dirangkak secara automatik, dan data boleh ditapis mengikut klasifikasi novel.
3. Reka bentuk Crawler
Dalam rangka kerja Scrapy, perangkak adalah modul yang sangat penting untuk tapak web yang berbeza atau halaman yang berbeza dengan mentakrifkan berbilang labah-labah. Perangkak yang ditulis dalam artikel ini terbahagi kepada dua bahagian: senarai novel dan kandungan bab novel.
Senarai novel merujuk kepada klasifikasi, nama, pengarang, status dan maklumat lain novel tersebut. Dalam laman web "Biquge", setiap kategori novel mempunyai sub-halaman yang sepadan Oleh itu, apabila merangkak senarai novel, mula-mula merangkak URL kategori novel, dan kemudian melintasi halaman kategori untuk mendapatkan maklumat setiap novel.
Apabila merangkak kandungan bab novel, perkara utama ialah mendapatkan direktori bab setiap novel dan sambungkan kandungan dalam direktori bab tertib bersama. Dalam laman web "Biquge", setiap direktori bab novel mempunyai URL yang sepadan, jadi anda hanya perlu mendapatkan URL direktori bab setiap novel, dan kemudian dapatkan kandungan bab satu demi satu.
4. Pelaksanaan perangkak
Sebelum melaksanakan perangkak, anda perlu memasang rangka kerja Scrapy dan mencipta projek Scrapy. Dalam projek Scrapy, setiap perangkak perlu mentakrifkan bahagian berikut:
Setiap perangkak mempunyai nama unik untuk membezakan antara reptilia yang berbeza. Dalam artikel ini, kami menamakan perangkak "novel_spider".
URL Mula, iaitu untuk menetapkan titik permulaan perangkak.
start_urls = ['http://www.biquge.info/']
Kaedah penghuraian crawler, kaedah ini akan menghuraikan kandungan yang dikembalikan oleh setiap URL dalam start_urls dan mengekstrak maklumat berguna daripadanya.
Dalam kaedah ini, mula-mula menghuraikan halaman senarai novel, mengekstrak nama, pengarang, status dan maklumat URL bagi setiap novel, dan hantar maklumat ini ke kaedah penghuraian seterusnya melalui objek Permintaan.
def parse(self, response): # Get novel classifications classifications = response.xpath('//div[@class="nav"]/ul/li') for classification in classifications: url = classification.xpath('a/@href').extract_first() name = classification.xpath('a/text()').extract_first() # Get novels in classification yield scrapy.Request(url, callback=self.parse_classification, meta={'name': name})
Dalam halaman sub-peringkat, dapatkan kandungan novel, nama bab dan kandungan bab dalam urutan. Dan luluskan tajuk novel, nama bab dan maklumat kandungan bab melalui Item.
def parse_chapter(self, response): item = NovelChapter() item['novel_name'] = response.meta['novel_name'] item['chapter_name'] = response.meta['chapter_name'] item['chapter_content'] = response.xpath('//div[@id="content"]/text()').extract() yield item
5. Analisis Data
Selepas mendapatkan data, kami boleh menggunakan perpustakaan Python dan Pandas untuk menganalisis data novel yang diperolehi. Kod berikut boleh melakukan analisis data Pandas pada senarai novel.
import pandas as pd # Load CSV data into dataframe df = pd.read_csv('./novel.csv') # Display novel counts by author's name df.groupby('author_name')[['novel_name']].count().sort_values('novel_name', ascending=False)
6. Ringkasan
Scrapy ialah rangka kerja perangkak yang berkuasa yang boleh merangkak data daripada tapak web dengan mudah. Artikel ini menggunakan contoh tapak web membaca novel untuk memperkenalkan cara menggunakan rangka kerja Scrapy untuk menangkap klasifikasi novel dan kandungan bab, dan menggunakan perpustakaan Python dan Pandas untuk menganalisis data yang ditangkap. Teknologi ini digunakan secara meluas untuk merangkak data dari tapak web lain, seperti berita, maklumat produk, media sosial, dll.
Atas ialah kandungan terperinci Gunakan perangkak Scrapy untuk menganalisis data daripada tapak web baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!