


Gunakan perangkak Scrapy untuk menganalisis data daripada tapak web baharu
Gunakan perangkak Scrapy untuk menganalisis data daripada tapak web baharu
Dalam era Internet, sejumlah besar data dikumpul oleh tapak web Cara menggunakan data ini untuk analisis dan perlombongan telah menjadi isu penting. Artikel ini akan memperkenalkan penggunaan rangka kerja perangkak Scrapy untuk merangkak data tapak web novel dan penggunaan Python untuk analisis data.
1. Rangka kerja Scrapy
Scrapy ialah rangka kerja Python untuk merangkak data tapak web dengan cara yang cekap, pantas dan berskala. Scrapy ialah rangka kerja sumber terbuka yang membolehkan kami membuat Spider, Pipeline, DownloaderMiddleware dan modul lain untuk beberapa tugasan perlombongan data dan merangkak berskala besar, rangka kerja Scrapy sangat popular.
2. Laman web Novel
Laman web novel yang dirangkak oleh artikel ini ialah "Biquge", iaitu laman web membaca novel dalam talian percuma. Dalam laman web ini, kandungan novel disusun mengikut bab, jadi kandungan bab novel perlu dirangkak secara automatik, dan data boleh ditapis mengikut klasifikasi novel.
3. Reka bentuk Crawler
Dalam rangka kerja Scrapy, perangkak adalah modul yang sangat penting untuk tapak web yang berbeza atau halaman yang berbeza dengan mentakrifkan berbilang labah-labah. Perangkak yang ditulis dalam artikel ini terbahagi kepada dua bahagian: senarai novel dan kandungan bab novel.
- Senarai novel
Senarai novel merujuk kepada klasifikasi, nama, pengarang, status dan maklumat lain novel tersebut. Dalam laman web "Biquge", setiap kategori novel mempunyai sub-halaman yang sepadan Oleh itu, apabila merangkak senarai novel, mula-mula merangkak URL kategori novel, dan kemudian melintasi halaman kategori untuk mendapatkan maklumat setiap novel.
- Kandungan bab novel
Apabila merangkak kandungan bab novel, perkara utama ialah mendapatkan direktori bab setiap novel dan sambungkan kandungan dalam direktori bab tertib bersama. Dalam laman web "Biquge", setiap direktori bab novel mempunyai URL yang sepadan, jadi anda hanya perlu mendapatkan URL direktori bab setiap novel, dan kemudian dapatkan kandungan bab satu demi satu.
4. Pelaksanaan perangkak
Sebelum melaksanakan perangkak, anda perlu memasang rangka kerja Scrapy dan mencipta projek Scrapy. Dalam projek Scrapy, setiap perangkak perlu mentakrifkan bahagian berikut:
- Nama
Setiap perangkak mempunyai nama unik untuk membezakan antara reptilia yang berbeza. Dalam artikel ini, kami menamakan perangkak "novel_spider".
- Start_urls
URL Mula, iaitu untuk menetapkan titik permulaan perangkak.
start_urls = ['http://www.biquge.info/']
- parse
Kaedah penghuraian crawler, kaedah ini akan menghuraikan kandungan yang dikembalikan oleh setiap URL dalam start_urls dan mengekstrak maklumat berguna daripadanya.
Dalam kaedah ini, mula-mula menghuraikan halaman senarai novel, mengekstrak nama, pengarang, status dan maklumat URL bagi setiap novel, dan hantar maklumat ini ke kaedah penghuraian seterusnya melalui objek Permintaan.
def parse(self, response): # Get novel classifications classifications = response.xpath('//div[@class="nav"]/ul/li') for classification in classifications: url = classification.xpath('a/@href').extract_first() name = classification.xpath('a/text()').extract_first() # Get novels in classification yield scrapy.Request(url, callback=self.parse_classification, meta={'name': name})
Dalam halaman sub-peringkat, dapatkan kandungan novel, nama bab dan kandungan bab dalam urutan. Dan luluskan tajuk novel, nama bab dan maklumat kandungan bab melalui Item.
def parse_chapter(self, response): item = NovelChapter() item['novel_name'] = response.meta['novel_name'] item['chapter_name'] = response.meta['chapter_name'] item['chapter_content'] = response.xpath('//div[@id="content"]/text()').extract() yield item
5. Analisis Data
Selepas mendapatkan data, kami boleh menggunakan perpustakaan Python dan Pandas untuk menganalisis data novel yang diperolehi. Kod berikut boleh melakukan analisis data Pandas pada senarai novel.
import pandas as pd # Load CSV data into dataframe df = pd.read_csv('./novel.csv') # Display novel counts by author's name df.groupby('author_name')[['novel_name']].count().sort_values('novel_name', ascending=False)
6. Ringkasan
Scrapy ialah rangka kerja perangkak yang berkuasa yang boleh merangkak data daripada tapak web dengan mudah. Artikel ini menggunakan contoh tapak web membaca novel untuk memperkenalkan cara menggunakan rangka kerja Scrapy untuk menangkap klasifikasi novel dan kandungan bab, dan menggunakan perpustakaan Python dan Pandas untuk menganalisis data yang ditangkap. Teknologi ini digunakan secara meluas untuk merangkak data dari tapak web lain, seperti berita, maklumat produk, media sosial, dll.
Atas ialah kandungan terperinci Gunakan perangkak Scrapy untuk menganalisis data daripada tapak web baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial ini menunjukkan cara menggunakan Python untuk memproses konsep statistik undang -undang ZIPF dan menunjukkan kecekapan membaca dan menyusun fail teks besar Python semasa memproses undang -undang. Anda mungkin tertanya -tanya apa maksud pengedaran ZIPF istilah. Untuk memahami istilah ini, kita perlu menentukan undang -undang Zipf. Jangan risau, saya akan cuba memudahkan arahan. Undang -undang Zipf Undang -undang Zipf hanya bermaksud: Dalam korpus bahasa semulajadi yang besar, kata -kata yang paling kerap berlaku muncul kira -kira dua kali lebih kerap sebagai kata -kata kerap kedua, tiga kali sebagai kata -kata kerap ketiga, empat kali sebagai kata -kata kerap keempat, dan sebagainya. Mari kita lihat contoh. Jika anda melihat corpus coklat dalam bahasa Inggeris Amerika, anda akan melihat bahawa perkataan yang paling kerap adalah "th

Artikel ini menerangkan cara menggunakan sup yang indah, perpustakaan python, untuk menghuraikan html. Ia memperincikan kaedah biasa seperti mencari (), find_all (), pilih (), dan get_text () untuk pengekstrakan data, pengendalian struktur dan kesilapan HTML yang pelbagai, dan alternatif (sel

Artikel ini membandingkan tensorflow dan pytorch untuk pembelajaran mendalam. Ia memperincikan langkah -langkah yang terlibat: penyediaan data, bangunan model, latihan, penilaian, dan penempatan. Perbezaan utama antara rangka kerja, terutamanya mengenai grap pengiraan

Serialization dan deserialization objek Python adalah aspek utama dari mana-mana program bukan remeh. Jika anda menyimpan sesuatu ke fail python, anda melakukan siri objek dan deserialization jika anda membaca fail konfigurasi, atau jika anda menjawab permintaan HTTP. Dalam erti kata, siri dan deserialization adalah perkara yang paling membosankan di dunia. Siapa yang peduli dengan semua format dan protokol ini? Anda mahu berterusan atau mengalirkan beberapa objek python dan mengambilnya sepenuhnya pada masa yang akan datang. Ini adalah cara yang baik untuk melihat dunia pada tahap konseptual. Walau bagaimanapun, pada tahap praktikal, skim siri, format atau protokol yang anda pilih boleh menentukan kelajuan, keselamatan, kebebasan status penyelenggaraan, dan aspek lain dari program

Modul Statistik Python menyediakan keupayaan analisis statistik data yang kuat untuk membantu kami dengan cepat memahami ciri -ciri keseluruhan data, seperti biostatistik dan analisis perniagaan. Daripada melihat titik data satu demi satu, cuma melihat statistik seperti min atau varians untuk menemui trend dan ciri dalam data asal yang mungkin diabaikan, dan membandingkan dataset besar dengan lebih mudah dan berkesan. Tutorial ini akan menjelaskan cara mengira min dan mengukur tahap penyebaran dataset. Kecuali dinyatakan sebaliknya, semua fungsi dalam modul ini menyokong pengiraan fungsi min () dan bukan hanya menjumlahkan purata. Nombor titik terapung juga boleh digunakan. Import secara rawak Statistik import dari fracti

Dalam tutorial ini, anda akan belajar bagaimana menangani keadaan ralat di Python dari sudut pandang keseluruhan sistem. Pengendalian ralat adalah aspek kritikal reka bentuk, dan ia melintasi dari tahap terendah (kadang -kadang perkakasan) sepanjang jalan ke pengguna akhir. Jika y

Artikel ini membincangkan perpustakaan Python yang popular seperti Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask, dan Permintaan, memperincikan kegunaan mereka dalam pengkomputeran saintifik, analisis data, visualisasi, pembelajaran mesin, pembangunan web, dan h

Tutorial ini dibina pada pengenalan sebelumnya kepada sup yang indah, memberi tumpuan kepada manipulasi DOM di luar navigasi pokok mudah. Kami akan meneroka kaedah dan teknik carian yang cekap untuk mengubahsuai struktur HTML. Satu kaedah carian dom biasa ialah Ex
