Untuk tujuan yang lebih disasarkan, anda boleh menggunakan tag seperti p dan artikel untuk membuat pertimbangan mudah. Jika anda memerlukan sesuatu yang lebih umum, anda boleh menganalisis data halaman web yang dikumpul, seperti menulis algoritma untuk mengira ketumpatan bahasa Cina (teks tidak berteg) untuk menentukan sama ada ia adalah teks utama. Saya tidak melakukannya secara khusus, tetapi idea pada dasarnya adalah ini.
Alamat sumber: http://www.cnblogs.com/jasondan/p/3497757.html
Untuk tujuan yang lebih disasarkan, anda boleh menggunakan tag seperti p dan artikel untuk membuat pertimbangan mudah. Jika anda memerlukan sesuatu yang lebih umum, anda boleh menganalisis data halaman web yang dikumpul, seperti menulis algoritma untuk mengira ketumpatan bahasa Cina (teks tidak berteg) untuk menentukan sama ada ia adalah teks utama. Saya tidak melakukannya secara khusus, tetapi idea pada dasarnya adalah ini.
Simulasi protokol HTTP, (biasanya menggunakan permintaan, modul urllib2)
Pengeluaran maklumat (disebabkan sifat istimewa dokumen HTML, xpath dan beautifulsoup biasanya digunakan)