Jadual Kandungan
2. Ambil laman web dengan permintaan
3. Mengurangkan html dengan indah
4. Ekstrak data
5. Simpan atau proses data
Rumah pembangunan bahagian belakang Tutorial Python Bagaimana membina pengikis web yang mudah dengan permintaan Python dan cantik?

Bagaimana membina pengikis web yang mudah dengan permintaan Python dan cantik?

Aug 01, 2025 am 04:34 AM

Pasang permintaan dan cantik menggunakan PIP. 2. Ambil laman web dengan permintaan.get (), menyemak kod status dan menggunakan tajuk ejen pengguna jika diperlukan. 3. Mengurangkan kandungan HTML dengan BeautifulSoup. 4. Ekstrak data mengikut tag, kelas, id, atau pemilih CSS. 5. Simpan data ke fail atau prosesnya lebih lanjut. Sentiasa periksa robots.txt, elakkan pelayan yang berlebihan, dan pertimbangkan alat alternatif untuk tapak JavaScript-heavy. Pengikis adalah mudah tetapi mesti dilakukan secara bertanggungjawab.

Bagaimana untuk membina pengikis web yang mudah dengan permintaan Python dan cantik?

Membina pengikis web yang mudah dengan requests Python dan BeautifulSoup adalah mudah dan berguna untuk mengekstrak data dari laman web. Inilah caranya untuk melangkah langkah demi langkah.

Bagaimana membina pengikis web yang mudah dengan permintaan Python dan cantik?

1. Pasang perpustakaan yang diperlukan

Pertama, pastikan anda mempunyai pakej yang diperlukan. Anda memerlukan requests untuk mengambil laman web dan BeautifulSoup dari perpustakaan bs4 untuk menghuraikan HTML.

 PIP Pasang Permintaan Cantik4

2. Ambil laman web dengan permintaan

Gunakan requests.get() untuk menghantar permintaan HTTP dan mengambil kandungan halaman. Sentiasa periksa kod status untuk memastikan permintaan berjaya.

Bagaimana membina pengikis web yang mudah dengan permintaan Python dan cantik?
 permintaan import

url = "https://example.com"
respons = requests.get (url)

Jika response.status_code == 200:
    Cetak ("Halaman berjaya berjaya!")
lain:
    cetak (f "gagal mengambil halaman: {response.status_code}")

? Petua: Sesetengah laman web menghalang mengikis. Gunakan tajuk User-Agent yang betul untuk meniru penyemak imbas sebenar:

 tajuk = {
    'Agen Pengguna': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Applewebkit/537.36 (KHTML, seperti Gecko) Chrome/109.0.0.0 Safari/537.36'
}
Response = Requests.get (URL, Headers = Headers)

3. Mengurangkan html dengan indah

Sebaik sahaja anda mempunyai kandungan HTML, lulus ke BeautifulSoup untuk menghuraikan dan menavigasi struktur.

Bagaimana membina pengikis web yang mudah dengan permintaan Python dan cantik?
 dari bs4 import cantikSoup

sup = indahSoup (response.text, 'html.parser')

Sekarang anda boleh mencari elemen menggunakan tag, kelas, atau ID.


4. Ekstrak data

Berikut adalah cara biasa untuk mengekstrak data:

  • Cari dengan tag:

     tajuk = soup.find ('H1'). get_text ()
  • Cari mengikut kelas:

     perenggan = soup.find_all ('p', kelas _ = 'kandungan')
    untuk P dalam perenggan:
        cetak (p.get_text ())
  • Cari oleh ID:

     elemen = sup.find ('div', id = 'kandungan utama')
  • Gunakan pemilih CSS:

     pautan = sup.Select ('a [href]')
    untuk pautan dalam pautan:
        cetak (pautan ['href']))

5. Simpan atau proses data

Anda boleh menyimpan data yang dikikis ke fail, seperti .txt atau .csv .

 dengan terbuka ('scraped_data.txt', 'w') sebagai f:
    f.write (tajuk '\ n')
    untuk P dalam perenggan:
        f.write (p.get_text () '\ n')

Atau gunakan pandas untuk mengeksport ke CSV jika anda mengumpul data berstruktur.


Nota penting

  • Hormati robots.txt : Semak https://example.com/robots.txt untuk melihat jika pengikatan dibenarkan.
  • Jangan terlalu banyak pelayan: Tambah kelewatan ( time.sleep() ) jika membuat banyak permintaan.
  • Sesetengah laman web menggunakan JavaScript: Jika kandungan dimuatkan secara dinamik, requests BeautifulSoup tidak akan melihatnya. Pertimbangkan Selenium atau Playwright sebaliknya.

Itu sahaja. Dengan hanya beberapa baris, anda boleh mengekstrak teks, pautan, imej, atau kandungan statik lain dari laman web yang paling asas. Pada asasnya, ia mudah - tetapi sentiasa mengikis secara bertanggungjawab.

Atas ialah kandungan terperinci Bagaimana membina pengikis web yang mudah dengan permintaan Python dan cantik?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Mejiro Ryan Build Guide | Uma Musume Pretty Derby
1 bulan yang lalu By Jack chen
Rimworld Odyssey Cara Ikan
4 minggu yang lalu By Jack chen
Apakah had transaksi untuk pengguna asing di Alipay?
1 bulan yang lalu By 下次还敢

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial PHP
1505
276
Cara Mengendalikan Pengesahan API di Python Cara Mengendalikan Pengesahan API di Python Jul 13, 2025 am 02:22 AM

Kunci untuk menangani pengesahan API adalah untuk memahami dan menggunakan kaedah pengesahan dengan betul. 1. Apikey adalah kaedah pengesahan yang paling mudah, biasanya diletakkan dalam tajuk permintaan atau parameter URL; 2. BasicAuth menggunakan nama pengguna dan kata laluan untuk penghantaran pengekodan Base64, yang sesuai untuk sistem dalaman; 3. OAuth2 perlu mendapatkan token terlebih dahulu melalui client_id dan client_secret, dan kemudian bawa bearertoken dalam header permintaan; 4. Untuk menangani tamat tempoh token, kelas pengurusan token boleh dikemas dan secara automatik menyegarkan token; Singkatnya, memilih kaedah yang sesuai mengikut dokumen dan menyimpan maklumat utama adalah kunci.

Tutorial Python Fastapi Tutorial Python Fastapi Jul 12, 2025 am 02:42 AM

Untuk mewujudkan API moden dan cekap menggunakan Python, FastAPI disyorkan; Ia berdasarkan kepada jenis python standard yang diminta dan secara automatik dapat menghasilkan dokumen, dengan prestasi yang sangat baik. Selepas memasang FastAPI dan Asgi Server UVicorn, anda boleh menulis kod antara muka. Dengan menentukan laluan, menulis fungsi pemprosesan, dan data yang kembali, API boleh dibina dengan cepat. FastAPI menyokong pelbagai kaedah HTTP dan menyediakan sistem dokumentasi Swaggersui dan Redoc yang dihasilkan secara automatik. Parameter URL boleh ditangkap melalui definisi laluan, manakala parameter pertanyaan boleh dilaksanakan dengan menetapkan nilai lalai untuk parameter fungsi. Penggunaan rasional model Pydantic dapat membantu meningkatkan kecekapan dan ketepatan pembangunan.

Skop pembolehubah python dalam fungsi Skop pembolehubah python dalam fungsi Jul 12, 2025 am 02:49 AM

Dalam Python, pembolehubah yang ditakrifkan di dalam fungsi adalah pembolehubah tempatan dan hanya sah dalam fungsi; Ditakrifkan secara luaran adalah pembolehubah global yang boleh dibaca di mana sahaja. 1. Pembolehubah tempatan dimusnahkan kerana fungsi dilaksanakan; 2. Fungsi ini boleh mengakses pembolehubah global tetapi tidak dapat diubahsuai secara langsung, jadi kata kunci global diperlukan; 3. Jika anda ingin mengubah suai pembolehubah fungsi luar dalam fungsi bersarang, anda perlu menggunakan kata kunci nonlocal; 4. Pembolehubah dengan nama yang sama tidak mempengaruhi satu sama lain dalam skop yang berbeza; 5. Global mesti diisytiharkan apabila mengubah suai pembolehubah global, jika tidak, kesilapan unboundlocalerror akan dibangkitkan. Memahami peraturan ini membantu mengelakkan pepijat dan menulis lebih banyak fungsi yang boleh dipercayai.

Cara Menguji API dengan Python Cara Menguji API dengan Python Jul 12, 2025 am 02:47 AM

Untuk menguji API, anda perlu menggunakan Perpustakaan Permintaan Python. Langkah -langkahnya adalah untuk memasang perpustakaan, menghantar permintaan, mengesahkan respons, menetapkan masa dan cuba semula. Pertama, pasang perpustakaan melalui PipinstallRequests; kemudian gunakan permintaan.get () atau requests.post () dan kaedah lain untuk menghantar permintaan GET atau pos; Kemudian semak respons.status_code dan response.json () untuk memastikan hasil pulangan mematuhi jangkaan; Akhirnya, tambah parameter tamat masa untuk menetapkan masa tamat, dan menggabungkan perpustakaan semula untuk mencapai percubaan automatik untuk meningkatkan kestabilan.

Akses objek JSON bersarang di Python Akses objek JSON bersarang di Python Jul 11, 2025 am 02:36 AM

Cara untuk mengakses objek JSON bersarang di Python adalah untuk menjelaskan struktur dan kemudian lapisan indeks dengan lapisan. Pertama, sahkan hubungan hierarki JSON, seperti kamus kamus bersarang atau senarai; Kemudian gunakan kunci kamus dan indeks senarai untuk mengakses lapisan mengikut lapisan, seperti data "butiran" ["zip"] untuk mendapatkan pengekodan zip, data "butiran" [0] untuk mendapatkan hobi pertama; Untuk mengelakkan keyError dan indexError, nilai lalai boleh ditetapkan oleh kaedah .get (), atau fungsi enkapsulasi Safe_get boleh digunakan untuk mencapai akses yang selamat; Untuk struktur yang kompleks, cari rekursif atau gunakan perpustakaan pihak ketiga seperti JMespath untuk mengendalikan.

Bagaimana cara menghuraikan fail JSON yang besar di Python? Bagaimana cara menghuraikan fail JSON yang besar di Python? Jul 13, 2025 am 01:46 AM

Bagaimana cara mengendalikan fail JSON yang besar di Python? 1. Gunakan Perpustakaan IJSON untuk mengalir dan mengelakkan limpahan memori melalui parsing item demi item; 2. Jika dalam format Jsonlines, anda boleh membacanya dengan garis dan memprosesnya dengan json.loads (); 3. Atau memecah fail besar ke dalam kepingan kecil dan kemudian memprosesnya secara berasingan. Kaedah ini dengan berkesan menyelesaikan masalah batasan memori dan sesuai untuk senario yang berbeza.

Python untuk gelung di atas tuple Python untuk gelung di atas tuple Jul 13, 2025 am 02:55 AM

Di Python, kaedah melintasi tupel dengan gelung termasuk secara langsung melelehkan unsur -unsur, mendapatkan indeks dan elemen pada masa yang sama, dan memproses tuple bersarang. 1. Gunakan gelung untuk terus mengakses setiap elemen dalam urutan tanpa menguruskan indeks; 2. Gunakan penghitungan () untuk mendapatkan indeks dan nilai pada masa yang sama. Indeks lalai adalah 0, dan parameter permulaan juga boleh ditentukan; 3. Di samping itu, tuple tidak berubah dan kandungan tidak dapat diubah suai dalam gelung. Nilai yang tidak diingini boleh diabaikan oleh \ _. Adalah disyorkan untuk memeriksa sama ada tuple kosong sebelum melintasi untuk mengelakkan kesilapan.

Bolehkah kelas Python mempunyai beberapa pembina? Bolehkah kelas Python mempunyai beberapa pembina? Jul 15, 2025 am 02:54 AM

Ya, apythonclasscanhavemulleConstructorsThoughalternetechniques.1.usedefaultargumentsIntheS

See all articles