Web Scraping a Go
Langkah pertama
Pertama sekali kita mesti memasang Go, Arahan untuk memuat turun dan memasang Go.
Kami mencipta folder baharu untuk projek itu, pindah ke direktori dan laksanakan arahan berikut:
go mod init scraper
? Perintah go mod init digunakan untuk memulakan modul Go baharu dalam direktori tempat ia dijalankan dan mencipta fail go.mod untuk menjejaki kebergantungan kod. Pengurusan pergantungan
Sekarang mari pasang Colibri:
go get github.com/gonzxlez/colibri
? Colibri ialah pakej Go yang membolehkan kami merangkak dan mengekstrak data berstruktur di web menggunakan set peraturan yang ditakrifkan dalam JSON. Repositori
Peraturan pengekstrakan
Kami mentakrifkan peraturan yang akan digunakan oleh colibri untuk mengekstrak data yang kami perlukan. Dokumentasi
Kami akan membuat permintaan HTTP ke URL https://pkg.go.dev/search?q=xpath yang mengandungi hasil pertanyaan untuk pakej Go yang berkaitan dengan xpath dalam Pakej Go.
Menggunakan alat pembangunan yang disertakan dalam penyemak imbas web kami, kami boleh memeriksa struktur HTML halaman. Apakah alat pembangunan penyemak imbas?
<div class="SearchSnippet"> <div class="SearchSnippet-headerContainer"> <h2> <a href="/github.com/antchfx/xpath" data-gtmc="search result" data-gtmv="0" data-test-id="snippet-title"> xpath <span class="SearchSnippet-header-path">(github.com/antchfx/xpath)</span> </a> </h2> </div> <div class="SearchSnippet-infoLabel"> <a href="/github.com/antchfx/xpath?tab=importedby" aria-label="Go to Imported By"> <span class="go-textSubtle">Imported by </span><strong>143</strong> </a> <span class="go-textSubtle">|</span> <span class="go-textSubtle"> <strong>v1.2.5</strong> published on <span data-test-id="snippet-published"><strong>Oct 26, 2023</strong></span> </span> <span class="go-textSubtle">|</span> <span data-test-id="snippet-license"> <a href="/github.com/antchfx/xpath?tab=licenses" aria-label="Go to Licenses"> MIT </a> </span> </div> </div>
Serpihan struktur HTML yang mewakili hasil pertanyaan.
Kemudian kami memerlukan pemilih “pakej” yang akan menemui semua elemen div dalam HTML dengan kelas SearchSnippet, daripada elemen tersebut pemilih “ nama" akan mengambil teks elemen a di dalam elemen h2 dan pemilih "path” akan mengambil nilai atribut href bagi elemen a dalam h2 elemen . Dalam erti kata lain, “nama” akan mengambil nama pakej Go dan “path” laluan pakej :)
{ "method": "GET", "url": "https://pkg.go.dev/search?q=xpath", "timeout": 10000, "selectors": { "packages": { "expr": "div.SearchSnippet", "all": true, "type": "css", "selectors": { "name": "//h2/a/text()", "path": "//h2/a/@href" } } } }
- kaedah: menentukan kaedah HTTP (GET, POST, PUT, ...).
- url: URL permintaan.
- tamat masa: tamat masa dalam milisaat untuk permintaan HTTP.
-
pemilih: pemilih.
-
“pakej”: ialah nama pemilih.
- expr: ungkapan pemilih.
- semua: menyatakan bahawa semua elemen yang sepadan dengan ungkapan harus ditemui.
- jenis: jenis ungkapan, dalam kes ini pemilih CSS.
-
pemilih: pemilih bersarang.
- “nama” dan “laluan” ialah nama pemilih dan nilainya ialah ungkapan, dalam kes ini ungkapan XPath.
-
“pakej”: ialah nama pemilih.
Kod dalam Go
Kami bersedia untuk mencipta fail scraper.go, mengimport pakej yang diperlukan dan menentukan fungsi utama:
package main import ( "encoding/json" "fmt" "github.com/gonzxlez/colibri" "github.com/gonzxlez/colibri/webextractor" ) var rawRules = `{ "method": "GET", "url": "https://pkg.go.dev/search?q=xpath", "timeout": 10000, "selectors": { "packages": { "expr": "div.SearchSnippet", "all": true, "type": "css", "selectors": { "name": "//h2/a/text()", "path": "//h2/a/@href" } } } }` func main() { we, err := webextractor.New() if err != nil { panic(err) } var rules colibri.Rules err = json.Unmarshal([]byte(rawRules), &rules) if err != nil { panic(err) } output, err := we.Extract(&rules) if err != nil { panic(err) } fmt.Println("URL:", output.Response.URL()) fmt.Println("Status code:", output.Response.StatusCode()) fmt.Println("Content-Type", output.Response.Header().Get("Content-Type")) fmt.Println("Data:", output.Data) }
? WebExtractor ialah antara muka lalai untuk Colibri sedia untuk mula merangkak atau mengekstrak data di web.
Menggunakan fungsi Baharu webextractor, kami menjana struktur Colibri dengan apa yang diperlukan untuk mula mengekstrak data.
Kemudian kami menukar peraturan kami dalam JSON kepada struktur Peraturan dan memanggil kaedah Ekstrak menghantar peraturan sebagai argumen.
Kami memperoleh output dan URL respons HTTP, kod status HTTP, jenis kandungan respons dan data yang diekstrak dengan pemilih dicetak pada skrin. Lihat dokumentasi struktur Output.
Kami melaksanakan arahan berikut:
go mod tidy
? Perintah go mod tidy memastikan bahawa kebergantungan dalam go.mod sepadan dengan kod sumber modul.
Akhirnya kami menyusun dan menjalankan kod kami dalam Go dengan arahan:
go run scraper.go
Kesimpulan
Dalam siaran ini, kami telah mempelajari cara melakukan Pengikisan Web dalam Go menggunakan pakej Colibri, mentakrifkan peraturan pengekstrakan dengan pemilih CSS dan XPath. Colibri muncul sebagai alat untuk mereka yang ingin mengautomasikan pengumpulan data web dalam Go. Pendekatan berasaskan peraturan dan kemudahan penggunaan menjadikannya pilihan yang menarik untuk pembangun semua peringkat pengalaman.
Ringkasnya, Web Scraping in Go ialah teknik yang berkuasa dan serba boleh yang boleh digunakan untuk mengekstrak maklumat daripada pelbagai tapak web. Adalah penting untuk menyerlahkan bahawa Pengikisan Web mesti dijalankan secara beretika, menghormati terma dan syarat tapak web dan mengelakkan membebankan pelayan mereka.
Atas ialah kandungan terperinci Web Scraping a Go. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

TointegrategoLanggerviceswithexistingpythoninfrastructure, userestapisorgrpcforinter-serviceCommunication, membolehkangoandpythonappstointeractseamlythroughtroughtroughtroughtroughtroughtrotocols.1.usereSestaS (ViaframeworksLikeGineGinpyton)

GolangoffersSuperiorperformance, NativeConCurrencyViagoroutine, andefficientResourceusage, makeitidealforhigh-traffic, rendah latencyapis;

Golang digunakan terutamanya untuk pembangunan back-end, tetapi ia juga boleh memainkan peranan tidak langsung dalam bidang front-end. Matlamat reka bentuknya memberi tumpuan kepada pengaturcaraan peringkat tinggi, pemprosesan serentak dan sistem, dan sesuai untuk membina aplikasi back-end seperti pelayan API, microservices, sistem yang diedarkan, operasi pangkalan data dan alat CLI. Walaupun Golang bukan bahasa arus perdana untuk front-end web, ia boleh disusun menjadi JavaScript melalui Gopherjs, berjalan di webassembly melalui Tinygo, atau menghasilkan halaman HTML dengan enjin templat untuk mengambil bahagian dalam pembangunan front-end. Walau bagaimanapun, pembangunan front-end moden masih perlu bergantung kepada JavaScript/Typescript dan ekosistemnya. Oleh itu, Golang lebih sesuai untuk pemilihan Stack Teknologi dengan backend berprestasi tinggi sebagai teras.

Kunci untuk memasang Go ialah memilih versi yang betul, mengkonfigurasi pembolehubah persekitaran, dan mengesahkan pemasangan. 1. Pergi ke laman web rasmi untuk memuat turun pakej pemasangan sistem yang sepadan. Windows menggunakan fail .msi, macOS menggunakan fail .pkg, menggunakan fail linux .tar.gz dan unzip mereka ke direktori /usr /tempatan; 2. Konfigurasi pembolehubah persekitaran, edit ~/.bashrc atau ~/. 3. Gunakan arahan kerajaan untuk mengesahkan pemasangan, dan jalankan program ujian hello.go untuk mengesahkan bahawa penyusunan dan pelaksanaan adalah normal. Tetapan jalan dan gelung sepanjang proses

Untuk membina graphqlapi di GO, adalah disyorkan untuk menggunakan perpustakaan GQLGen untuk meningkatkan kecekapan pembangunan. 1. Mula -mula pilih perpustakaan yang sesuai, seperti GQLGen, yang menyokong penjanaan kod automatik berdasarkan skema; 2. Kemudian tentukan Graphqlschema, terangkan struktur API dan portal pertanyaan, seperti menentukan jenis pos dan kaedah pertanyaan; 3 kemudian memulakan projek dan menjana kod asas untuk melaksanakan logik perniagaan dalam resolver; 4. Akhirnya, sambungkan GraphqlHandler ke Httpserver dan uji API melalui taman permainan terbina dalam. Nota termasuk spesifikasi penamaan medan, pengendalian ralat, pengoptimuman prestasi dan tetapan keselamatan untuk memastikan penyelenggaraan projek

Pilihan rangka kerja mikroservis harus ditentukan berdasarkan keperluan projek, tumpukan teknologi pasukan dan jangkaan prestasi. 1. Memandangkan keperluan prestasi tinggi, Kitex atau Gomicro of GO diberi keutamaan, terutamanya KITEX sesuai untuk tadbir urus perkhidmatan yang kompleks dan sistem berskala besar; 2. 3. Stack kemahiran pasukan secara langsung mempengaruhi kos pemilihan, dan jika sudah ada pengumpulan, ia akan terus menjadi lebih efisien. Penukaran ruam pasukan Python boleh menjejaskan kecekapan; 4. Rangka kerja Go lebih matang dalam ekosistem tadbir urus perkhidmatan, sesuai untuk sistem sederhana dan besar yang perlu berhubung dengan fungsi maju pada masa akan datang; 5. Senibina hibrid boleh diterima pakai mengikut modul, tanpa perlu berpegang pada satu bahasa atau rangka kerja.

Golang biasanya menggunakan kurang CPU dan memori daripada Python ketika membina perkhidmatan web. 1. Model Goroutine Golang adalah cekap dalam penjadualan, mempunyai keupayaan pemprosesan permintaan serentak yang kuat, dan mempunyai penggunaan CPU yang lebih rendah; 2. Go disusun menjadi kod asli, tidak bergantung pada mesin maya semasa runtime, dan mempunyai penggunaan memori yang lebih kecil; 3. 4. Walaupun Python mempunyai kecekapan pembangunan yang tinggi dan ekosistem yang kaya, ia menggunakan sumber yang tinggi, yang sesuai untuk senario dengan keperluan konkurensi yang rendah.

Sync.WaitGroup digunakan untuk menunggu sekumpulan goroutin untuk menyelesaikan tugas. Intinya adalah untuk bekerjasama melalui tiga kaedah: tambah, selesai, dan tunggu. 1.add (n) Tetapkan bilangan goroutine untuk menunggu; 2.Done () dipanggil pada akhir setiap goroutine, dan kiraan dikurangkan oleh satu; 3.Wait () menghalang coroutine utama sehingga semua tugas selesai. Apabila menggunakannya, sila ambil perhatian: Tambah hendaklah dipanggil di luar goroutine, elakkan tunggu pendua, dan pastikan untuk memastikan bahawa Don dipanggil. Adalah disyorkan untuk menggunakannya dengan menangguhkan. Ia adalah perkara biasa dalam merangkak bersama laman web, pemprosesan data batch dan senario lain, dan dapat mengawal proses konkurensi dengan berkesan.
