Mula dari awal: Langkah terperinci untuk menulis perangkak menggunakan bahasa Go
Pengenalan:
Dengan perkembangan pesat Internet, perangkak menjadi semakin penting. Perangkak ialah cara teknikal yang mengakses dan mendapatkan maklumat khusus secara automatik di Internet melalui program. Dalam artikel ini, kami akan memperkenalkan cara menulis perangkak mudah menggunakan bahasa Go dan memberikan contoh kod khusus.
Langkah 1: Sediakan persekitaran pembangunan bahasa Go
Pertama, pastikan anda telah memasang persekitaran pembangunan bahasa Go dengan betul. Anda boleh memuat turunnya dari tapak web rasmi Go dan ikut arahan untuk memasangnya.
Langkah 2: Import perpustakaan yang diperlukan
Bahasa Go menyediakan beberapa perpustakaan terbina dalam untuk membantu kami menulis program perangkak. Dalam contoh ini, kami akan menggunakan perpustakaan berikut:
import ( "fmt" "net/http" "io/ioutil" "regexp" )
Langkah 3: Hantar permintaan HTTP
Menghantar permintaan HTTP adalah sangat mudah menggunakan perpustakaan "net/http" bahasa Go. Berikut ialah kod sampel:
func fetch(url string) (string, error) { resp, err := http.Get(url) if err != nil { return "", err } defer resp.Body.Close() body, err := ioutil.ReadAll(resp.Body) if err != nil { return "", err } return string(body), nil }
Dalam kod sampel di atas, kami menentukan fungsi yang dipanggil fetch yang mengambil URL sebagai parameter dan mengembalikan kandungan respons HTTP. Mula-mula, kami menghantar permintaan GET menggunakan fungsi http.Get. Kami kemudian menggunakan fungsi ioutil.ReadAll untuk membaca kandungan respons. Akhir sekali, kami menukar kandungan respons kepada rentetan dan mengembalikannya.
Langkah 4: Menghuraikan kandungan halaman
Setelah kami mendapat kandungan halaman, kami boleh menggunakan ungkapan biasa untuk menghuraikannya. Berikut ialah contoh kod:
func parse(body string) []string { re := regexp.MustCompile(`<a[^>]+href="?([^"s]+)"?`) matches := re.FindAllStringSubmatch(body, -1) var result []string for _, match := range matches { result = append(result, match[1]) } return result }
Dalam contoh kod di atas, kami telah menggunakan ungkapan biasa <a[^>]+href="?([^"s]+)"?
untuk memadankan semua pautan dalam halaman. Kami kemudian mengulang untuk mengekstrak setiap pautan dan menambahnya pada tatasusunan yang terhasil.
Langkah 5: Gunakan program perangkak
Kini, kita boleh menggunakan fungsi yang ditakrifkan di atas untuk menulis atur cara perangkak mudah. Berikut ialah contoh kod:
func spider(url string, depth int) { visited := make(map[string]bool) var crawl func(url string, depth int) crawl = func(url string, depth int) { if depth <= 0 { return } visited[url] = true body, err := fetch(url) if err != nil { return } links := parse(body) for _, link := range links { if !visited[link] { crawl(link, depth-1) } } } crawl(url, depth) for link := range visited { fmt.Println(link) } }
Dalam contoh kod di atas, kami mula-mula mentakrifkan peta bernama dilawati untuk merekodkan pautan yang dilawati. Kemudian kami mentakrifkan fungsi tanpa nama yang dipanggil merangkak, yang digunakan untuk merangkak pautan secara rekursif. Pada setiap pautan, kami mendapat kandungan halaman dan menghuraikan pautan di dalamnya. Kami kemudiannya terus merangkak pautan yang tidak dilawati secara rekursif sehingga kedalaman yang ditentukan dicapai.
Kesimpulan:
Melalui langkah di atas, kami telah mempelajari cara menulis program perangkak mudah menggunakan bahasa Go. Sudah tentu, ini hanyalah contoh mudah dan anda boleh mengembangkan dan mengoptimumkannya mengikut keperluan sebenar anda. Saya harap artikel ini akan membantu anda memahami dan menggunakan bahasa Go untuk pembangunan perangkak.
Atas ialah kandungan terperinci Panduan terperinci untuk belajar Go dan menulis perangkak. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!