


Pertempuran crawler praktikal: Gunakan PHP untuk merangkak maklumat produk JD.com
Dalam era e-dagang hari ini, JD.com, sebagai salah satu syarikat e-dagang komprehensif terbesar di China, malah boleh meletakkan berpuluh-puluh ribu produk di raknya setiap hari. Bagi majoriti pengguna, JD.com menyediakan pelbagai pilihan produk dan konsesi harga yang berfaedah. Walau bagaimanapun, kadangkala, kita perlu mendapatkan maklumat produk JD secara berkelompok, menyaring dengan cepat, membandingkan, menganalisis, dsb. Pada masa ini, kita perlu menggunakan teknologi crawler. Dalam artikel ini, kami akan memperkenalkan pelaksanaan menggunakan bahasa PHP untuk menulis perangkak untuk membantu kami merangkak maklumat produk JD.com dengan cepat.
- Persediaan
Pertama, kita perlu memasang sambungan curl yang diperlukan oleh PHP dan menetapkan beberapa pembolehubah yang biasa digunakan. Langkah-langkah khusus adalah seperti berikut:
Pertama, buka terminal atau powershell dan masukkan arahan berikut untuk memasang pakej sambungan curl:
sudo apt-get install php7.0-curl //ubuntu系统安装rrree
Seterusnya, kita perlu menetapkan beberapa pembolehubah mudah dalam Kod PHP untuk memudahkan kami digunakan dalam kod berikutnya. Sebagai contoh, kami mentakrifkan pembolehubah $jgname untuk mewakili alamat akses JD.com, dan pembolehubah $skulist lain untuk mewakili alamat akses setiap produk. Kodnya adalah seperti berikut:
brew install curl-openssl php-curl //macOS系统安装
- Dapatkan senarai produk
Sekarang kami telah menyediakan persekitaran dan pembolehubah yang diperlukan, kami boleh mula menulis perangkak kami. Pertama, kita perlu mendapatkan senarai produk halaman produk JD sasaran. Kita boleh menggunakan alat curl dan ungkapan biasa untuk mendapatkan pautan sasaran berdasarkan alamat akses halaman produk JD (iaitu $jgname). Dapatkan maklumat produk seperti harga, bilangan ulasan, nama produk, nombor produk, dsb.
Kod khusus adalah seperti berikut:
$jgname= "https://list.jd.com/list.html?cat=1318,1486,1490&ev=exbrand_13910&sort=sort_rank_asc&trans=1&JL=3_%E5%93%81%E7%89%8C_%E5%B0%8F%E7%B1%B3%EF%BC%88MI%EF%BC%89#J_crumbsBar"; $skulist="https://item.jd.com/1285310.html";
Dalam kod di atas, kami menyimpan pautan dan nombor setiap produk yang diperolehi dalam $goods'skuid' dan 'link', dan Maklumat berguna lain (harga, bilangan ulasan, dll.) diletakkan dalam tatasusunan $barang. Akhir sekali, ia ditambah kepada tatasusunan $goodsinfo melalui fungsi array_push(). Anda boleh menggunakan penyataan gelung untuk mengeluarkan maklumat senarai produk untuk melihat hasil merangkak dengan mudah.
- Dapatkan butiran produk
Sekarang kami telah memperoleh maklumat senarai produk di halaman senarai produk JD, langkah seterusnya ialah mendapatkan maklumat terperinci setiap produk , dan simpan dalam susunan $goods. Kami telah memperoleh nombor dan pautan setiap produk dalam tatasusunan $goods dalam langkah sebelumnya. Oleh itu, langkah seterusnya ialah membuka setiap pautan untuk mendapatkan pelbagai maklumat produk yang berguna. Kod khusus adalah seperti berikut:
$ch = curl_init();//初始化curl curl_setopt($ch, CURLOPT_URL,$jgname);//设置url属性 curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);//设置是否将curl_exec()获取的信息以字符串返回,而不是直接输出 $result = curl_exec ($ch);//执行一个curl会话 curl_close ($ch);//关闭curl会话 preg_match_all("/<li .*?</li>/", $result, $matches);//正则表达式把需要的内容取出来,即匹配<li>标签 $goodsinfo=array();//创建一个商品列表 foreach ($matches[0] as $item) { //获取商品信息 preg_match("/sku="(d+)"/",$item,$skuid); preg_match("/标题">s{0,}([dD]+?)s{0,}</a>/",$item,$titlename); preg_match("/<strong>¥</strong>[s ]{0,}<i>(d+.d+)</i>/",$item,$price); preg_match("/<divs{0,}class="p-commit">[s ]+<strong[^>]+>(d+)/",$item,$commentnum); preg_match("/<as{0,}href="([dD]+?)"/",$item,$link); //将商品信息存储到商品列表中 $goods=array( "title"=>trim($titlename[1]), "price"=>trim($price[1]), "link"=>"https:".$link[1], "skuid"=>trim($skuid[1]), "commentnum"=>trim($commentnum[1]) ); array_push($goodsinfo,$goods);//将商品信息添加到商品列表 //输出测试:打印商品信息 echo $goods['title']." ".$goods['price']." ".$goods['commentnum']." ".$goods['link']."<br>"; }
Dalam kod ini, kami menggunakan teknik yang serupa dengan langkah 2, menggunakan alat curl untuk mendapatkan pautan terperinci setiap produk, dan kemudian menggunakan ungkapan biasa untuk mendapatkan beberapa produk yang berguna maklumat . Kami boleh mengeluarkan butiran produk yang diperoleh dengan cara berikut:
foreach ($goodsinfo as &$goods) { //更新每个商品的网页链接 $link="https://item.jd.com/".$goods['skuid'].".html"; $goods['link']=$link; $canBuy=true;//官网上可以买 //判断是否能够购买 preg_match('/无货/',file_get_contents($link)) && ($canBuy=false); //利用curl工具打开网页链接,获得网页代码 $ch = curl_init(); curl_setopt($ch, CURLOPT_URL,$link); curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); $html = curl_exec ($ch); curl_close ($ch); //分析网页代码,使用正则表达式获取商品种类,价格,颜色,库存数量等数据,并保存 preg_match_all('/<divs{0,}class="Ptable".*?>[s ]+<divs{0,}class="Ptable-item".*?>[s ]+([dD]*?)</div>/',$html,$items); preg_match_all('/<strong>商品名称</strong><em>(d.*)</em>/',$html,$item); $goods['title']=$item[1][0]; echo $goods['title']; if($canBuy) { foreach ($items[1] as &$item) { //去掉html标记、空格、换行符 $item=strip_tags($item); $item=str_replace(" ","",$item); $item=str_replace(" ","",$item); $item=str_replace(" ","",$item); $item=str_replace(" ","",$item); //切割字符串,获取键值对 preg_match_all('/([dD]*?):([dD]*?)[ ]/',$item,$item2); if(count($item2[1])>0){ for($i=0;$i<count($item2[1]);$i++){ if($item2[1][$i]=="价格"){ $goods['price']=$item2[2][$i]; }elseif($item2[1][$i]=="颜色"){ $goods['color']=$item2[2][$i]; }elseif($item2[1][$i]=="产地"){ $goods['producePlace']=$item2[2][$i]; }elseif($item2[1][$i]=="商品编号"){ $goods['goodsn']=$item2[2][$i]; }elseif($item2[1][$i]=="型号"){ $goods['model']=$item2[2][$i]; }elseif($item2[1][$i]=="商品毛重"){ $goods['grossWeight']=$item2[2][$i]; }elseif($item2[1][$i]=="规格"){ $goods['specifications']=$item2[2][$i]; } } } } //获取商品评论数 preg_match_all('/<as{0,}href="#comment"s{0,}target="_self">s{0,}[dD]+?<strongs{0,}class="curr-num">(d*)</',$html,$comment); $goods['commentnum']=$comment[1][0]; } }
Itu sahaja untuk keseluruhan proses. Dalam aplikasi sebenar, kami boleh membuat beberapa pelarasan dan pengoptimuman pada kod berdasarkan keperluan sebenar, seperti menambah pengendalian pengecualian, menetapkan pengepala permintaan, melaraskan kelajuan merangkak, dsb. Ringkasnya, atas dasar ini, perangkak yang stabil dan cekap boleh dibina untuk mendapatkan maklumat produk JD dan seterusnya membantu operasi dan analisis e-dagang.
Atas ialah kandungan terperinci Pertempuran crawler praktikal: Gunakan PHP untuk merangkak maklumat produk JD.com. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Kaedah teras untuk membina fungsi perkongsian sosial dalam PHP adalah untuk menghasilkan pautan perkongsian secara dinamik yang memenuhi keperluan setiap platform. 1. Mula -mula dapatkan halaman semasa atau URL dan maklumat artikel yang ditentukan; 2. Gunakan urlencode untuk menyandikan parameter; 3. Sambutan dan menjana pautan perkongsian mengikut protokol setiap platform; 4. Pautan paparan di hujung depan untuk pengguna mengklik dan berkongsi; 5. Dinamik menghasilkan tag OG pada halaman untuk mengoptimumkan paparan kandungan perkongsian; 6. Pastikan untuk melepaskan input pengguna untuk mencegah serangan XSS. Kaedah ini tidak memerlukan pengesahan yang kompleks, mempunyai kos penyelenggaraan yang rendah, dan sesuai untuk kebanyakan keperluan perkongsian kandungan.

1. Memaksimumkan nilai komersil sistem komen memerlukan menggabungkan pengiklanan pengiklanan asli, perkhidmatan nilai tambah pengguna (seperti memuat naik gambar, komen top-up), mempengaruhi mekanisme insentif berdasarkan kualiti komen, dan pematuhan data pengewangan data tanpa nama; 2. Strategi audit harus mengadopsi gabungan penapisan kata kunci dinamik pra-audit dan mekanisme pelaporan pengguna, ditambah dengan penarafan kualiti komen untuk mencapai pendedahan hierarki kandungan; 3. Anti-brushing memerlukan pembinaan pertahanan berbilang lapisan: Recaptchav3 Pengesahan tanpa sensor, Honeypot Honeypot Field Robot, IP dan Had Frekuensi Timestamp menghalang penyiraman, dan pengiktirafan corak kandungan menandakan komen yang mencurigakan, dan terus berurusan dengan serangan.

Untuk merealisasikan pembetulan ralat teks dan pengoptimuman sintaks dengan AI, anda perlu mengikuti langkah -langkah berikut: 1. Pilih model AI atau API yang sesuai, seperti Baidu, Tencent API atau perpustakaan NLP sumber terbuka; 2. Panggil API melalui curl atau Guzzle PHP dan memproses hasil pulangan; 3. Maklumat pembetulan ralat paparan dalam aplikasi dan membenarkan pengguna memilih sama ada untuk mengadopsinya; 4. Gunakan php-l dan php_codesniffer untuk pengesanan sintaks dan pengoptimuman kod; 5. Secara berterusan mengumpul maklum balas dan mengemas kini model atau peraturan untuk meningkatkan kesannya. Apabila memilih AIAPI, fokus pada menilai ketepatan, kelajuan tindak balas, harga dan sokongan untuk PHP. Pengoptimuman kod harus mengikuti spesifikasi PSR, gunakan cache yang munasabah, elakkan pertanyaan bulat, mengkaji semula kod secara berkala, dan gunakan x

Idea utama mengintegrasikan keupayaan pemahaman visual AI ke dalam aplikasi PHP adalah menggunakan API Perkhidmatan Visual AI pihak ketiga, yang bertanggungjawab untuk memuat naik imej, menghantar permintaan, menerima dan menghuraikan hasil JSON, dan menyimpan tag ke pangkalan data; 2. Penandaan imej automatik dapat meningkatkan kecekapan dengan ketara, meningkatkan pencarian kandungan, mengoptimumkan pengurusan dan cadangan, dan mengubah kandungan visual dari "data mati" kepada "data hidup"; 3. Memilih perkhidmatan AI memerlukan penghakiman yang komprehensif berdasarkan pencocokan fungsional, ketepatan, kos, kemudahan penggunaan, kelewatan serantau dan pematuhan data, dan disyorkan untuk memulakan dari perkhidmatan umum seperti Google CloudVision; 4. Cabaran umum termasuk masa tamat rangkaian, keselamatan utama, pemprosesan ralat, batasan format imej, kawalan kos, keperluan pemprosesan tak segerak dan isu ketepatan pengiktirafan AI.

Input suara pengguna ditangkap dan dihantar ke backend PHP melalui API Mediarecorder JavaScript front-end; 2. PHP menjimatkan audio sebagai fail sementara dan memanggil STTAPI (seperti Pengiktirafan Suara Google atau Baidu) untuk mengubahnya menjadi teks; 3. PHP menghantar teks kepada perkhidmatan AI (seperti Openaigpt) untuk mendapatkan jawapan pintar; 4. PHP kemudian memanggil TTSAPI (seperti sintesis Baidu atau Google Voice) untuk menukar balasan ke fail suara; 5. PHP mengalir fail suara kembali ke bahagian depan untuk bermain, menyelesaikan interaksi. Seluruh proses dikuasai oleh PHP untuk memastikan hubungan lancar antara semua pautan.

PHP tidak secara langsung melaksanakan pemprosesan imej AI, tetapi mengintegrasikan melalui API, kerana ia adalah baik pada pembangunan web dan bukannya tugas-tugas intensif pengkomputeran. Integrasi API boleh mencapai pembahagian profesional buruh, mengurangkan kos, dan meningkatkan kecekapan; 2. Mengintegrasikan teknologi utama termasuk menggunakan Guzzle atau Curl untuk menghantar permintaan HTTP, pengekodan data JSON dan penyahkodan, pengesahan keselamatan utama API, pemprosesan giliran yang memakan masa yang memakan masa, pengendalian ralat yang teguh dan mekanisme semula, penyimpanan imej dan paparan; 3. Cabaran umum termasuk kos API daripada kawalan, hasil generasi yang tidak terkawal, pengalaman pengguna yang lemah, risiko keselamatan dan pengurusan data yang sukar. Strategi tindak balas menetapkan kuota dan cache pengguna, menyediakan panduan propt dan pemilihan multi-gambar, pemberitahuan asynchronous dan kemajuan kemajuan, penyimpanan pembolehubah persekitaran utama dan audit kandungan, dan penyimpanan awan.

PHP menyediakan asas input untuk model AI dengan mengumpul data pengguna (seperti sejarah pelayaran, lokasi geografi) dan pra-pemprosesan; 2. Gunakan curl atau GRPC untuk berhubung dengan model AI untuk mendapatkan keputusan ramalan kadar klik dan penukaran kadar; 3. Secara dinamik menyesuaikan kekerapan paparan pengiklanan, populasi sasaran dan strategi lain berdasarkan ramalan; 4. Uji varian pengiklanan yang berbeza melalui A/B dan data rekod, dan menggabungkan analisis statistik untuk mengoptimumkan kesannya; 5. Gunakan PHP untuk memantau sumber lalu lintas dan tingkah laku pengguna dan mengintegrasikan dengan API pihak ketiga seperti Googleads untuk mencapai penghantaran automatik dan pengoptimuman maklum balas yang berterusan, akhirnya meningkatkan CTR dan CVR dan mengurangkan CPC, dan melaksanakan sepenuhnya sistem pengiklanan yang didorong oleh AI-Driven.

PHP memastikan pemotongan inventori atomik melalui urus niaga pangkalan data dan kunci baris forupdate untuk mengelakkan overselling serentak yang tinggi; 2. Konsistensi inventori pelbagai platform bergantung kepada pengurusan berpusat dan penyegerakan yang didorong oleh peristiwa, menggabungkan pemberitahuan API/webhook dan beratur mesej untuk memastikan penghantaran data yang boleh dipercayai; 3. Mekanisme penggera harus menetapkan inventori rendah, sifar/inventori negatif, jualan yang tidak dapat dilepaskan, kitaran penambahan dan strategi turun naik yang tidak normal dalam senario yang berbeza, dan pilih DingTalk, SMS atau orang yang bertanggungjawab e -mel mengikut urgensi, dan maklumat penggera mesti lengkap dan jelas untuk mencapai penyesuaian perniagaan dan tindak balas yang cepat.
