首頁 後端開發 php教程 爬蟲實戰:用 PHP 爬取京東商品訊息

爬蟲實戰:用 PHP 爬取京東商品訊息

Jun 13, 2023 am 11:11 AM
php 京東 爬蟲

在當今的電商時代,京東身為中國最大的綜合電商之一,每日上架的商品數量甚至可以達到數萬種。對於廣大的消費者來說,京東提供了廣泛的商品選擇和優勢的價格優惠。但是,有些時候,我們需要批量獲取京東商品信息,快速篩選、比較、分析等等。這時候,我們就需要用到爬蟲技術了。在本篇文章中,我們將會介紹利用PHP語言編寫爬蟲,幫助我們快速爬取京東商品資訊的實作。

  1. 準備工作

首先,我們需要安裝php所需的curl擴展,並設定一些常用的變數。具體步驟如下:

首先,打開終端機或powershell,輸入以下命令來安裝curl擴充包:

sudo apt-get install php7.0-curl //ubuntu系统安装
brew install curl-openssl php-curl //macOS系统安装

接著,我們需要在PHP的程式碼中設定一些簡單的變量,方便我們在後續的代碼中使用。例如,我們定義一個$jgname變數表示京東的訪問位址,另一個$skulist變數表示每個商品的存取位址。程式碼如下:

$jgname= "https://list.jd.com/list.html?cat=1318,1486,1490&ev=exbrand_13910&sort=sort_rank_asc&trans=1&JL=3_%E5%93%81%E7%89%8C_%E5%B0%8F%E7%B1%B3%EF%BC%88MI%EF%BC%89#J_crumbsBar";
$skulist="https://item.jd.com/1285310.html";
  1. 取得商品清單

現在我們已經準備完了環境和需要的變量,我們可以開始寫我們的爬蟲了。首先,我們需要取得目標京東商品頁面的商品清單。我們可以根據,京東商品頁的存取地址(即$jgname),利用curl的工具和正規表示式來取得目標連結。分別取得價格、評論數、商品名稱、商品編號等等商品資訊。

具體程式碼如下:

$ch = curl_init();//初始化curl

curl_setopt($ch, CURLOPT_URL,$jgname);//设置url属性
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);//设置是否将curl_exec()获取的信息以字符串返回,而不是直接输出
$result = curl_exec ($ch);//执行一个curl会话
curl_close ($ch);//关闭curl会话

preg_match_all("/<li .*?</li>/", $result, $matches);//正则表达式把需要的内容取出来,即匹配<li>标签

$goodsinfo=array();//创建一个商品列表

foreach ($matches[0] as $item) {
    //获取商品信息
    preg_match("/sku="(d+)"/",$item,$skuid);
    preg_match("/标题">s{0,}([dD]+?)s{0,}</a>/",$item,$titlename);
    preg_match("/<strong>¥</strong>[s
]{0,}<i>(d+.d+)</i>/",$item,$price);
    preg_match("/<divs{0,}class="p-commit">[s
]+<strong[^>]+>(d+)/",$item,$commentnum);
    preg_match("/<as{0,}href="([dD]+?)"/",$item,$link);

    //将商品信息存储到商品列表中
    $goods=array(
         "title"=>trim($titlename[1]),
         "price"=>trim($price[1]),
         "link"=>"https:".$link[1],
         "skuid"=>trim($skuid[1]),
         "commentnum"=>trim($commentnum[1])
    );
    array_push($goodsinfo,$goods);//将商品信息添加到商品列表

    //输出测试:打印商品信息
    echo $goods['title']." ".$goods['price']." ".$goods['commentnum']." ".$goods['link']."<br>";
}

在上述程式碼中,我們將取得到的每個商品的連結和編號儲存在了$goods'skuid'和'link'中,並將其它有用的信息(價格,評論數等)放入$goods數組。最後,經由array_push()函數加入到$goodsinfo數組中。你可以使用循環語句來輸出商品列表訊息,以便於查看爬取結果。

  1. 獲取商品詳細信息

現在,我們已經獲取到了京東商品表頁中的商品列表信息,接下來的步驟就是獲取每個商品的詳細信息,並將其儲存在$goods數組中。我們在上一步的$goods數組中已經取得了每個商品的編號和連結。因此,接下來的操作就是打開每個鏈接,以獲取各種有用的商品資訊。具體代碼如下:

foreach ($goodsinfo as &$goods) {
    //更新每个商品的网页链接
    $link="https://item.jd.com/".$goods['skuid'].".html";
    $goods['link']=$link;

    $canBuy=true;//官网上可以买
    //判断是否能够购买
    preg_match('/无货/',file_get_contents($link)) && ($canBuy=false);

    //利用curl工具打开网页链接,获得网页代码
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL,$link);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
    $html = curl_exec ($ch);
    curl_close ($ch);
    //分析网页代码,使用正则表达式获取商品种类,价格,颜色,库存数量等数据,并保存
    preg_match_all('/<divs{0,}class="Ptable".*?>[s
]+<divs{0,}class="Ptable-item".*?>[s
]+([dD]*?)</div>/',$html,$items);
    preg_match_all('/<strong>商品名称</strong><em>(d.*)</em>/',$html,$item);
    $goods['title']=$item[1][0];
    echo $goods['title'];

    if($canBuy)
    {
        foreach ($items[1] as &$item) {
            //去掉html标记、空格、换行符
            $item=strip_tags($item);
            $item=str_replace(" ","",$item); 
            $item=str_replace("    ","",$item); 
            $item=str_replace("
","",$item);
            $item=str_replace("
","",$item); 

            //切割字符串,获取键值对
            preg_match_all('/([dD]*?):([dD]*?)[
]/',$item,$item2);
            if(count($item2[1])>0){
                for($i=0;$i<count($item2[1]);$i++){
                    if($item2[1][$i]=="价格"){
                        $goods['price']=$item2[2][$i];
                    }elseif($item2[1][$i]=="颜色"){
                        $goods['color']=$item2[2][$i];
                    }elseif($item2[1][$i]=="产地"){
                        $goods['producePlace']=$item2[2][$i];
                    }elseif($item2[1][$i]=="商品编号"){
                        $goods['goodsn']=$item2[2][$i];
                    }elseif($item2[1][$i]=="型号"){
                        $goods['model']=$item2[2][$i];
                    }elseif($item2[1][$i]=="商品毛重"){
                        $goods['grossWeight']=$item2[2][$i];
                    }elseif($item2[1][$i]=="规格"){
                        $goods['specifications']=$item2[2][$i];
                    }
                }
            }
        }
        //获取商品评论数
        preg_match_all('/<as{0,}href="#comment"s{0,}target="_self">s{0,}[dD]+?<strongs{0,}class="curr-num">(d*)</',$html,$comment);
        $goods['commentnum']=$comment[1][0];
    }
}

在這些代碼中,我們使用了類似於第2步的技術,利用curl工具獲得每個商品的詳細鏈接,然後利用正則表達式來獲取一些有用的商品信息。我們可以透過以下方式來輸出所獲得的商品詳細資訊:

foreach ($goodsinfo as &$goods) {
    echo $goods['skuid']." ".$goods['title']." ".$goods['price']." ".$goods['commentnum']." ".$goods['link']."<br>";
}

整個流程就這些了。在實際應用中,我們可以根據實際的需求對程式碼進行一些調整和最佳化,例如添加異常處理、設定請求頭、調整爬取速度等。總之,在此基礎上,可以建構一個穩定、高效的爬蟲,獲得京東商品訊息,進一步助力電商運作和分析。

以上是爬蟲實戰:用 PHP 爬取京東商品訊息的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

如何用PHP搭建社交分享功能 PHP分享接口集成實戰 如何用PHP搭建社交分享功能 PHP分享接口集成實戰 Jul 25, 2025 pm 08:51 PM

在PHP中搭建社交分享功能的核心方法是通過動態生成符合各平台要求的分享鏈接。 1.首先獲取當前頁面或指定的URL及文章信息;2.使用urlencode對參數進行編碼;3.根據各平台協議拼接生成分享鏈接;4.在前端展示鏈接供用戶點擊分享;5.動態生成頁面OG標籤優化分享內容展示;6.務必對用戶輸入進行轉義以防止XSS攻擊。該方法無需複雜認證,維護成本低,適用於大多數內容分享需求。

如何用PHP結合AI實現文本糾錯 PHP語法檢測與優化 如何用PHP結合AI實現文本糾錯 PHP語法檢測與優化 Jul 25, 2025 pm 08:57 PM

要實現PHP結合AI進行文本糾錯與語法優化,需按以下步驟操作:1.選擇適合的AI模型或API,如百度、騰訊API或開源NLP庫;2.通過PHP的curl或Guzzle調用API並處理返回結果;3.在應用中展示糾錯信息並允許用戶選擇是否採納;4.使用php-l和PHP_CodeSniffer進行語法檢測與代碼優化;5.持續收集反饋並更新模型或規則以提升效果。選擇AIAPI時應重點評估準確率、響應速度、價格及對PHP的支持。代碼優化應遵循PSR規範、合理使用緩存、避免循環查詢、定期審查代碼,並藉助X

PHP打造博客評論系統變現 PHP評論審核與防刷策略 PHP打造博客評論系統變現 PHP評論審核與防刷策略 Jul 25, 2025 pm 08:27 PM

1.評論系統商業價值最大化需結合原生廣告精準投放、用戶付費增值服務(如上傳圖片、評論置頂)、基於評論質量的影響力激勵機制及合規匿名數據洞察變現;2.審核策略應採用前置審核 動態關鍵詞過濾 用戶舉報機制組合,輔以評論質量評分實現內容分級曝光;3.防刷需構建多層防禦:reCAPTCHAv3無感驗證、Honeypot蜜罐字段識別機器人、IP與時間戳頻率限制阻止灌水、內容模式識別標記可疑評論,持續迭代應對攻擊。

PHP調用AI智能語音助手 PHP語音交互系統搭建 PHP調用AI智能語音助手 PHP語音交互系統搭建 Jul 25, 2025 pm 08:45 PM

用戶語音輸入通過前端JavaScript的MediaRecorderAPI捕獲並發送至PHP後端;2.PHP將音頻保存為臨時文件後調用STTAPI(如Google或百度語音識別)轉換為文本;3.PHP將文本發送至AI服務(如OpenAIGPT)獲取智能回复;4.PHP再調用TTSAPI(如百度或Google語音合成)將回復轉為語音文件;5.PHP將語音文件流式返回前端播放,完成交互。整個流程由PHP主導數據流轉與錯誤處理,確保各環節無縫銜接。

PHP實現商品庫存管理變現 PHP庫存同步與報警機制 PHP實現商品庫存管理變現 PHP庫存同步與報警機制 Jul 25, 2025 pm 08:30 PM

PHP通過數據庫事務與FORUPDATE行鎖確保庫存扣減原子性,防止高並發超賣;2.多平台庫存一致性需依賴中心化管理與事件驅動同步,結合API/Webhook通知及消息隊列保障數據可靠傳遞;3.報警機制應分場景設置低庫存、零/負庫存、滯銷、補貨週期和異常波動策略,並按緊急程度選擇釘釘、短信或郵件通知責任人,且報警信息需完整明確,以實現業務適配與快速響應。

如何用PHP結合AI做圖像生成 PHP自動生成藝術作品 如何用PHP結合AI做圖像生成 PHP自動生成藝術作品 Jul 25, 2025 pm 07:21 PM

PHP不直接進行AI圖像處理,而是通過API集成,因為它擅長Web開發而非計算密集型任務,API集成能實現專業分工、降低成本、提升效率;2.整合關鍵技術包括使用Guzzle或cURL發送HTTP請求、JSON數據編解碼、API密鑰安全認證、異步隊列處理耗時任務、健壯錯誤處理與重試機制、圖像存儲與展示;3.常見挑戰有API成本失控、生成結果不可控、用戶體驗差、安全風險和數據管理難,應對策略分別為設置用戶配額與緩存、提供prompt指導與多圖選擇、異步通知與進度提示、密鑰環境變量存儲與內容審核、雲存

超越燈堆:PHP在現代企業體系結構中的作用 超越燈堆:PHP在現代企業體系結構中的作用 Jul 27, 2025 am 04:31 AM

PHPisstillrelevantinmodernenterpriseenvironments.1.ModernPHP(7.xand8.x)offersperformancegains,stricttyping,JITcompilation,andmodernsyntax,makingitsuitableforlarge-scaleapplications.2.PHPintegrateseffectivelyinhybridarchitectures,servingasanAPIgateway

如何用PHP開發AI驅動的廣告投放 PHP廣告效果優化方案 如何用PHP開發AI驅動的廣告投放 PHP廣告效果優化方案 Jul 25, 2025 pm 06:12 PM

PHP通過收集用戶數據(如瀏覽歷史、地理位置)並預處理,為AI模型提供輸入基礎;2.使用curl或gRPC等技術對接AI模型,獲取點擊率、轉化率預測結果;3.根據預測動態調整廣告展示頻率、目標人群等策略;4.通過A/B測試不同廣告變體並記錄數據,結合統計分析優化效果;5.利用PHP監控流量來源、用戶行為並與GoogleAds等第三方API集成,實現自動化投放與持續反饋優化,最終提升CTR、CVR並降低CPC,完整實現AI驅動的廣告系統閉環。

See all articles