用difbot爬行和搜索整個域-php教程-PHP中文網

用difbot爬行和搜索整個域

Jennifer Aniston

發布： 2025-02-17 11:30:13

原創

948 人瀏覽過

>本教程演示了使用Diffbot的結構化數據提取構建站點搜索引擎超過WordPress功能。我們將利用Diffbot的API進行爬行和搜索，並採用宅基地改進的開發環境。

Crawling and Searching Entire Domains with Diffbot

鍵優點：

> diffbot的爬網有效索引並更新SitePoint的內容。它允許自定義蜘蛛網址，通知，爬網限，刷新間隔和新頁面處理。
diffbot搜索API有效地搜索了索引數據，甚至使用關鍵字，日期範圍，特定字段和布爾運算符。
實現：

我們將分兩個步驟創建一個Sitepoint搜索引擎：

crawljob到index sitepoint.com，自動更新新內容。

a（在後續文章中）通過搜索API查詢索引數據。

> diffbot crawljob：

基於模式（種子URL）的

蜘蛛URL。 > >使用指定的API引擎（例如，用於站點點文章的API）處理蜘蛛網

> 創建：

composer require swader/diffbot-php-client運行

job.php

使用搜索API搜索

include 'vendor/autoload.php';
use Swader\Diffbot\Diffbot;
$diffbot = new Diffbot('my_token'); // Replace 'my_token' with your Diffbot token
$job = $diffbot->crawl('sp_search');
$job
    ->setSeeds(['https://www.sitepoint.com'])
    ->notify('your_email@example.com') // Replace with your email
    ->setMaxToCrawl(1000000)
    ->setMaxToProcess(1000000)
    ->setRepeat(1)
    ->setMaxRounds(0)
    ->setPageProcessPatterns([''])
    ->setOnlyProcessIfNew(1)
    ->setUrlCrawlPatterns(['^http://www.sitepoint.com', '^https://www.sitepoint.com'])
    ->setApi($diffbot->createArticleAPI('crawl')->setMeta(true)->setDiscussion(false));
$job->call();

登入後複製

使用搜索API查詢索引數據：> php job.php

Crawling and Searching Entire Domains with Diffbot

搜索API支持高級查詢（關鍵字，日期範圍，字段，布爾運算符）。元信息可通過

訪問。使用。

$search = $diffbot->search('author:"Bruno Skvorc"');
$search->setCol('sp_search');
$result = $search->call();

// Display results (example)
echo '<table><thead><tr><td>Title</td><td>Url</td></tr></thead><tbody>';
foreach ($search as $article) {
    echo '<tr><td>' . $article->getTitle() . '</td><td><a href="' . $article->getResolvedPageUrl() . '">Link</a></td></tr>';
}
echo '</tbody></table>';

登入後複製

結論：

difbot為創建自定義搜索引擎提供了強大的解決方案。雖然對個人來說可能是昂貴的，但它為管理大型網站的團隊和組織提供了巨大的好處。請記住在爬行之前尊重網站服務條款。下一部分將著重於構建搜索引擎的GUI。

>經常詢問的問題（改寫和合併）：> >本節回答了有關爬網，索引和使用Difbot進行大規模數據提取的常見問題。原始的常見問題解答部分非常廣泛和重複。該凝結版本維護核心信息。

Diffbot的工作方式>： difbot使用AI和機器學習從網頁中提取結構化數據。

>>爬一個整個域：使用爬網API，指定域和參數。

Difbot的

> ai驅動的數據提取，易於使用的API，可伸縮性。

搜索引擎爬行： bots掃描網站，收集用於索引的數據。 > 爬網的網站優化：

>使用清晰的網站結構，符合SEO友好的URL，META標籤和常規內容更新。 SiteMap的角色：

：站點地圖將爬蟲引導到重要頁面。 Google的搜索引擎如何工作：

基於算法和算法的結果排名。