このチュートリアルは、正規表現の複雑さを回避して、オープンソースパーサーを使用してHTMLを効率的に解析する方法を示しています。 Envato Tutsを例として削り、記事のタイトルと説明を抽出します。 これは実例のためです。ウェブサイトを削る前に、常に許可を得ることを忘れないでください
さらに手順を以下に詳しく説明しています。
包括的なドキュメントは、プロジェクトの公式GitHubリポジトリで入手できます。 ---
実用的なアプリケーション:scraping envato tuts
コアコードスニペット:
関数(後で定義)は、Webページを取得して処理します。
use voku\helper\HtmlDomParser; require_once 'vendor/autoload.php'; $articles = []; getArticles('https://code.tutsplus.com/tutorials');
getArticles
データ抽出
エントリには、タイトルと説明ペアが含まれます。 たとえば、
$items = $html->find('article'); foreach($items as $post) { $articles[] = [ /* title */ $post->findOne(".posts__post-title")->firstChild()->text(), /* description */ $post->findOne("posts__post-teaser")->text() ]; }
<article>
$articles
$articles[0][0] = "My Article Name Here"; $articles[0][1] = "This is my article description";
関連するhtml:
スクリプトはこのリンクを見つけ、
属性を抽出し、後続のページに再帰的に呼び出します。 重要なことに、
以上が単純なHTML DOMライブラリを使用したHTML解析とスクリーンスクレイピングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。