Symfony の Crawler コンポーネントを使用して、laravel で HTML_php インスタンスを分析する-PHPチュートリアル-php.cn

この記事では、laravel で HTML を解析するための Symfony の Crawler コンポーネントの使用法を主に紹介します。必要な友人は参照してください。

Crawler の正式名は DomCrawler で、Symfony フレームワークのコンポーネントです。とんでもないのは、DomCrawler には中国語のドキュメントがなく、Symfony はこの部分を翻訳していないため、DomCrawler を使用した開発は少しずつしか探索できないことです。ここで使用プロセスの経験をまとめます。

最初に

composer require symfony/dom-crawler composer require symfony/css-selector

ログイン後にコピー

css-seelctorをインストールします。これはcssセレクターでノードを選択するときにいくつかの関数が使用されます

マニュアルで使用されている例は

use Symfony\Component\DomCrawler\Crawler; $html = <<<‘HTML‘ Hello World! Hello Crawler! HTML; $crawler = new Crawler($html); foreach ($crawler as $domElement) { var_dump($domElement->nodeName); }

ログイン後にコピー

です

出力結果は

です。

string ‘html‘ (length=4)

ログイン後にコピー

そのため、HTMLコードのnodeNameはhtmlになっており、使い始めたときはプログラムが間違っているのではないかと思いました。。。

実際の使用プロセスで、新しいクローラ ($html) にコード化けの問題が発生する場合は、ページのエンコーディングに関連しているはずです。そのため、次の方法を使用して、最初にクローラを初期化してから、 node

$crawler = new Crawler(); $crawler->addHtmlContent($html);

ログイン後にコピー

addHtmlContent の 2 番目のパラメータは charset で、デフォルトは utf-8 です。

他の例については、公式ドキュメント http://symfony.com/doc/current/components/dom_crawler.html を参照してください

仕事で少し試した使用方法を記録してください

filterXPath( string $xpath)メソッド、マニュアルによると、このメソッドのパラメータは$xpathで、pやpなどのブロックがよく使われます。

echo $crawler->filterXPath(‘//body/p‘)->text(); echo $crawler->filterXPath(‘//body/p‘)->last()->text();

ログイン後にコピー

出力は最初と次の p タグブロックのテキストです

var_dump($crawler->filterXPath(‘//body‘)->html());

ログイン後にコピー

出力は本文の HTML です

foreach ($crawler->filterXPath(‘//body/p‘) as $i => $node) { $c = new Crawler($node); echo $c->filter(‘p‘)->text(); }

ログイン後にコピー

filterXPath は DOMElement ブロックの配列を取得し、各 DOMElement ブロックは新しいクローラーオブジェクトを使用して続行できますparsing

$nodeValues = $crawler->filterXPath(‘//body/p‘)->each(function (Crawler $node, $i) { return $node->text(); });

ログイン後にコピー

crawler は各ループを提供し、クロージャー関数を使用してコードを簡素化します。ただし、この方法で $nodeValues を記述すると配列になるため、さらに処理が必要になることに注意してください。

その他の用途

echo $crawler->filterXPath(‘//body/p‘)->attr(‘class‘);

ログイン後にコピー

最初のpタグに対応するclass属性の値「message」を取得できます

$crawler->filterXPath(‘//p[@class="样式"]‘)->filter(‘a‘)->attr(‘href‘); $crawler->filterXPath(‘//p[@class="样式"]‘)->filter(‘a>img‘)->extract(array(‘alt‘, ‘href‘))

ログイン後にコピー

上記はタグ属性を取得する方法のいくつかです

filterはfilterXPathとは異なり、マニュアルにはcssと書いてありますが、セレクターはpのようなXPathノードに含まれる要素であることは理解しています。具体的な状況は実際の開発で試す必要があります。

一般的に、単純な HTML dom よりも DomCrawler の方が使いやすいと感じます。

上記は Crawler の基本的な機能です。さらに詳しい使用方法については、symfony マニュアルの Crawler 部分の機能を参照してください

http://api.symfony.com/3.2/Symfony/Component/DomCrawler/Crawler .html

Crawler の主な問題は、やはり使用例が少なすぎ、機能マニュアルにも使用例がないため、実際に使用して調べるしかありません。。。。

DomCrawler に関する symfony のドキュメント。いくつかの例があります

http://symfony.com/doc/current/components/dom_crawler.html

以上がSymfony の Crawler コンポーネントを使用して、laravel で HTML_php インスタンスを分析するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。