完璧なHTML解析エンジン(Jumony)の詳細説明-htmlチュートリアル-php.cn

完璧なHTML解析エンジン(Jumony)の詳細説明

零下一度

リリース： 2017-05-04 14:57:37

オリジナル

7354 人が閲覧しました

おそらく多くの人は、現在の HTML パーサーで十分であり、単純な正規表現でも HTML ドキュメントを操作するニーズをすでに満たしていると考えるでしょう。はい、実際、インターネット上の HTML ドキュメントの大部分は XHTML 仕様を満たしており、その解析には強力なパーサーは必要ありません。ただし、強力なパーサーと完璧なパーサーは別のものです。

Jumony Core はまず、ほぼ完璧な HTML 解析エンジンを提供し、その解析結果はブラウザーの解析結果に限りなく近づきます。終了タグのない要素、オプションの終了タグのある要素、タグ属性、CSS セレクターとスタイルのいずれであっても、すべての合法および違法の HTML ドキュメントがブラウザーによって解析され、Jumony はそれらをサンプルに解析します。つまり、Jumony の解析結果はブラウザの解析結果と同じであるため、HTML ドキュメントが認識できるかどうかを心配する必要はなくなります。ブラウザがそれを読み取ることができれば、Jumony はそれを理解できます。

完璧と強力の間には 1 ステップしかありませんが、完璧なパーサーを使用すると、HTML ソースドキュメントを気にする必要がなくなります。

以下は、Jumony パーサーでサポートされている機能の不完全なリストです

特性	例子
孤立的<解析为文本	< a应当解析为< a
孤立的>解析为文本	>应当解析为>
标记属性（没有值的属性）
元素丢失结束标签	测试链接
可选结束标签元素 "body", "colgroup", "dd", "dt", "head", "html", "li", "option", "p", "tbody", "td", "tfoot", "th", "thead", "tr"	abc 123
无结束标签元素「area」、「base」、「basefont」、「br」、「col」、「frame」、「hr」、「img」、「input」、「isindex」、「link」、「meta」、「 param", "wbr", "bgsound", "spacer", "keygen"
CDataElement	< ;script>if ( 1" );
"script", "style", "textarea", "title"
事前にフォーマットされた要素	<span class="font5">前にスペースがあります</span><span class="font6">
属性値には一重引用符を使用してください
属性値には二重引用符を使用します
属性値には引用符を使用しないでください	< a href=#>
属性値がありません (ただし、等号はあります)
の前にスペースがあります属性値
解析HTML宣言	>

テキストから HTML を解析できるだけでなく、Jumony の API はインターネットからドキュメント分析を直接取得し、HTTP ヘッダーに基づいてエンコーディングを自動的に識別できます: Jumony に次ぐ HTML 解析オープンソースプロジェクトである

new JumonyParser().LoadDocument( "m.sbmmt.com/" ).Find( ".post_item a.titlelnk" )

ログイン後にコピー

HtmlAgilityPack は長い間廃止されています長年経った今でも、最も基本的な

要素の解析には問題があります。

2. CSS スタイル設定のサポート

HTML を完璧に解析するだけではあまりメリットはありません。実際、ほとんどの HTML ドキュメントは二級パーサーや単純な正規表現を使用できます。これを分析すると、なぜ Jumony が必要になるのでしょうか。 ?

その答えは、HTML エンジンは DOM 構造を解析するだけではないということです。

次のシナリオを考えてみましょう: 要素の表示スタイルに none 値を設定する必要があります。ブラウザでは、要件を満たすには単純な element.style.display = "none" だけが必要です。これで、パーサーを通じて必要な DOM を取得しましたが、スタイルを設定するために文字列を連結する必要がありますか?

その必要はありません。Jumony は CSS スタイルの解析をサポートしており、一部の CSS スタイルの略語ルールも認識できます。Jumony では、要素のスタイルの設定はブラウザーと同じくらい簡単です:

element.Style( "display", "none" )

ログイン後にコピー

この例をもう一度見てみましょう: < ; p style="padding: 5px">

この要素にpadding-left: 0pxを設定するとどうなるでしょうか?

Jumony では、結果は次のようになります:

<p style="padding-left: 0px; padding-right: 5px; padding-top:5px; padding-bottom: 5px"></p>

ログイン後にコピー

ほら、パディング属性は魔法のように自動的に拡張されます。

3. CSS 3 セレクターのサポート

CSS セレクターは、HTML の世界で人気のあるクエリ言語であり、多くのブラウザーでサポートされています。 Jumony は、ほぼ完全な CSS3 セレクターもサポートしています (ランタイム疑似クラスと疑似オブジェクトを除く)。セレクターを使用すると、HTML 内で関心のあるオブジェクトを簡単に見つけることができます。たとえば、ブログパークのホームページにあるすべての記事のタイトルを取得します:

new JumonyParser().LoadDocument( "m.sbmmt.com/" ).Find( ".post_item a.titlelnk" )

ログイン後にコピー

キャッチ、分析、選択をすべて一度に行うだけで、取得したデータをコンソールに出力できます:

 foreach( var title = new JumonyParser().LoadDocument( "m.sbmmt.com/" ).Find( ".post_item a.titlelnk" ) )
  Console.WriteLine( title.InnerText() );

ログイン後にコピー

。 Jumony デバイスリストでサポートされている CSS3 選択:

nth-child

セレクター	説明
*	すべての要素を選択
p a	子孫要素を選択
p>a	子要素を選択
p+a	隣接する要素を選択
p~a	後続要素を選択
[属性]	選択する属性が存在します
[attr=value]	属性値の完全一致
[attr~=value]	属性値の近似一致
[ attr^=value]	属性値の一致が開始されました
[attr*=value]	属性値には一致する
[attr$=value]が含まれています	属性値の終了一致
[attr!=value]	属性値の負の一致
:not	negative pseudo-class
:一人っ子	唯一の子要素擬似クラス
:only-of-type	only-of-type擬似クラス
:empty	空要素疑似クラス
構造化擬似クラス
:nth-last-of-type	構造化擬似クラス
:first-child	構造化擬似クラス
:最後の子供	構造化擬似クラス
:first-of-type	構造化擬似クラス
:last-of-type	構造化擬似クラス

4. 強力なスケーラビリティ

Jumony Core 3 では、HTML 仕様をカスタマイズしたり、独自のパーサーを実装したり、他の DOM モデルを Jumony に移植したりすることができます。独自の CSS セレクター擬似クラス、または jQuery スタイルなどの独自の API を変更することもできます。

Jumony Core には、Web サイトのクロール、jQuery スタイル API の提供、Web サイト開発、MHT ファイルの作成、HAP 解析結果に対する CSS セレクターサポートの追加など、多くの派生プロジェクトがあります。これらのプロジェクトはすべて Jumony Core の恩恵を受けています。強力な機能。

【関連おすすめ】

1. 無料のHTMLオンラインビデオチュートリアル

2. HTML開発マニュアル

3. php.cnオリジナルのHTML5ビデオチュートリアル

以上が完璧なHTML解析エンジン(Jumony)の詳細説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。