详解一个完美的HTML解析引擎（Jumony）-html tutorial-php.cn

详解一个完美的HTML解析引擎（Jumony）

零下一度

Lepaskan： 2017-05-04 14:57:37

asal

7351 orang telah melayarinya

也许很多人会认为，目前的HTML解析器已经足够了，甚至于简单的正则，也已经可以满足操纵HTML文档的需求。是的，对于互联网上绝大多数的 HTML文档，事实上都大部分满足了XHTML的规范，对于它们的解析，并不需要多么强大的解析器。但是强大的解析器是一回事，而完美的解析器又是另一回事。

Jumony Core首先提供了一个近乎完美的HTML解析引擎，其解析结果无限逼近浏览器的解析结果。不论是无结束标签的元素，可选结束标签的元素，或是标记属性，或是CSS选择器和样式，一切合法的，不合法的HTML文档，浏览器解析成啥样，Jumony就解析成啥样。也就是说，Jumony解析的结果，与浏览器解析的结果别无二致，让你可以再也不用关心HTML文档是否可以被识别，浏览器能看，Jumony就能解。

完美和强大只有一步之遥，但是完美的解析器可以让你永远不用关心HTML源文档。

以下是Jumony解析器所支持的特性不完全列表

特性	例子
孤立的<解析为文本	< a应当解析为< a
孤立的>解析为文本	>应当解析为>
标记属性（没有值的属性）
元素丢失结束标签	测试链接
可选结束标签元素 "body", "colgroup", "dd", "dt", "head", "html", "li", "option", "p", "tbody", "td", "tfoot", "th", "thead", "tr"	abc 123
无结束标签元素 "area", "base", "basefont", "br", "col", "frame", "hr", "img", "input", "isindex", "link", "meta", "param", "wbr", "bgsound", "spacer", "keygen"
CData元素	<script>if ( 1<a ) alert( "<p>" );</script>
"script", "style", "textarea", "title"
预格式化元素	<span class="font5">前面有空格</span><span class="font6">
属性值使用单引号
属性值使用双引号
属性值不使用引号
属性值丢失（但有等号）
属性值前面有空格
解析HTML声明

不仅仅是可以从文本中解析HTML，Jumony的API可以从互联网上直接抓取文档分析，并根据HTTP头自动识别编码：

new JumonyParser().LoadDocument( "m.sbmmt.com/" ).Find( ".post_item a.titlelnk" )

Salin selepas log masuk

而目前仅次于Jumony的HTML解析开源项目HtmlAgilityPack早已停止了更新，这么多年过去了，对于最基本的

元素的解析都还存在问题。

二、CSS样式设置支持

仅仅只是完美解析HTML，并不能带来多少好处，上面已经说过，事实上大部分的HTML文档，都可以用二流的解析器甚至是简单的正则表达式加以分析，那么为什么我们需要Jumony呢？

答案是一个HTML引擎不仅仅是解析DOM结构这么简单。

考虑这样的场景：我需要给一个元素的display样式设置一个none值。在浏览器中，我们只需要简单的 element.style.display = "none"便可以满足我们的要求。现在，通过解析器已经得到了我们所需要的DOM，但设置样式还需要进行字符串的拼接么？

不需要，Jumony支持CSS样式解析，甚至部分CSS样式缩写规则也能识别，在Jumony中，给元素设置一个样式和在浏览器中一样简单：

element.Style( "display", "none" )

Salin selepas log masuk

我们再来看这样的例子：

，如果我们对这个元素设置padding-left: 0px会怎样？

在Jumony中，结果会是：

<p style="padding-left: 0px; padding-right: 5px; padding-top:5px; padding-bottom: 5px"></p>

Salin selepas log masuk

看，padding属性被神奇的自动展开了。

三、CSS 3选择器支持

CSS选择器是HTML世界通行的查询语言，其简洁有力且被众多浏览器支持。Jumony也支持几乎完整的CSS3选择器（除去运行时伪类及伪对象）。借助选择器，我们可以轻松的在HTML中找到我们感兴趣的对象。例如抓取博客园首页所有文章标题：

new JumonyParser().LoadDocument( "m.sbmmt.com/" ).Find( ".post_item a.titlelnk" )

Salin selepas log masuk

抓取，分析，选择，一气呵成，只需要简单的代码，我们就能在控制台输出我们抓取到的数据：

 foreach( var title = new JumonyParser().LoadDocument( "m.sbmmt.com/" ).Find( ".post_item a.titlelnk" ) )
  Console.WriteLine( title.InnerText() );

Salin selepas log masuk

Jumony支持的CSS3选择器列表：

选择器	描述
*	选择所有元素
p a	选择子代元素
p>a	选择子级元素
p+a	选择相邻元素
p~a	选择后继元素
[attr]	属性存在选择
[attr=value]	属性值精确匹配
[attr~=value]	属性值近似匹配
[attr^=value]	属性值开头匹配
[attr*=value]	属性值包含匹配
[attr$=value]	属性值结尾匹配
[attr!=value]	属性值否定匹配
:not	否定伪类
:only-child	唯一子元素伪类
:only-of-type	唯一类型伪类
:empty	空元素伪类
:nth-child	结构化伪类
:nth-last-child	结构化伪类
:nth-of-type	结构化伪类
:nth-last-of-type	结构化伪类
:first-child	结构化伪类
:last-child	结构化伪类
:first-of-type	结构化伪类
:last-of-type	结构化伪类