ruby - Nokogiri 抓取网页乱码如何解决？-Fragen und Antworten zum chinesischen PHP-Netzwerk

Artikel Thema Lernen Herunterladen Fragen und Antworten Programmierwörterbuch Spiel kürzliche Updates

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

ruby - Nokogiri 抓取网页乱码如何解决？

巴扎黑

巴扎黑 2017-04-22 09:00:21

0

1

683

最近在帮同学在一个网站上抓取一些东西，比如 http://www.sell001.com/110178 上面的服装图片，标题和价格等等。

这个网站有点奇怪，他 meta 里面没有声明 charset，然后我用 Nokogiri ，也没有指定特定的 encoding。

抓了一些图片和链接都是可以的，但是碰到有中文的情况时它就乱码了。

我看官方文档 http://www.nokogiri.org/tutorials/parsing_an_html_xml_document.html，
Nokogiri 可以指定 encoding，比如doc = Nokogiri.XML('', nil, 'EUC-JP')
我试了指定一些比如 gbk 等等，都无效。。

这种情况该如何解决？

巴扎黑

巴扎黑

Antworte allen (1)

阿神2017-04-22 09:02:21 1 Etage

doc = Nokogiri::HTML(open('http://www.sell001.com/110178'),nil,'UTF-8')

=> #(Document:0x3fc3974355f4 {
name = "document",
children = [
#(DTD:0x3fc397424bf0 { name = "html" }),
#(Element:0x3fc39741fc18 {
name = "html",
attributes = [
#(Attr:0x3fc39740fa20 {
name = "xmlns",
value = "http://www.w3.org/1999/xhtml"
})],
children = [
#(Text "\r\n"),
#(Element:0x3fc3973da190 {
name = "head",
children = [
#(Text "\r\n"),
#(Element:0x3fc3973cf6dc {
name = "title",
children = [ #(Text "九天国际A218-网商园")]
}),

utf-8正常解析。。。

Wie+0

Antwort hinzufügen

Beliebte Themen

Mehr>

Populäre Artikel

Beliebte Tutorials

Mehr>

Verwandte Tutorials

Beliebte Empfehlungen

Aktuelle Kurse

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1395572
php入门教程之一周学会PHP

4207793
JAVA 初级入门视频教程

2356640

Neueste Downloads

Mehr>

Web-Effekte

Quellcode der Website

Website-Materialien

Frontend-Vorlage

Über uns Haftungsausschluss Sitemap: Chinesische PHP-Website：Online-PHP-Schulung für das Gemeinwohl，Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln！