ruby - Nokogiri 抓取网页乱码如何解决？-PHP 중국어 네트워크 Q&A

기사 주제 학습 다운로드 Q&A 프로그래밍 사전 게임 최근 업데이트

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

ruby - Nokogiri 抓取网页乱码如何解决？

巴扎黑

巴扎黑 2017-04-22 09:00:21

0

1

698

最近在帮同学在一个网站上抓取一些东西，比如 http://www.sell001.com/110178 上面的服装图片，标题和价格等等。

这个网站有点奇怪，他 meta 里面没有声明 charset，然后我用 Nokogiri ，也没有指定特定的 encoding。

抓了一些图片和链接都是可以的，但是碰到有中文的情况时它就乱码了。

我看官方文档 http://www.nokogiri.org/tutorials/parsing_an_html_xml_document.html，
Nokogiri 可以指定 encoding，比如doc = Nokogiri.XML('', nil, 'EUC-JP')
我试了指定一些比如 gbk 等等，都无效。。

这种情况该如何解决？

巴扎黑

巴扎黑

모든 응답 (1)

阿神2017-04-22 09:02:21 1층

으아악

=> #(문서:0x3fc3974355f4 {
이름 = "문서",
아이들 = [
#(DTD:0x3fc397424bf0 { 이름 = "html" }),
#(요소:0x3fc39741fc18 {
이름 = "html",
속성 = [
#(속성:0x3fc39740fa20 {
이름 = "xmlns",
값 = "http://www.w3.org/1999/xhtml"
})],
아이들 = [
#(텍스트 "rn"),
#(요소:0x3fc3973da190 {
이름 = "머리",
아이들 = [
#(텍스트 "rn"),
#(요소:0x3fc3973cf6dc {
이름 = "제목",
children = [ #(Text "九天國际A218-网商园")]
}),

utf-8수정常解析。。。

좋다+0

답글 추가

인기 주제

더>

인기 기사

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿

회사 소개 부인 성명 Sitemap: PHP 중국어 웹사이트：공공복지 온라인 PHP 교육，PHP 학습자의 빠른 성장을 도와주세요！