simple_html_dom.php PHP を使用して Web ページを処理するのは問題ないと言えます
ただし、Java がさまざまな Web ページのエンコーディングを処理するのと同じように、さまざまなエンコーディングは処理されておらず、改善されています。使用方法:
(注: 現在は UTF8 または gb2312 Web ページを読み取るようにのみ変更されています。)
g/fw.php では、次の定義が simple_html_dom に関連しています:
$MY_HTML_CONV = "utf8->gb "; // UTF8エンコードを読み込む際の設定です。
$IS_CURL = true; // 読み込みにはcurlを使用、Webページの読み込みにはfile_get_contentsを使用します。
$IS_CONV = true; // iconv()を使用またはトランスコーディング用の mb_convert_encoding < ;<-- これは simple_html_dom とは関係ありません
----------------------------- ----------- -------------------------------------- ---
注: 関数内で gb2312 エンコーディングを読み取る場合、および $MY_HTML_CONV で UTF8 エンコーディングが指定されている場合は、次を使用します:
include('simplehtmldom/simple_html_dom.php');
// GB2312 Web ページのコンテンツを読み取ります。
$GLOBALS['MY_HTML_CONV'] = null; // 注: この行は、g/fw.php.
$html = str_get_html($ct);
で定義された値を変更します。