コードをコピーします コードは次のとおりです:
//PHP Simple html Dom クラス ライブラリ ファイルを含める
include_once('./simplehtmldom/simple_html_dom.php');
//Collect html
関数 getwebcontent($url){
$ch =curl_init();
curl_setopt($ch, CURLOPT_URL, $url); ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
return $contents;タイトルと URL
$string =
getwebcontent('http://www.babytree.com/learn/zhunbeihuaiyun/jijibeiyun/2');
//通常のマッチング
タイトルとアドレスを取得
preg_match_all ("/< li>< ;a href="/learn/article/(.*)">(.*)/",
$string, $out, PREG_SET_ORDER);
foreach($out as $key => $value){
$article['title'][] = $out[$key][2];
$article['link'][] = "http://www.babytree.com/ learn/article /".$out[$key][1];
}
//URL に基づいて記事のコンテンツを取得します
foreach($article['link'] as $key=>$value){
$html = file_get_html($ 値);
$div = $html->find('div[id=pagenum_0]');
$article[content][] = $div[0]->innertext; }
//タイトル転送コード---実際に使用するときは、この手順は必要ありません--そもそもutf8を使用する必要があるためです
//実際には、トランスコーディングせずにファイルとして保存することはできません
foreach($article[title] as $key=>$value) {
$article[title][$key] = iconv('utf-8', 'gbk', $value);//トランスコーディング
}
// ファイルに保存
$num = count($article[' title']);
for($i=0; $ifile_put_contents("{$article[title][$ i]}.txt", $article['content'][ $i]);
}
/*本当は12時までに送信したかったのですが。 。でも見てください、もう3時半です。 。 。 昨日のことだとしても、
本来、記事の内容を取得するには正規表現を使うのが一番早い方法です
正規表現は良いのですが、正規表現は本当に難しいです!そこで調べてみたところ、
ネット上ではPHP Simple Domを使っている人も多いようですが、効率は少し落ちるものの、それでも効果は十分です
クラスライブラリファイルのインクルードからtxtファイルの作成までにかかる時間は約1時間です。 7/8 秒で、さらに最適化するため、特に記事のコンテンツを取得するための通常のルールがあまりにも不快です
少し調べてください*/
?>
;
上記は、PHP simple_html_domphp+normal の記事コードをまとめたもので、PHP チュートリアルに興味のある友人の参考になれば幸いです。