数日前、友人からニュース情報を収集するためのプログラムの作成を手伝ってほしいと頼まれ、時間をかけて PHP バージョンを作成し、メモに記録しました。
収集といえば、遠隔からの情報取得→必要なコンテンツの抽出→機密保管→閲覧→表示に過ぎません
単純な「泥棒プログラム」の強化版とも言えます"
以下は対応するコアコードです(悪用しないでください^_^)
収集される内容は、以下に示すようにゲームWebサイトでの告知です:
最初にできますfile_get_contents と単純な規則ルールを使用して基本的なページ情報を取得します
基本情報を整理してデータベースに収集します:
<?php include_once("conn.php"); if($_GET['id']<=8&&$_GET['id']){ $id=$_GET['id']; $conn=file_get_contents("http://www.93moli.com/news_list_4_$id.html");//获取页面内容 $pattern="/<li><a title=\"(.*)\" target=\"_blank\" href=\"(.*)\">/iUs";//正则 preg_match_all($pattern, $conn, $arr);//匹配内容到arr数组 //print_r($arr);die; foreach ($arr[1] as $key => $value) {//二维数组[2]对应id和[1]刚好一样,利用起key $url="http://www.93moli.com/".$arr[2][$key]; $sql="insert into list(title,url) value ('$value', '$url')"; mysql_query($sql); //echo "<a href='content.php?url=http://www.93moli.com/$url'>$value</a>"."<br/>"; } $id++; echo "正在采集URL数据列表$id...请稍后..."; echo "<script>window.location='list.php?id=$id'</script>"; }else{ echo "采集数据结束。"; } ?>
conn.php はデータベース接続ファイルです
list.php はこのページです
収集されるデータはページ単位で表示され、ページアドレスは定期的に増加するので、私はjsジャンプコードを排除し、収集されるページ数をid値を渡すことで制御することで、forループの数が多すぎることを回避します。大きい。
データをデータベースに簡単に入力する 次の記事では、特定の URL から情報を収集するプロセスについて説明します。