ダウンロードアドレス: http://www.jb51.net/codes/33397.html
スヌーピーのいくつかの機能:
1 Web ページのコンテンツを取得します。
2 Web ページのテキストコンテンツを取得します (HTML タグを削除します) ) fetchtext
3 Web ページ、フォーム fetchlinks fetchform へのリンクを取得します
4 プロキシ ホストをサポートします
5 基本的なユーザー名/パスワード検証をサポートします
6 user_agent、リファラー (ソース)、Cookie およびヘッダー コンテンツ (ヘッダー ファイル) の設定をサポートします
7 ブラウザーのリセットをサポートします方向、およびリダイレクトの深さを制御できます
8 Web ページ内のリンクを高品質の URL に展開できます (デフォルト)
9 データを送信し、戻り値を取得します
10 HTML フレームワークの追跡をサポートします
11 リダイレクト時の Cookie の受け渡しをサポートします
要件 PHP4 PHPクラスなので展開する必要がないため、サーバーがcurlをサポートしていない場合に最適です。
fetch($URI)
————–
これは、Web ページをクロールするためのコンテンツに使用される方法です。
$URI パラメータは、クロールされた Web ページの URL アドレスです。
取得した結果は $this->results に保存されます。
フレームをスクレイピングしている場合、スヌーピーは各フレームを追跡して配列に保存し、$this->results に保存します。
fetchtext($URI)
——————
このメソッドは fetch() に似ていますが、唯一の違いは、このメソッドが HTML タグとその他の無関係なデータを削除し、Web 内のテキスト コンテンツのみを返すことです。ページ。
fetchform($URI)
——————
このメソッドは fetch() に似ていますが、唯一の違いは、このメソッドが HTML タグとその他の無関係なデータを削除し、フォームのコンテンツ (form) のみを返すことです。ウェブページで。
fetchlinks($URI)
——————-
このメソッドは fetch() に似ていますが、唯一の違いは、このメソッドが HTML タグとその他の無関係なデータを削除し、Web ページ内のリンクのみを返すことです。 。
デフォルトでは、相対リンクは自動的に完成され、完全な URL に変換されます。
submit($URI,$formvars)
————————-
このメソッドは、$URL で指定されたリンク アドレスに確認フォームを送信します。 $formvars はフォームパラメータを格納する配列です。
submittext($URI,$formvars)
————————–
このメソッドは submit() と似ていますが、唯一の違いは、このメソッドは HTML タグとその他の無関係なデータを削除し、のみを返すことです。 Web ページのテキスト コンテンツ。
submitlinks($URI)
——————-
このメソッドは submit() に似ていますが、唯一の違いは、このメソッドが HTML タグとその他の無関係なデータを削除し、Web 内のリンクのみを返すことです。ページ。
デフォルトでは、相対リンクは自動的に完成され、完全な URL に変換されます。
クラス属性: (デフォルト値は括弧内)
$host 接続するホスト
$port 接続するポート
$proxy_host 使用するプロキシ ホスト (存在する場合)
$proxy_port 接続するプロキシ ホスト ポート使用 (ある場合)
$agent ユーザー エージェント カモフラージュ (Snoopy v0.1)
$リファラー ソース情報 (存在する場合)
$cookies クッキー (存在する場合)
$rawheaders 他のヘッダー情報 (存在する場合)
$maxredirs 最大重み リダイレクト数、0 =not allowed (5)
$offsiteok オフサイトへのリダイレクトを許可するかどうか (true)
$expandlinks 完全なアドレスへのすべてのリンクを完了するかどうか (true)
$user 認証ユーザー名 (ある場合) 許可する場合
$pass認証ユーザー名 (存在する場合)
$accept http accept type (image/gif、image/x-xbitmap、image/jpeg、image/pjpeg、*/*)
$error エラーの報告先 (存在する場合)
$ response_code サーバーから返された応答コード
$headers サーバーから返されたヘッダー情報
$maxlength 返された最長のデータ長
$read_timeout 読み取り操作のタイムアウト (PHP 4 Beta 4+ が必要)
タイムアウトなしの場合は 0 に設定します
$ timed_out 読み取り操作がタイムアウトした場合、この属性は true を返します (PHP 4 Beta 4+ が必要)
$maxframes 追跡できる最大フレーム数
$status キャプチャされた http のステータス
$temp_dir Web サーバーは一時的に書き込むことができますファイルディレクトリ (/tmp)
$curl_path cURL バイナリディレクトリ。cURL バイナリがない場合は、false に設定します
以下はデモです
".htmlspecialchars($snoopy->results)."n" ;
http://www.bkjia.com/PHPjc/322586.html