オープンソースの Java CMS-htmlチュートリアル-php.cn

オープンソースの Java CMS

WBOY

リリース： 2016-06-24 11:47:06

オリジナル

1193 人が閲覧しました

元のアドレス: http://javaz.cn/site/javaz/site_study/info/2015/23312.html

プロジェクトのアドレス: http://www.freeteam.cn/

Web ページ情報収集

FreeCMS 2.1 からサポート

簡単な設定で対象の Web ページ情報を取得できます。同じ収集ルールで複数のページ (静的および動的) を収集できます。さまざまな情報属性を収集でき、情報ページを自動的にレビューして静的化できます。

収集ルール管理

左側の管理メニューから [収集ルール] をクリックしてに入ります。

収集ルールを追加します

収集ルールリストの下にある「追加」ボタンをクリックします。

関連する属性を入力し、[保存] ボタンをクリックします。

収集ルールの属性の説明

収集ルールの属性は、基本、設定、収集アドレス、収集属性、キーワード置換に分かれています。

通常、基本タブで関連する属性を入力するだけで済みます。より高度な設定が必要な場合は、次のいくつかのタブを使用できます。

主な属性については以下で説明します。

名前: 収集ルールの名前。

列に収集: 収集された情報はその列に追加されます。

ページエンコーディング: ターゲット Web ページのページエンコーディング。デフォルトは UTF-8 です。

コレクションアドレス: ターゲット Web ページのアドレス。「基本」タブでは1つだけ設定できますが、複数設定したい場合は「収集アドレス」タブで設定できます。

収集スケジュール: 収集操作のスケジュールされた実行を設定します。この設定は、収集スケジュールシステムが設定されている場合にのみ実行できます。

コンテンツリストの開始および終了 HTML: システムはターゲット Web ページのコンテンツからキーワードをインターセプトして情報属性を抽出するため、ターゲット属性の開始および終了 HTML を設定することが非常に重要です。このようにして、システムはターゲット属性を正しくインターセプトできます。この属性は主に、ターゲットページ情報リストの html をインターセプトするために使用されます。

コンテンツアドレスの開始および終了 html: 上記の属性に従ってコンテンツリストの html を取得した後、この属性を使用して各コンテンツアドレスをインターセプトします。

コンテンツタイトルは HTML で始まり、HTML で終わる: 上記の属性に従ってコンテンツアドレスを取得した後、システムはこのコンテンツアドレスの Web コンテンツをクロールし、この属性に基づいてコンテンツタイトルをインターセプトします。コンテンツ関連の属性の設定はこの属性と似ているため、以下では詳しく説明しません。

ステータス: システムは、有効なステータスの収集ルールのみを実行します。

写真を収集する: 情報コンテンツ内の写真をローカルにダウンロードします。

自動的に承認: 収集した情報を直接承認ステータスに設定します。

収集された情報のクリックボリュームを使用する: 収集された情報のクリックボリュームは、デフォルトでは 0 であり、この属性とコンテンツのクリックボリュームの開始および終了 HTML を設定すると、システムはターゲット情報のクリックボリュームをインターセプトして設定します。収集された情報のクリック数として。

収集されたコンテンツの最大数: デフォルトでは制限はありません。この属性が設定されている場合、システムは収集されたコンテンツの最大数を超えると、この収集ルールが収集レコードから収集した情報の数をカウントします。もう集められなくなります。

最初の画像をタイトル画像として設定: 情報コンテンツに画像がある場合、最初の画像をタイトル画像として抽出し、その情報を画像情報として設定します。

コンテンツ内の HTML タグをクリアする: 情報コンテンツ内の HTML タグをクリアし、プレーンテキストを保持します。

コンテンツが空の場合に収集するかどうか: コンテンツが空の場合にこの情報を収集しないように設定できます。

収集された情報の追加時刻を使用する: デフォルトでは、収集された情報の追加時刻は現在時刻であり、この属性とコンテンツ追加時刻の開始時刻と終了 HTML を設定すると、システムはターゲットの追加時刻をインターセプトします。情報を収集し、収集後の情報の追加時刻として設定します。

コレクション情報の追加時間形式: デフォルトの形式は yyyy-MM-dd です。ターゲットページの追加時間形式が異なる場合は、ここで正しい日付形式に設定する必要があります。

収集開始時刻: デフォルトは現在の時刻です。収集開始時刻よりも小さい場合、システムは収集を行いません。

収集終了時刻: デフォルトでは、収集終了時刻を超過した場合、システムは収集を行いません。

コンテンツアドレス補完 URL: 一部の Web ページでは相対パスまたは絶対パスが使用されるため、コンテンツアドレスのプレフィックスを設定できます。

画像アドレス補完 URL: 一部の Web ページでは相対パスまたは絶対パスが使用されるため、画像リンクアドレスのプレフィックスを設定できます。

コンテンツ内のAタグリンクアドレスの補完URL: Webページによっては相対パスまたは絶対パスを使用するため、コンテンツ内のAタグリンクアドレスのプレフィックスを設定できます。

収集アドレスは静的アドレスと動的アドレスに分けられます。動的アドレスは通常、ページング変数を表すために使用されます。 http://www.freetam.cn/list_{page}.html では、開始ページ番号を 1 に、終了ページ番号を 10 に設定します。システムは自動的に http://www.freetam.cn/list_1.html を抽出します。 http:/ へ /www.freetam.cn/list_10.html のすべてのページのデータ。

通常、システムは情報のタイトルと内容のみを収集します。また、コンテンツの説明、クリック数、作成者、ソースを収集し、時間属性を追加する機能も提供します。

キーワード置換機能により、収集した情報内のキーワードを任意のキーワードに置き換えることができます。

収集ルールを編集する

編集する必要がある収集ルールを選択し、「編集」ボタンをクリックします。

注: 同時に編集できる収集ルールは 1 つだけです。

関連する属性を入力し、[保存] ボタンをクリックします。

収集

収集する必要がある収集ルールを選択し、「収集」ボタンをクリックします。

注: 同時に収集できる収集ルールは 1 つだけです。

収集ルールを削除する

削除する収集ルールを選択し、「削除」ボタンをクリックします。

ヒント: 複数の収集ルールを同時に削除できます。