Dreamweaver の公式 Web サイトを例に挙げると、PHP チュートリアルのコラムを Webmaster Academy に集め、リスト アドレス http://www.dedecms.com/web-art/PHP_jiaocheng を開きます。
#バックエンドにログインし、「コレクション ノード管理」と入力して新しいノードを作成し、コンテンツ モデルを「通常の記事」として選択します。
1. ノードの基本情報を設定します (推奨学習: dedecms チュートリアル)
まず、ノード名を入力します。は覚えやすいので、「ターゲット ページ コードは GB2312 です。アンチホットリンク モードを設定する必要はありません。ターゲット サイトには制限がないため、この項目は変更されません。システムのデフォルトのタイムアウトは 10 秒です。」を選択します。
2. リスト URL 取得ルールの設定
このステップでは、いくつかの設定を行い、記事リストのアドレスを取得し、対象のサイトのリスト ページに戻り、ページ間の変化を観察すると、「14_」以降の数字のみが定期的に増分変化していることがわかります。
ホームページ: http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_1.html
中央: http://www.dedecms.com/web-art/ PHP_jiaocheng /list_14_(*).html
最後のページ: http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_172.html
ページング アドレスをコピーして、「」に戻ります。新規 [コレクション ノードの追加] ページで、[リスト URL のバッチ生成] として [ソース属性] を選択し、アドレスを [一致する URL] に貼り付け、ルールの変更を (*) に変更し、[バッチ生成] フィールドに 1 を入力します。 「アドレス設定」(*) 172 とは、リストの最初のページから最後の 172 ページまでのすべてのアドレスを生成することを意味します。
テストしてみましょう。ポップアップ ボックスでは、172 の住所レコードがループアウトされ、スムーズにセットアップされていることがわかります。入手が難しいリストに遭遇する場合があります。その場合は、不規則なアドレスを「手動で指定したリストの URL」テキスト ボックスにコピーして、リストを収集できます。
3. 記事 URL 一致ルールの設定
記事アドレスのソース ページは上で指定されています。このステップでは、条件を満たす記事アドレス ページを見つける必要があります。このページの要件です。リスト ページを開き、左側の列のボックスに必要なアドレスがすべて含まれていることを確認します。この場合、明確に区別されるページは、「領域の先頭の HTML」と「末尾の HTMLL」を使用してフィルタリングできます。地域」の設定を行います。
ただし、他の方法も使用できます。マウスをさまざまなリンク アドレスに移動し、ブラウザの左下隅に表示される完全なアドレスを確認します。必要なアドレスにはすべて「PHP_jiaocheng/20」が含まれており、「Must Contain」に入力します。
どちらの方法でもアドレスをフィルタリングできます。複雑なページの場合は併用できます。通常のルールを追加すると、フィルタリングできないアドレスはほとんどなくなります。下の図と比較してください。最後に確認して次のステップ「Webコンテンツ取得ルール」に進みます。
4. Webページのコンテンツ取得ルール
上記ではリストの設定方法を紹介しましたが、次にコンテンツ取得の設定に入ります。ルール 、コレクションを提供する場合、上記の 1 ~ 3 つのステップの機能は、前菜が次のメイン コースのガイドとして機能するだけです。次のステップでは、対象サイトから記事コンテンツを収集する方法を紹介しますが、このステップは収集全体の最も核となる部分です。
DreamWeaver の PHP チュートリアル リストに戻り、リスト内の記事を開きます。ここでは例として「正規表現」の記事を取り上げます: http://www.dedecms.com/web -art /PHP_jiaocheng/20070420/38633.html、このアドレスを「プレビュー URL」にコピーします。DreamWeaver のすべての記事はページ分割されていないため、ここでページ分割を設定する必要はなく、直接「固定コレクション プロジェクト」ページに入ることができます。
(注: 収集されたコンテンツにページングが含まれている場合、ページング ナビゲーション パーツで一致ルールを設定するだけで済みます。ここには、設定できるすべてのページング リスト、トップページとボトムページ、または不完全なページング リストがリストされています。はい)
以下は引用されたコンテンツです:
ページ分割されたすべてのリスト: 以下の図に示すように、ページ分割されたコンテンツにはすべてのリンクがリストされます。
上下のページ フォームまたは不完全なページング リスト: 単一のページに現在のページング コンテンツが表示され、不完全な表示リスト フォーム
5. 修正されたコレクション アイテム
ここに入力してください 最初のステップでは、ページのソース コードの分析を開始します。コレクションとは、必要なコンテンツを取得するために HTML ページの構造を分析することに他なりません。したがって、HTML コードをある程度理解し、ページのソース ファイルを参照して必要なコンテンツを見つけることができる必要があるため、さらにいくつかのページを開いて分析し、類似点を見つけることが最善です。
すべての人が Dreamweaver 分析を使用することをお勧めします。ページコードを解析する際には、検索機能を頻繁に利用すると便利で、特にタグを見つけた後は、重複していないか検索することで解析エラーを減らすことができます。
1) 記事のタイトル: このページのタイトルは「正規表現」です。これをコピーし、Dreamweaver で Ctrl F キーを押してすべてを検索します。レコードは 30 件あります。一意であるため、ここでは 105 行目の「
2) 著者: 著者をキーワードとして検索を続けます。一意の出現があるのは 110 行だけです。それらを一致ルールの前後のタグとともにコピーし、[コンテンツ] を使用して場所を置き換えます。集められる。
3) ソース: 同上 109 行目のタグを見つけてコピーし、[content] を使用して収集する場所を置き換えます。ソースに削除したいハイパーリンク タグが含まれている場合は、フィルター ルール ボックスに次のルールを入力してフィルターで除外します:
<a>]*)> <br></a><br>
4) リリース時間: 上記と同じ操作をコピー、貼り付け、変更します。 111行目。
5) 記事コンテンツ: 記事コンテンツの先頭を検索します。たとえば、「パート 1」では 118 行目にターゲットが見つかりました。ステータス バー
をクリックすると、すべての記事コンテンツが検索できることがわかります。前の
これでコンテンツフィルタリングの設定は完了です。
6. ノードの収集
収集ノードが一度に完了し、テストが成功した場合は、プロンプトに従ってボタンをクリックして直接収集しますが、ノードははい、「ノード管理ページ」に移動し、収集するノードを確認し、「収集」ボタンを押して収集する必要があります。すべてのノードから新しいコンテンツを収集する場合は、監視収集ページに移動して操作します。
ページ コレクションごとに、ページごとに収集されるデータの数を設定できます。一般的に、あまり大きく設定しないでください。大きくしすぎると、システムが処理できず、一部のデータが収集できない可能性があります。 15 を超えないようにすることをお勧めします。
スレッド数とは、毎回同時に収集しているスレッドの数を指します。スレッド数を増やすと収集は高速化できますが、サーバーリソースの占有も増加しますので、使用してください。慎重に。ターゲット サイトにアンチリフレッシュ制限がある場合、ターゲット サイトのアンチリフレッシュ制限時間に応じてここで設定できます。そうでない場合、デフォルトは 0 秒です。
追加オプション これら 3 つの設定は文字通り理解しやすいため、実際のニーズに応じて選択できます。
コレクションが完了しました。
WordPress 関連の技術記事をさらに詳しく知りたい場合は、wordpress チュートリアル 列にアクセスして学習してください。
以上がdedecmsコレクションの使い方の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。