dedecms コレクションルールの作成方法-DEDECMS-php.cn

dedecms コレクションルールの作成方法

Dreamweaver システムは、一般的に使用される記事システムとしては比較的操作が簡単です。数ある機能の中でも収集システムは、収集領域の設定ミスや収集ルールの編集ミス、収集後の空白など、初心者にとっては頭の痛い問題かもしれません。今回は、起こりやすいトラブルについて詳しく解説していきます。

まず、バックグラウンドでログインし、[コレクション] -- [コレクションノード管理] をクリックして、コレクション管理設定インターフェイスに入ります。

dedecms コレクションルールの作成方法

次の 2 つがあります。ここでのオプションの 1 つは、元のノードを変更する (主に、収集やその他の設定が不可能になった以前の設定エラーが原因) です。1 つは、ノード (ほとんどが新しいノード) を直接追加し、クリックして次のステップです。「通常記事」を選択して確定します。

dedecms コレクションルールの作成方法

次に、ノード名を入力します (インポート中のエラーを避けるために、列に関連した名前にすることをお勧めします)。実際の名前を入力するだけです。次に最初のキーポイントは、ターゲットページのエンコーディングです。自分の Web ページではなく、ターゲット Web ページのコードを入力する必要があります。表示方法: 対象の Web サイトの任意のページを開き、空白スペースを右クリックし、ソースコードを表示します (通常、エンコードは最初の数行にあります)

dedecms コレクションルールの作成方法

次に入力します。リストルールの 1 つは、URL のバッチ生成です。一般に、強力なルールがある場合、または上から下まで収集する必要がある場合に適しています。たとえば、次の列をターゲットにします:

最初のページのリスト: http://youqubu.cn/tansuo/list_5_1.html

2 番目のページのリスト: http://youqubu.cn/tansuo /list_5_2.html。

このリストルールで最も重要なことは、類似点と相違点を見つけることです。類似点を埋め、一致する記号 (変数) で相違点を補います。実際、この比較から、 http://youqubu.cn/tansuo/list_5_ .html はすべて同じであることがわかり、変数は 1.2.3.4 になります。。したがって、一致する URL は

http://youqubu.cn/tansuo/list_5_(*).html です。

dedecms コレクションルールの作成方法

#もう 1 つのリストルールは、リスト URL を手動で指定するもので、より一般的です。収集する必要があるすべてのアイテムのリストページに記入するだけです。 (特定のページだけを収集する場合や、より多くの変数を含むページを収集する場合に適しています)

注: 多くの Web サイトのコラムのホームページは、http://xxx.xx/xxx/ の形式で表示されます。以下の可変項目が欠落していることが判明しました。したがって、変数項目を見つける方法は、リストの次のページをクリックします。まだ不明な場合は、次のページをクリックしてください。リストの 2 ページ目と 3 ページ目を比較すると、次のステップでも変数項目を見つけることができます。 4.

dedecms コレクションルールの作成方法

このステップでは、リスト内の記事のすべてのアドレスを取得します。リストページからすべての記事ページのアドレスを取得する必要があります。 http://youqubu.cn/tansuo/list_5_1.html のリストを例として見てみましょう。リストの下の最初の記事のタイトルをコピーし、リストページの空白スペースを右クリックします。ソースコードを表示し、Ctrl F を押して検索し、コピーしたタイトルを貼り付け、ソースコード内の位置を見つけます。テキスト。実際、これには一定のルールがあります。次に、ソースコードのどの部分が一意で、リスト内のすべての記事のアドレスを含めることができるかを見つけます (注: 開始コードの検索はリストの最初の記事のタイトルから開始して上に進み、終了コードの検索は行う必要があります)リストの最初の記事のタイトルから開始する必要があります (下から見てください)。このソースコードからそれがわかります。開始コード:

にはすべての記事リストを含めることができ、コードは一意です

dedecms コレクションルールの作成方法

下一步的缩略图我们可以选择不采集，因为织梦本身是会把第一张图片默认为缩略图的，这个看实际情况。下面是对网址的筛选：包含的意思是：这个步骤六选择的代码区间的文章网址只有包含了这部分才会被采集（这里有两种情况：1。譬如上面演示的地址，它是以超链接的形式，不是完整的网址，所以这种情况千万不要填写包含。2.就是列表涉及到多个链接的，比如标签这样的，最好填写包含，填写你想要的网址有的，不想要的网址没有的部分）。然后下一步。这边会列出因为上面填写的规则所采集到的列表页中文章的网址。如果是空白：我们可以先删除必须包含和不能包含，点击下一步测试，如果能采集到连接但是很乱，那就是你这步包含相关填错了；如果这样操作还是没有采集到东西，那就是“包含文章网址区域”这步填写错了。

dedecms コレクションルールの作成方法

分页规则也主要分两种：一种是直接填写默认代码：{path}{file}_{p}{ext} 然后选择分页列表规则（如下图）。另一种是打开目标文章页，找到有上下几页的文章，右键查看源码，找到这部分代码，填写方式和文章页网址区域的方法一样，然后右边选择：全部列出的分页列表。（第二种方法要注意，因为涉及到多页，填写首尾代码的时候一定要多翻几张，然后查看源代码，把你认为共同的代码在多个页面查找下，因为可能出现你选择的代码在首页是可以找到的，在2.3四页后面就没有了，那就说明这个不是公用代码，你填上去也会导致采集不到分页的）

dedecms コレクションルールの作成方法

分页设置好后，我们主要设置标题规则和内容规则。时间规则和作者、来源规则这里不细说，这个不是所有人都需要的，这步谈到的规则都可以获取区间的方式得到内容或者填入固定的词语。首先是标题规则：我们以：http://youqubu.cn/tansuo/362.html。这个文章页来做说明。我们先复制标题名字，然后在源代码中查找。示例中查找我们可以发现这里有五个相同的部分，而且冲对比中发现，这个其实是有两种写法的。1.完全包含这个文字的代码区间，不带其他文字：

世界神秘十大历史遗迹

。这个很容易就可以写出规则：

[内容]

。 2. もう 1 つは、テキストがコードに含まれているということですが、他にも同様のテキストの混乱があります。例: 世界の謎に満ちた歴史的遺物トップ 10_興味深い狩猟ネットワーク - 世界の不思議を知り、世界の不思議を見て、未解決の謎を解く - www.youqubu.cn ここからは、いくつかのルールがあることは明らかです。ユニークであり、その一部は私たちが望むものであり、他の部分は普遍的であるため、単純にルールを書くことができます: [コンテンツ]_興味深く興味深いウェブサイト - の素晴らしさを知る世界、世界の不思議を観察し、未解決の問題を解決する Mystery-www.youqubu.cn 。ここで他のいくつかを選択しないのはなぜですか? 主な理由は、他のものは変数であり、それらを取得する方法がないためです。

dedecms コレクションルールの作成方法

1dedecms コレクションルールの作成方法

#以下内容は同じですが、ここで注意していただきたいのは、広告コードがまたは、不要なものをブロックするために、ここでは「フィルタールール」が使用されます。通常、IMG 以外はすべてフィルタリングできますが、写真さえ必要ない場合は、すべて選択してください。

1dedecms コレクションルールの作成方法

最後に [保存] をクリックして Web ページの収集を開始します。収集が完了したら、[コレクション - コレクションノード管理] をクリックします。入力したら、収集したばかりのノードの前にあるチェックボックスをオンにして、「データのエクスポート」をクリックし、インポートする列を選択して確認します。 (設定の最後のステップで繰り返しタイトルを設定することをお勧めします)

1dedecms コレクションルールの作成方法