機関車コレクター 3.0 コレクショングラフィックチュートリアル_PHP チュートリアル-PHPチュートリアル-php.cn

機関車コレクター 3.0 コレクショングラフィックチュートリアル_PHP チュートリアル

WBOY

リリース： 2016-07-21 15:56:00

オリジナル

1038 人が閲覧しました

サンプルを集めていくつかの機能を詳しく説明します
今日例として紹介したい Web サイトは 163 の Entertainment Channel ですこれはより一般的で実践的なルールであるはずです。以下から始めましょう。
あなたが鉄道コレクターのベテランであれば、これから説明することは従来の考え方に反するので、参考にしてください。初心者であれば、慎重に読んだほうがよいでしょう。これにより、理解が促進されます。将来的には大幅な時間の節約にもなります。以下は柔軟に使用できる収集の基本的な手順です:
1. サイトを作成します
1. 最初に電車コレクターを開いて新しいサイトを作成してください:
点击在新窗口中浏览此图片

管理の便宜のため、サイトの任意のデータを取得できます。覚えやすいと思われる名前ですが、以下に示すように、将来の管理を容易にするために、ターゲットソースの名前をサイトの名前として使用することをお勧めします点击在新窗口中浏览此图片

ほとんどのサイトには 1 つしかないことがよくありますテンプレートのセット、または類似したテンプレートの複数のセット、いわゆる類似性とは、テンプレート内のマークが非常に近いことを意味します。テンプレートタグは、コンテンツの特定の部分の開始マークと終了マークを参照します。たとえば、多くの通常の Web サイト (通常、sina、163 など、大規模なサイトとより多くのコンテンツを含む Web サイト) では、コンテンツに類似した単語またはコンテンツの先頭に単語が使用されます。

フラグがコンテンツの開始を示すまで待ちます。これを行った理由は 2 つあり、1 つはコンテンツが多く、プロジェクトの引き継ぎを容易にするために対応するマークが作成されるためです。もう 1 つは、xhtml の普及に伴い、コンテンツの管理が必要になるためです。レイヤーコントロールがますます増えているため、コレクションインジケーターを見つけるのがますます簡単になっています (これについては、後で徐々に理解していきます)。上でこれを言ったのは、これから説明するのはサイト全体のコンテンツルールだからです。
2.タイトルタグの説明。該当ページはこちら: http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html
まず「サイト基本情報」から「サイト全体のコンテンツルール」に切り替えてから、コンテンツページをURLを「Typical Page」にコピーし、「Test」をクリックしてソースコードを読みます。タイトルタグから始めましょう。デフォルトタグによって収集されたタイトルに「_NetEase Entertainment」が含まれていることがわかりました。タイトルタグをダブルクリックするか、タイトルタグを選択して、[除外コンテンツ] ボックスに「_NetEase Entertainment」を追加をクリックしてください。タイトルラベルが完成しました。写真に示すように:
点击在新窗口中浏览此图片

3. コンテンツタグの説明。収集ルール (タスク) のタグを作成する際に最も重要なことは、開始マークと終了マークを見つけることです。現在、ほとんどのコレクターは、開始マークと終了マークがソースコード全体の唯一のマークであること、つまり、すべての HTML ソースコードで開始マークまたは終了マークが 1 つだけ存在することを要求しています。ただし、トレインコレクターはこれを行う必要はありません。探しているのは上から下までの最初のマークだけです。つまり、HTML コードには同じ開始 (終了、以下も同様) のロゴが許可されています。 , ただし、収集したいコンテンツの場所にあるこのロゴが、HTML 内で上から下に最初にあるロゴであれば問題ありません。 http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html を例として、任意のコンテンツページを開きます。そのコンテンツは「Enter Forum」から始まることがわかりました。そのため、コードテストボックスをダブルクリックします。画像に示すように、必要なコードを見つけます:
点击在新窗口中浏览此图片

これをコンテンツの開始のサインとして使用できますが、これはまだ完全ではありません。いくつかのコンテンツページを開いて、コンテンツページを「右クリック」してください。ウェブページ - 「ソースコードを表示」し、コードを比較して、使用したのと同じ部分を抽出します。

コンテンツの開始の兆候として。点击在新窗口中浏览此图片

次に、次の 2 つの写真に示すように、コンテンツの終了マークを確認します。
点击在新窗口中浏览此图片

以下は、当社が設定したルールに従って収集されたコンテンツです
点击在新窗口中浏览此图片

一般的に、開始マークから開始マークまで収集されるコンテンツは、エンドマークには、除外する必要があるコンテンツ、広告、またはリンクが含まれます。这边我们需要排除的内容是“相关专题>>> 第六届金鹰电视艺术节”。排除的方法是，找到相对应的代码把代码完整的拷贝进内容排除窗口，变动的部分用“（*）”替代。由于这个是整站规则，所以必须多找几个类别，比如现在的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等，在这边我只抽取“明星、图片、电影”作为列子跟大家讲解。找其他的类别只是希望把规则做的通用完美，如果你只要其中的一个分类，比如“图片”那么你直接做这个的规则即可。
http://ent.163.com/06/1018/15/2TNNT7EU00031H2L.html 这个页面刚好有分页，所以就顺便讲下上下页的设置。他这边的“上一页”和“下一页”是用图片做链接的，所以只要不图片的名字（右键点击对应的图片查看属性，拷贝图片名即可）拷贝进对应的代码框即可，详细的看图片：
点击在新窗口中浏览此图片

这边提示下，任何内容的排除你只要找到对应的代码完整的拷贝进代码排除窗并把其中可变的部分替换成"(*)"即可。由于他这边没有广告，所有整站规则就算制作完毕，点击保存进入单任务制作。好了，整站规则就讲这两个标签，其他的根据需要自己按上面的步骤添加，记住，万变不离其宗。其他的问题请到火车采集器论坛：http://bbs.locoy.com 探讨。

二、下面讲解单任务规则制作：
1、内容规则的制作，很多人到现在可能都还不明白火车采集器好在哪，现在讲的这个绝对是火车独有的特色（至少到目前为止是这样，以后有没有人出相同的功能就不得而知了！）
火车采集器是不需要经过网址规则制作即可直接进入内容采集，这样你就可以根据站点的难易决定是否采集选定的目标源，而不必等到网址采集后才发现原来这个网站你没办法采或者根本不值得你浪费这个时间（前面的时间白搭了！）。
火车v3.0最大的功能之一既是可以继承站点的规则，只要你前面制作的规则通用，那么在接下来的所有任务都不需要再制作内容采集规则了。由于前面我们制作的内容采集规则通用，所以这边的规则我们就不用讲解了，直接继承站点的，如图：
点击在新窗口中浏览此图片

2、网址采集规则制作
步骤：“新建”——“新建任务”，其他的操作如下图：
点击在新窗口中浏览此图片

作规则需要善于去发现规律性的东西，作到这点采集就没什么问题了。我们要采集示例的地址在这http://ent.163.com/special/00031HI0/entnews.html
这板只采集其中的1-3页作为范例。我们发现每个叶面的网址开始前面都包含“过往娱乐热点”结束都是“第1 2……页”，所以请到html源代码里面拷贝对应的代码，到特定区域采集范围中，另外，网址中必须包含“/06/” 这样网址采集就搞定了（简单吧，自己试试看），如下图：
点击在新窗口中浏览此图片

3、发布方式。发布方式有5种，这边以最常用的“在线发布”为例。
选定web在线发布到网站，点击“定义全局发布方式”，然后按系统提示的步骤：选定发布模块——》填写网站/cms根地址——》使用火车内置浏览器登陆——》登陆后关闭内置浏览器——》刷新列表——》测试模块，测试成功——》保存配置——》保存任务——》发表如下图高亮的部分是你要操作的步骤，从左到右从上到下：
点击在新窗口中浏览此图片