あなたが鉄道コレクターのベテランであれば、これから説明することは従来の考え方に反するので、参考にしてください。初心者であれば、慎重に読んだほうがよいでしょう。これにより、理解が促進されます。将来的には大幅な時間の節約にもなります。以下は柔軟に使用できる収集の基本的な手順です:
1. サイトを作成します
1. 最初に電車コレクターを開いて新しいサイトを作成してください:
管理の便宜のため、サイトの任意のデータを取得できます。覚えやすいと思われる名前ですが、以下に示すように、将来の管理を容易にするために、ターゲット ソースの名前をサイトの名前として使用することをお勧めします
ほとんどのサイトには 1 つしかないことがよくありますテンプレートのセット、または類似したテンプレートの複数のセット、いわゆる類似性とは、テンプレート内のマークが非常に近いことを意味します。テンプレート タグは、コンテンツの特定の部分の開始マークと終了マークを参照します。たとえば、多くの通常の Web サイト (通常、sina、163 など、大規模なサイトとより多くのコンテンツを含む Web サイト) では、コンテンツに類似した単語またはコンテンツの先頭に単語が使用されます。
フラグがコンテンツの開始を示すまで待ちます。これを行った理由は 2 つあり、1 つはコンテンツが多く、プロジェクトの引き継ぎを容易にするために対応するマークが作成されるためです。もう 1 つは、xhtml の普及に伴い、コンテンツの管理が必要になるためです。レイヤー コントロールがますます増えているため、コレクション インジケーターを見つけるのがますます簡単になっています (これについては、後で徐々に理解していきます)。上でこれを言ったのは、これから説明するのはサイト全体のコンテンツ ルールだからです。
2.タイトルタグの説明。該当ページはこちら: http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html
まず「サイト基本情報」から「サイト全体のコンテンツルール」に切り替えてから、コンテンツページをURLを「Typical Page」にコピーし、「Test」をクリックしてソースコードを読みます。タイトル タグから始めましょう。デフォルト タグによって収集されたタイトルに「_NetEase Entertainment」が含まれていることがわかりました。タイトル タグをダブルクリックするか、タイトル タグを選択して、[除外コンテンツ] ボックスに「_NetEase Entertainment」を追加をクリックしてください。タイトルラベルが完成しました。写真に示すように:
3. コンテンツタグの説明。収集ルール (タスク) のタグを作成する際に最も重要なことは、開始マークと終了マークを見つけることです。現在、ほとんどのコレクターは、開始マークと終了マークがソース コード全体の唯一のマークであること、つまり、すべての HTML ソース コードで開始マークまたは終了マークが 1 つだけ存在することを要求しています。ただし、トレインコレクターはこれを行う必要はありません。探しているのは上から下までの最初のマークだけです。つまり、HTML コードには同じ開始 (終了、以下も同様) のロゴが許可されています。 , ただし、収集したいコンテンツの場所にあるこのロゴが、HTML 内で上から下に最初にあるロゴであれば問題ありません。 http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html を例として、任意のコンテンツ ページを開きます。そのコンテンツは「Enter Forum」から始まることがわかりました。そのため、コード テスト ボックスをダブルクリックします。画像に示すように、必要なコードを見つけます:
これをコンテンツの開始のサインとして使用できますが、これはまだ完全ではありません。いくつかのコンテンツ ページを開いて、コンテンツ ページを「右クリック」してください。ウェブページ - 「ソースコードを表示」し、コードを比較して、使用したのと同じ部分を抽出します。
コンテンツの開始の兆候として。
次に、次の 2 つの写真に示すように、コンテンツの終了マークを確認します。
以下は、当社が設定したルールに従って収集されたコンテンツです
一般的に、開始マークから開始マークまで収集されるコンテンツは、エンドマークには、除外する必要があるコンテンツ、広告、またはリンクが含まれます。这边我们需要排除的内容是“
相关专题>>> 第六届金鹰电视艺术节”。排除的方法是,找到相对应的代码把代码完整的拷贝进内容排除窗口,变动的部分用“(*)”替代。由于这个是整站规则,所以必须多找几个类别,比如现在的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等,在这边我只抽取“明星、图片、电影”作为列子跟大家讲解。找其他的类别只是希望把规则做的通用完美,如果你只要其中的一个分类,比如“图片”那么你直接做这个的规则即可。
http://ent.163.com/06/1018/15/2TNNT7EU00031H2L.html 这个页面刚好有分页,所以就顺便讲下上下页的设置。他这边的“上一页”和“下一页”是用图片做链接的,所以只要不图片的名字(右键点击对应的图片查看属性,拷贝图片名即可)拷贝进对应的代码框即可,详细的看图片:
这边提示下,任何内容的排除你只要找到对应的代码完整的拷贝进代码排除窗并把其中可变的部分替换成"(*)"即可。由于他这边没有广告,所有整站规则就算制作完毕,点击保存进入单任务制作。好了,整站规则就讲这两个标签,其他的根据需要自己按上面的步骤添加,记住,万变不离其宗。其他的问题请到火车采集器
论坛:http://bbs.locoy.com 探讨。
二、下面讲解单任务规则制作:
1、内容规则的制作,很多人到现在可能都还不明白火车采集器好在哪,现在讲的这个绝对是火车独有的特色(至少到目前为止是这样,以后有没有人出相同的功能就不得而知了!)
火车采集器是不需要经过网址规则制作即可直接进入内容采集,这样你就可以根据站点的难易决定是否采集选定的目标源,而不必等到网址采集后才发现原来这个网站你没办法采或者根本不值得你浪费这个时间(前面的时间白搭了!)。
火车v3.0最大的功能之一既是可以继承站点的规则,只要你前面制作的规则通用,那么在接下来的所有任务都不需要再制作内容采集规则了。由于前面我们制作的内容采集规则通用,所以这边的规则我们就不用讲解了,直接继承站点的,如图:
2、网址采集规则制作
步骤:“新建”——“新建任务”,其他的操作如下图:
作规则需要善于去发现规律性的东西,作到这点采集就没什么问题了。我们要采集示例的地址在这http://ent.163.com/special/00031HI0/entnews.html
这板只采集其中的1-3页作为范例。我们发现每个叶面的网址开始前面都包含“过往娱乐热点”结束都是“第1 2……页”,所以请到html源代码里面拷贝对应的代码,到特定区域采集范围中,另外,网址中必须包含“/06/” 这样网址采集就搞定了(简单吧,自己试试看),如下图:
3、发布方式。发布方式有5种,这边以最常用的“在线发布”为例。
选定web在线发布到网站,点击“定义全局发布方式”,然后按系统提示的步骤:选定发布模块——》填写网站/cms根地址——》使用火车内置浏览器登陆——》登陆后关闭内置浏览器——》刷新列表——》测试模块,测试成功——》保存配置——》保存任务——》发表 如下图高亮的部分是你要操作的步骤,从左到右从上到下:
下面是刚才我采集到本地论坛采集测试的两个截屏: