Gemeinschaft

Lernen

Tools-Bibliothek

KI-Tools

Freizeit

Deutsch

Heim > Web-Frontend > HTML-Tutorial > Heritrix只爬取html、htm等特定页面_html/css_WEB-ITnose

Heritrix只爬取html、htm等特定页面_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Freigeben： 2016-06-24 11:44:26

Original

1054 Leute haben es durchsucht

Heritrix有5条链，网上有说在Extractor链里做处理，该链是抽取链，可以负责解析html页面的内容，然后进一步筛选。但是我目前只想通过判断后缀名筛选出html、htm、shtml、xshtml等文件。因此这样在Extractor里做处理就有点牛刀小用的意思，因此我在PostProcessor链里做处理。详细介绍如下：

FronitierScheduler是一种PostProcessor，它的作用是将Extractor中分析得到链接加入到Froniter中，以供下一步处理（写文件处理等等）。

具体方法：

1.找到org.archive.crawler.postprocessor包下的FrontierScheduler.java文件

2.找到FrontierScheduler类的protected void schedule(CandidateURI caUri)方法

3.我的改写如下：

<span style="font-size:14px;">     protected void schedule(CandidateURI caUri) {        //将caUri转为String格式        String url = caUri.toString();        //打印出来查看一下        System.out.println("------" + url);        //剔除以特定后缀名结尾的URL        if(url.endsWith(".jpeg")    			||url.endsWith(".jpg")    			||url.endsWith(".gif")    			||url.endsWith(".css")    			||url.endsWith(".doc")    			||url.endsWith(".zip")    			||url.endsWith(".png")    			||url.endsWith(".js")    			||url.endsWith(".pdf")    			||url.endsWith(".xls")    			||url.endsWith(".rar")    			||url.endsWith(".exe")    			||url.endsWith(".txt")){    		return;    	}                //将未剔除的文件加入到下一步处理（写入到本地磁盘的处理等等）        getController().getFrontier().schedule(caUri);             }</span>

Nach dem Login kopieren

Verwandte Etiketten：

Heritrix只爬取html、htm等特定页面

Vorheriger Artikel：css笔记-display属性_html/css_WEB-ITnose Nächster Artikel：关于在HTML表格中插入背景图片图片重复显示的问题_html/css_WEB-ITnose

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Neueste Artikel des Autors

Wie LLMs funktionieren: Vorausbildung zu Nachtraining, neuronalen Netzwerken, Halluzinationen und Inferenz

2025-02-26 03:58:14
Ich kombinierte die Blockchain und die KI, um Kunst zu erzeugen. Hier ist das, was als nächstes geschah.

2025-02-26 03:38:10
Erweiterte schnelle Technik: Denkkette (COT)

2025-02-26 03:17:10
Wiederaufnahme der Augmented -Generation in SQLite

2025-02-26 02:49:09
So verwenden Sie eine mit LLM betriebene Kesselplatte zum Erstellen Ihrer eigenen Node.js-API

2025-02-26 01:08:13
LLMs für die Codierung im Jahr 2024: Preis, Leistung und der Kampf um das Beste

2025-02-26 00:46:10
Sehenssprachmodelle auffordern

2025-02-25 23:42:08
So messen Sie die Zuverlässigkeit der Reaktion eines Großsprachenmodells

2025-02-25 22:50:13
Eine Illusion des Lebens

2025-02-25 21:54:11
Wissenschaftler werden es ernst mit großen Sprachmodellen, die das menschliche Denken widerspiegeln

2025-02-25 20:45:11

Aktuelle Ausgaben

javascript - Wie erhalte ich den Inhalt in Klammern mithilfe regulärer Ausdrücke in JS?

Aus 1970-01-01 08:00:00

0

0

0

show() ist nach Ajax-Erfolg ungültig

Aus 1970-01-01 08:00:00

0

0

0

javascript – Eine Zeile Code für den Quellcode von underscore.js schreiben

Aus 1970-01-01 08:00:00

0

0

0

javascript - Wie ändere ich den Übergangseffekt von vue1.0 in vue2.0?

Aus 1970-01-01 08:00:00

0

0

0

javascript - Woher wissen Sie, dass der Haken des Versprechens nicht geschrieben ist?

Aus 1970-01-01 08:00:00

0

0

0

verwandte Themen

Mehr>

Beliebte Empfehlungen

Beliebte Tutorials

Mehr>

Verwandte Tutorials

Beliebte Empfehlungen

Aktuelle Kurse

Neueste Downloads

Mehr>

Web-Effekte

Quellcode der Website

Website-Materialien

Frontend-Vorlage