Artikel Topik pembelajaran Muat turun Soal Jawab Kamus Pengaturcaraan Permainan kemas kini terkini

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

Rumah > pembangunan bahagian belakang > Tutorial Python > teks badan

【python教程】网页正文及内容图片提取算法

黄舟

Lepaskan： 2017-02-07 16:16:56

asal

2552 orang telah melayarinya

抓取单个网站网页内容时通常采用正则匹配的方式，但不同网站之间结构千奇百怪，很难用统一的正则表达式进行匹配。《基于行块分布函数的通用网页正文抽取算法》的作者总结了一般从网页中提取文章正文的方法，提出基于行块分布的正文抽取算法，并给出了 PHP 、Java 等实现。这一算法的主要原理基于两点：1、正文区密度：在去除HTML中所有tag之后，正文区字符密度更高，较少出现多行空白；2、行块长度：非正文区域的内容一般单独标签（行块）中较短。算法步骤如下：

1、去除所有tag，包括样式、Js脚本内容等，但保留原有的换行符\n

2、将网页内容按行分割，定义行块 $block_i$ 为第 $[i, i + blockSize]$ 行文本之和并给出行块长度基于行号的分布函数：

3、正文出现在最长的行块，截取两边至行块长度为 0 的范围：

4、如果需要提取正文区域出现的图片，只需要在第一步去除tag时保留标签的内容：

以上就是【python教程】网页正文及内容图片提取算法的内容，更多相关内容请关注PHP中文网（m.sbmmt.com）！

Label berkaitan：

python

sumber：php.cn

Artikel sebelumnya：【Python教程】绘制漂亮的柱状图 Artikel seterusnya：【Python教程】地理可视化

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel terbaru oleh pengarang

从零开始打造自己的PHP框架的视频资料

2023-03-15 16:54:01
PHPMailer如何利用QQ邮箱完成邮件发送功能的实例分析

2023-03-15 12:26:02
php中关于IMAP如何收取邮件的方法介绍

2023-03-14 18:58:01
php如何快速实现数组去重的实例

2023-03-14 11:30:01
html中关于<a>标签的全部属性的使用总结

1970-01-01 08:00:00
php基础知识总结（新手入门必备）

2023-03-16 15:20:01
JavaScript中typeof的使用方法介绍

1970-01-01 08:00:00
JavaScript中confirm()方法的使用介绍

1970-01-01 08:00:00
HTML5 Placeholder属性的详情介绍

1970-01-01 08:00:00
ReactJS中表单的单选多选与反选的实现方法

1970-01-01 08:00:00

Isu terkini

Di mana saya harus meletakkan arahan CustomLog dalam apache Saya menggunakan php:7.2-apachedocker. Saya perlu melumpuhkan log akses log masuk url sema...

daripada 2024-04-06 22:03:59

0

1

990

Halaman tiba-tiba tidak dapat menarik css atau bootstrap Jadi saya sedang membangunkan halaman, saya telah membuat sebahagian daripadanya semalam d...

daripada 2024-04-06 21:58:04

0

1

800

Bagaimana untuk membuat elemen terapung disusun secara menegak dan bukannya secara mendatar dalam CSS? Saya cuba membuat halaman web dengan dua lajur, dengan kandungan utama di satu pihak dan k...

daripada 2024-04-06 20:45:26

0

2

386

Adakah terdapat cara untuk memaksa teks dalam flexbox dipusatkan secara menegak, tidak kira apa kod CSS lain yang kita ada? Saya mempunyai kod CSS berikut yang merupakan sebahagian daripada kod CSS yang lebih besar...

daripada 2024-04-06 20:41:51

0

1

518

Bagaimana untuk menyelesaikan ruang kosong misteri di bahagian bawah halaman dalam CSS Saya cuba membina halaman web mudah menggunakan Bootstrap dan D3, tetapi saya tidak tahu b...

daripada 2024-04-06 20:22:15

0

1

454

Topik-topik yang berkaitan

Lagi>

Cadangan popular

Tutorial Popular

Lagi>

Tutorial berkaitan

Cadangan popular

Kursus terkini

Muat turun terkini

Lagi>

kesan web

Kod sumber laman web

Bahan laman web

Templat hujung hadapan

Tentang kita Penafian Sitemap: Laman web PHP Cina：Latihan PHP dalam talian kebajikan awam，Bantu pelajar PHP berkembang dengan cepat！