文章專題學習下載問答程式設計字典遊戲最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

首頁 > 後端開發 > Python教學 > 主體

【python教學】網頁正文及內容圖片擷取演算法

黄舟

發布： 2017-02-07 16:16:56

原創

2552 人瀏覽過

抓取單一網站網頁內容時通常採用正規匹配的方式，但不同網站之間結構千奇百怪，很難用統一的正規表示式進行匹配。《基於行塊分佈函數的通用網頁正文抽取演算法》的作者總結了一般從網頁中提取文章正文的方法，提出基於行塊分佈的正文抽取演算法，並給出了 PHP 、Java 等實現。此演算法的主要原理基於兩點：1.正文區密度：在去除HTML中所有tag之後，正文區字元密度較高，較少出現多行空白；2、行塊長度：非正文區域的內容一般單獨標籤（行塊）中較短。演算法步驟如下：

1、去除所有tag，包括樣式、Js腳本內容等，但保留原有的換行符n

【python教學】網頁正文及內容圖片擷取演算法

2、將網頁內容按行分割，定義行塊$block_i$ 為第$[i, i + blockSize]$ 行文字總和並給出行塊長度基於行號的分佈函數：

【python教學】網頁正文及內容圖片擷取演算法

3、正文出現在最長的行塊，截取兩邊至行塊長度0 的範圍：

【python教學】網頁正文及內容圖片擷取演算法

4、如果需要提取正文區域出現的圖片，只需要在第一步去除tag時保留【python教學】網頁正文及內容圖片擷取演算法標籤的內容：

就是【python教學】網頁正文及內容圖片擷取演算法的內容，更多相關內容請關注PHP中文網（m.sbmmt.com）！

相關標籤：

python

來源：php.cn

上一篇：【Python教學】繪製漂亮的長條圖下一篇：【Python教學】地理視覺化

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

從零開始打造自己的PHP框架的影片資料

2023-03-15 16:54:01
PHPMailer如何利用QQ信箱完成郵件傳送功能的實例分析

2023-03-15 12:26:02
php中關於IMAP如何收取電子郵件的方法介紹

2023-03-14 18:58:01
php如何快速實現數組去重的實例

2023-03-14 11:30:01
html中關於標籤的全部屬性的使用總結

1970-01-01 08:00:00
php基礎知識總結（新手入門必備）

2023-03-16 15:20:01
JavaScript中typeof的使用方法介紹

1970-01-01 08:00:00
JavaScript中confirm()方法的使用介紹

1970-01-01 08:00:00
HTML5 Placeholder屬性的詳情介紹

1970-01-01 08:00:00
ReactJS中表單的單選多選與反選的實作方法

1970-01-01 08:00:00

最新問題

我應該在 apache 中哪裡放置 CustomLog 指令我正在使用php:7.2-apachedocker。我需要禁用運行狀況檢查url登入訪問日誌。基於此鏈接，他們提到了有關修改Customlog指令的資訊。我不是關於需要更改Cust...

來自於 2024-04-06 22:03:59

0

1

990

頁面突然無法拉動 css 或 bootstrap 所以我正在開發一個頁面，我昨天做了一部分，效果很好，今天我繼續做剩下的部分，一切都很好。當我嘗試將其作為普通html頁面打開時，CSS或BOOTSTRAP不起作用，僅顯示頁面文本，...

來自於 2024-04-06 21:58:04

0

1

800

如何在 CSS 中使浮動元素垂直堆疊而不是水平堆疊？我正在嘗試製作一個包含兩列的網頁，一側具有主要內容，另一側具有額外的內容。但是因為我使用浮動屬性將額外的列向左對齊，所以它水平堆疊，但我希望它垂直堆疊。我目前的程式碼：.topic...

來自於 2024-04-06 20:45:26

0

2

386

有沒有辦法強制彈性框中的文字垂直居中，無論我們有什麼其他 CSS 程式碼？我有以下CSS程式碼，它是我正在開發的網站中使用的更大CSS程式碼的一部分：.cards-u{display:flex;flex-wrap:wrap;justify-content...

來自於 2024-04-06 20:41:51

0

1

518

解決CSS中頁面底部神秘空白的方法我正在嘗試使用Bootstrap和D3建立一個簡單的網頁，但我不知道如何消除底部的所有空白。我想擺脫它。我嘗試將body和html的min-height設定為100%，但沒有任何作...

來自於 2024-04-06 20:22:15

0

1

454

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1414675
php入門教程之一週學會PHP

4252831
JAVA 初級入門影片教學

2460379
小甲魚零基礎入門學習Python影片教學

502502
PHP 零基礎入門教學

842548

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板

關於我們免責聲明 Sitemap: PHP中文網：公益線上PHP培訓，幫助PHP學習者快速成長！