記事特集学ぶダウンロードに質問プログラミング辞典ゲーム最近の更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

ホームページ > バックエンド開発 > Python チュートリアル > 本文

[Pythonチュートリアル] Webページのテキストとコンテンツ画像の抽出アルゴリズム

黄舟

リリース： 2017-02-07 16:16:56

オリジナル

2551 人が閲覧しました

通常、単一の Web サイトの Web コンテンツをクロールする場合は正規一致が使用されますが、異なる Web サイトの構造は非常に奇妙なため、統一された正規表現で一致させるのは困難です。「行ブロック分散関数に基づく一般的なWebページテキスト抽出アルゴリズム」の著者は、Webページから記事テキストを抽出する一般的な方法をまとめ、行ブロック分散に基づくテキスト抽出アルゴリズムを提案し、PHP、Javaなどでの実装を提供しました。このアルゴリズムの主な原理は次の 2 つの点に基づいています。 1. テキスト領域の密度: HTML 内のすべてのタグを削除すると、テキスト領域の文字密度が高くなり、複数行の空白が少なくなります。 2. 行ブロックの長さ:非テキスト領域のコンテンツは平均的であり、個々のラベル (行ブロック) では短くなります。アルゴリズムの手順は次のとおりです:

1. スタイル、JS スクリプトのコンテンツなどを含むすべてのタグを削除しますが、元の改行は保持します

[Pythonチュートリアル] Webページのテキストとコンテンツ画像の抽出アルゴリズム

2. Web ページのコンテンツを行ごとに分割し、行ブロック $block_i$ を $[i, i + blockSize]$ として指定すると、行テキストが合計され、行番号に基づいて行ブロックの長さの分布関数が得られます。テキストは

[Pythonチュートリアル] Webページのテキストとコンテンツ画像の抽出アルゴリズム

3 に表示されます。最長の行ブロック、行ブロックの長さまでの両側を切片 0 の範囲:

[Pythonチュートリアル] Webページのテキストとコンテンツ画像の抽出アルゴリズム

4. テキスト領域に表示される画像を抽出する必要がある場合は、テキスト領域のコンテンツを保持するだけで済みます。最初のステップでタグを削除するときの [Pythonチュートリアル] Webページのテキストとコンテンツ画像の抽出アルゴリズムタグ:

[Pythonチュートリアル] Webページのテキストとコンテンツ画像の抽出アルゴリズム

上記は、[Python チュートリアル] Web ページのテキストとコンテンツ画像の抽出アルゴリズムの内容です。その他の関連コンテンツについては、注意してください。 PHP 中国語 Web サイト (m.sbmmt.com)!

関連ラベル：

python

ソース：php.cn

前の記事：【Pythonチュートリアル】綺麗なヒストグラムを描く次の記事：[Python チュートリアル] 地理視覚化

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

独自の PHP フレームワークをゼロから構築するためのビデオ資料

2023-03-15 16:54:01
PHPMailer が QQ メールボックスを使用して電子メール送信機能を完了する方法の分析例

2023-03-15 12:26:02
PHPでIMAPでメールを受信する方法の紹介

2023-03-14 18:58:01
PHP で配列の重複排除を迅速に実装する方法の例

2023-03-14 11:30:01
HTML でのタグのすべての属性の使用の概要

1970-01-01 08:00:00
PHPの基礎知識まとめ（初心者が始めるのに必要）

2023-03-16 15:20:01
JavaScript での typeof の使用の概要

1970-01-01 08:00:00
JavaScript でのconfirm() メソッドの使用の概要

1970-01-01 08:00:00
HTML5 プレースホルダー属性の詳細な紹介

1970-01-01 08:00:00
ReactJS のフォームに単一選択、複数選択、逆選択を実装する方法

1970-01-01 08:00:00

最新の問題

ApacheのどこにCustomLogディレクティブを配置すればよいですか私はphp:7.2-apachedockerを使用しています。ヘルスチェック URL ログインアクセスログを無効にする必要があります。このリンクに基づいて、Customlog ...

から 2024-04-06 22:03:59

0

1

990

ページが突然 CSS またはブートストラップを取得できなくなりますそれで、私はページを開発しています。昨日その一部を実行してうまくいきました。そして今日は残りの作業を続けましたが、すべてがうまくいきました。通常の HTML ページとして開こうとす...

から 2024-04-06 21:58:04

0

1

800

CSS でフローティング要素を水平ではなく垂直にスタックするにはどうすればよいですか? 片側にメインコンテンツ、もう一方に追加コンテンツがある 2 つの列を持つ Web ページを作成しようとしています。ただし、float プロパティを使用して追加の列を左に揃えているた...

から 2024-04-06 20:45:26

0

2

386

他の CSS コードに関係なく、フレックスボックス内のテキストを強制的に垂直方向の中央に配置する方法はありますか? 開発中の Web サイトで使用されている大規模な CSS コードの一部である次の CSS コードがあります。 }.card-u{margin:20px;padding:20px;w...

から 2024-04-06 20:41:51

0

1

518

CSSでページ下部の謎の空白を解決する方法 Bootstrap と D3 を使用して単純な Web ページを構築しようとしていますが、下部の空白をすべて削除する方法がわかりません。それをなくしたいのです。 bodyとhtml...

から 2024-04-06 20:22:15

0

1

454

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート

私たちについて免責事項 Sitemap: PHP中国語ウェブサイト：福祉オンライン PHP トレーニング，PHP 学習者の迅速な成長を支援します！