기사 주제 학습 다운로드 Q&A 프로그래밍 사전 게임 최근 업데이트

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

집 > 백엔드 개발 > 파이썬 튜토리얼 > 본문

[파이썬 튜토리얼] 웹페이지 텍스트 및 콘텐츠 이미지 추출 알고리즘

黄舟

풀어 주다： 2017-02-07 16:16:56

원래의

2552명이 탐색했습니다.

정규 매칭은 일반적으로 단일 웹사이트의 웹 콘텐츠를 크롤링할 때 사용됩니다. 하지만 서로 다른 웹사이트의 구조가 너무 이상해서 통일된 정규식으로 매칭하기가 어렵습니다. "라인 블록 분포 함수 기반 일반 웹 페이지 텍스트 추출 알고리즘"의 저자는 웹 페이지에서 기사 텍스트를 추출하는 일반적인 방법을 요약하고 라인 블록 분포 기반 텍스트 추출 알고리즘을 제안하며 PHP, Java 등으로 구현을 제공했습니다. 이 알고리즘의 주요 원칙은 두 가지 사항을 기반으로 합니다. 1. 텍스트 영역 밀도: HTML에서 모든 태그를 제거한 후 텍스트 영역의 문자 밀도가 더 높아지고 여러 줄의 공백이 줄어듭니다. 2. 줄 블록 길이: 텍스트가 아닌 영역의 콘텐츠는 평균 수준입니다. 개별 라벨(라인 블록)이 더 짧습니다. 알고리즘 단계는 다음과 같습니다.

1. 스타일, Js 스크립트 콘텐츠 등을 포함한 모든 태그를 제거하지만 원래 줄바꿈 n은 유지합니다

[파이썬 튜토리얼] 웹페이지 텍스트 및 콘텐츠 이미지 추출 알고리즘

2. 웹 페이지의 내용을 라인별로 나누어 라인 블록 $block_i$를 텍스트의 $[i, i + blockSize]$ 라인의 합으로 정의하고 이를 기준으로 라인 블록 길이의 분포 함수를 제공합니다. 줄 번호:

[파이썬 튜토리얼] 웹페이지 텍스트 및 콘텐츠 이미지 추출 알고리즘

3. 텍스트는 가장 긴 줄 블록에 표시되며 범위는 양쪽에서 줄 블록 길이까지입니다. of 0이 가로채기됩니다:

[파이썬 튜토리얼] 웹페이지 텍스트 및 콘텐츠 이미지 추출 알고리즘

4. 텍스트 영역에 나타나는 그림을 추출해야 하는 경우에만 유지하면 됩니다. 첫 번째 단계에서 태그를 제거할 때 [파이썬 튜토리얼] 웹페이지 텍스트 및 콘텐츠 이미지 추출 알고리즘 태그의 내용:

[파이썬 튜토리얼] 웹페이지 텍스트 및 콘텐츠 이미지 추출 알고리즘

위 내용은 [python 튜토리얼] 웹페이지 텍스트 및 콘텐츠 이미지 추출 알고리즘에 대한 자세한 내용은 PHP 중국어 웹사이트(m.sbmmt.com)를 참고하세요!

관련 라벨：

python

원천：php.cn

이전 기사：[Python Tutorial] 아름다운 히스토그램 그리기 다음 기사：[파이썬 튜토리얼] 지리적 시각화

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

자신만의 PHP 프레임워크를 처음부터 구축하는 방법에 대한 비디오 자료

2023-03-15 16:54:01
PHPMailer가 QQ 메일함을 사용하여 이메일 전송 기능을 완성하는 방법에 대한 분석 예

2023-03-15 12:26:02
PHP의 IMAP에서 이메일을 받는 방법 소개

2023-03-14 18:58:01
PHP에서 배열 중복 제거를 신속하게 구현하는 방법의 예

2023-03-14 11:30:01
HTML에서 태그의 모든 속성 사용 요약

1970-01-01 08:00:00
PHP에 대한 기본 지식 요약(초보자가 시작하는 데 필요함)

2023-03-16 15:20:01
JavaScript에서 typeof 사용 소개

1970-01-01 08:00:00
JavaScript의 verify() 메소드 사용 소개

1970-01-01 08:00:00
HTML5 자리표시자 속성에 대한 자세한 소개

1970-01-01 08:00:00
ReactJS의 양식에서 단일 선택, 다중 선택 및 역선택을 구현하는 방법

1970-01-01 08:00:00

최신 이슈

Apache에서 CustomLog 지시문을 어디에 배치해야 합니까? 저는 php:7.2-apachedocker를 사용하고 있습니다. 상태 확인 URL 로그인 액세스 로그를 비활성화해야 합니다. 이 링크를 기반으로 Customlog...

에서 2024-04-06 22:03:59

0

1

990

페이지가 갑자기 CSS나 부트스트랩을 가져올 수 없습니다. 그래서 저는 페이지를 개발 중입니다. 어제 일부 작업을 했는데 잘 작동했고, 오늘은 나머지 작업을 계속했는데 모든 것이 괜찮습니다. 일반 HTML 페이지로 열려고...

에서 2024-04-06 21:58:04

0

1

800

CSS에서 부동 요소를 수평이 아닌 수직으로 쌓는 방법은 무엇입니까? 한쪽에는 기본 콘텐츠가 있고 다른 한쪽에는 추가 콘텐츠가 있는 두 개의 열로 구성된 웹페이지를 만들려고 합니다. 하지만 float 속성을 사용하여 추가 열을 왼쪽...

에서 2024-04-06 20:45:26

0

2

386

다른 CSS 코드가 무엇이든 관계없이 Flexbox의 텍스트를 수직 중앙에 강제로 배치할 수 있는 방법이 있나요? 제가 개발 중인 웹사이트에 사용되는 더 큰 CSS 코드의 일부인 다음 CSS 코드가 있습니다. .cards-u{display:flex;flex-wrap:wrap;...

에서 2024-04-06 20:41:51

0

1

518

CSS에서 페이지 하단의 신비한 공백을 해결하는 방법 Bootstrap과 D3를 사용하여 간단한 웹페이지를 구축하려고 하는데 하단의 공백을 모두 없애는 방법을 모르겠습니다. 나는 그것을 제거하고 싶다. 본문과 HTM...

에서 2024-04-06 20:22:15

0

1

454

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿

회사 소개 부인 성명 Sitemap: PHP 중국어 웹사이트：공공복지 온라인 PHP 교육，PHP 학습자의 빠른 성장을 도와주세요！