> 백엔드 개발 > 파이썬 튜토리얼 > Python에서 HTML 엔터티를 디코딩하는 방법은 무엇입니까?

Python에서 HTML 엔터티를 디코딩하는 방법은 무엇입니까?

DDD
풀어 주다: 2024-12-16 05:20:13
원래의
371명이 탐색했습니다.

How to Decode HTML Entities in Python?

Python에서 HTML 엔터티 디코딩: 종합 참조

BeautifulSoup을 사용하여 HTML 콘텐츠를 구문 분석할 때 HTML 엔터티가 인코딩된 상태로 유지되는 문제가 발생할 수 있습니다. 이러한 엔터티를 디코딩하고 실제 텍스트 콘텐츠를 얻으려면 사용 중인 Python 버전에 따라 다양한 접근 방식을 사용할 수 있습니다.

Python 3.4

Python 3.4 이상에서는 html.unescape() 함수는 HTML 엔터티를 디코딩하는 간단한 방법을 제공합니다.

import html
print(html.unescape('£682m'))
로그인 후 복사

이렇게 하면 원하는 출력이 반환됩니다. "£682m".

Python 2.6-3.3

Python 버전 2.6과 3.3 사이의 경우 HTMLParser.unescape() 메서드가 유용합니다.

try:
    # Python 2.6-2.7
    from HTMLParser import HTMLParser
except ImportError:
    # Python 3
    from html.parser import HTMLParser

h = HTMLParser()
print(h.unescape('£682m'))
로그인 후 복사

또는, 6개의 호환성 라이브러리는 모듈 가져오기를 단순화하여 Python에서 HTMLParser를 사용할 수 있도록 합니다. 버전:

from six.moves.html_parser import HTMLParser
h = HTMLParser()
print(h.unescape('£682m'))
로그인 후 복사

개발자는 이러한 Python 도구를 활용하여 HTML 엔터티를 효율적으로 디코딩하고 구문 분석 요구에 맞는 원하는 텍스트 콘텐츠를 얻을 수 있습니다.

위 내용은 Python에서 HTML 엔터티를 디코딩하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿