> 백엔드 개발 > 파이썬 튜토리얼 > Python은 HTML 이스케이프 문자를 처리합니다.

Python은 HTML 이스케이프 문자를 처리합니다.

高洛峰
풀어 주다: 2017-03-01 13:27:57
원래의
2050명이 탐색했습니다.

이 기사의 예에서는 Python이 HTML 이스케이프 문자를 처리하는 방법을 설명합니다. 참고할 수 있도록 모든 사람과 공유하세요. 세부 사항은 다음과 같습니다.

최근 Python을 사용하여 웹 페이지 데이터를 처리할 때 다음과 같은 일부 html 이스케이프 문자(html 문자 엔터티라고도 함)를 자주 발견합니다. <> 문자 엔터티는 일반적으로 웹 페이지에서 예약된 문자를 나타내는 데 사용됩니다. 예를 들어 >는 브라우저가 태그라고 생각하지 않도록 하기 위해 w3school의 HTML 문자 엔터티를 참조하세요. 유용하기는 하지만 웹 데이터 구문 분석에 큰 영향을 미칠 수 있습니다. 이러한 이스케이프 문자를 처리하려면 다음과 같은 해결 방법이 있습니다.

1. HTMLParser를 사용하여

import HTMLParser
html_cont = " asdfg>123<"
html_parser = HTMLParser.HTMLParser()
new_cont = html_parser.unescape(html_cont)
print new_cont #new_cont = " asdfg>123<"
로그인 후 복사

<🎜를 처리합니다. > 다시 변환하려면(공백은 다시 변환할 수 없습니다):

import cgi
new_cont = cgi.escape(new_cont)
print new_cont #new_cont = " asdfg>123<"
로그인 후 복사

바꾸기

아아아아

더 좋은 방법이 있을지 모르겠네요.

또한 stackoverflow는 xml에서 이스케이프 문자를 처리하는 방법에 대한 답변을 제공합니다. python - lxml을 사용하여 XML 문서에서 유사 엔터티를 처리하는 가장 좋은 방법은 무엇입니까?


Python 처리 html 이스케이프 문자와 관련된 더 많은 기사를 보려면 PHP 중국어 웹사이트를 주목하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿