> 백엔드 개발 > 파이썬 튜토리얼 > Python을 사용하여 웹페이지에서 제목 추출

Python을 사용하여 웹페이지에서 제목 추출

WBOY
풀어 주다: 2023-08-31 12:45:05
앞으로
1142명이 탐색했습니다.

Python을 사용하여 웹페이지에서 제목 추출

Python에서는 웹 스크래핑을 사용하여 웹 페이지에서 제목을 추출할 수 있습니다. 웹 스크래핑은 웹사이트나 웹페이지에서 데이터를 추출하는 프로세스입니다. 이 기사에서는 Python의 Requests 및 BeautifulSoup 라이브러리를 사용하여 웹 페이지 제목을 스크랩합니다.

웹페이지에서 제목 추출

방법 1: 요청 및 Beautiful Soup 라이브러리 사용

Python의 요청과 Beautiful Soup 라이브러리를 사용하여 웹 페이지에서 제목을 추출할 수 있습니다. 요청 라이브러리는 웹사이트에 HTTP 요청을 보내고 응답을 받는 데 사용됩니다. 그런 다음 응답 개체를 사용하여 웹 페이지의 HTML 콘텐츠를 추출합니다.

아래 예에서는 Wikipedia 홈페이지 제목을 추출합니다. 요청 라이브러리를 사용하여 Wikipedia 페이지 URL에 GET 요청을 보내고 응답 개체를 응답 변수에 저장합니다.

그런 다음 Beautiful Soup 개체를 사용하여 응답 개체에서 받은 HTML 콘텐츠를 구문 분석하고 soup.title 속성을 사용하여 웹 페이지의 제목 태그를 추출할 수 있습니다. 그런 다음 문자열 속성을 추출하여 제목 변수에 저장할 수 있습니다.

으아아아

출력

으아아아

방법 2: urllib 및 BeautifulSoup을 사용하여 제목 추출

urllib 및 BeautifulSoup 메서드는 URL을 열고 urllib 라이브러리를 사용하여 웹 페이지의 HTML 콘텐츠를 검색하여 웹 페이지에서 제목을 추출하는 데 사용됩니다. HTML 콘텐츠로 BeautifulSoup 객체를 생성하고 'soup.title' 속성을 사용하여 페이지의 제목 태그를 추출합니다.

아래 예에서는 urllib 라이브러리를 사용하여 URL을 열고 웹 페이지의 HTML 콘텐츠를 검색합니다. 그런 다음 'html.parser' 파서를 사용하여 웹 페이지의 HTML 콘텐츠를 사용하는 BeautifulSoup 객체를 생성합니다.

그런 다음 'soup.title' 속성을 사용하여 웹페이지의 제목 태그를 추출할 수 있습니다. 마지막으로 "string" 속성을 사용하여 제목 태그의 문자열 내용을 추출하고 이를 "title" 변수에 저장합니다. 그런 다음 웹 페이지 제목을 콘솔에 인쇄합니다.

으아아아

출력

으아아아

방법 3: 셀레늄과 BeautifulSoup을 사용하여 제목 추출

Selenium 및 BeautifulSoup 메서드는 Selenium 라이브러리를 사용하여 URL을 열고 웹 페이지의 HTML 콘텐츠를 검색하여 웹 페이지에서 제목을 추출하는 데 사용됩니다. Chrome Webdriver를 생성하고 이를 사용하여 웹페이지를 탐색합니다. webdriver의 "page_source" 속성을 사용하여 웹페이지의 HTML 콘텐츠를 검색합니다. HTML 콘텐츠로 BeautifulSoup 객체를 생성하고 'soup.title' 속성을 사용하여 페이지의 제목 태그를 추출합니다.

아래 예에서는 셀레늄 라이브러리를 사용하여 URL을 열고 웹 페이지의 HTML 콘텐츠를 검색합니다. Chrome Webdriver를 만들고 이를 사용하여 웹 페이지를 탐색합니다. 그런 다음 웹 드라이버의 "page_source" 속성을 사용하여 웹 페이지의 HTML 콘텐츠를 검색합니다.

웹페이지의 HTML 콘텐츠를 사용하여 BeautifulSoup 객체를 생성하기 위해 "html.parser" 파서를 사용합니다. 그런 다음 "soup.title" 속성을 사용하여 웹페이지의 제목 태그를 추출할 수 있습니다. 마지막으로 "string" 속성을 사용하여 제목 태그의 문자열 내용을 추출하고 이를 "title" 변수에 저장합니다. 그런 다음 웹 페이지 제목을 콘솔에 인쇄합니다.

으아아아

출력

으아아아

방법 4: 정규 표현식을 사용하여 제목 추출

정규 표현식 방법은 요청 라이브러리를 사용하여 URL에 GET 요청을 보내고 응답 개체를 저장함으로써 웹 페이지에서 헤더를 추출하는 데 사용됩니다. 그런 다음 웹 페이지의 HTML 콘텐츠가 디코딩되어 변수에 저장됩니다. 웹페이지의 제목 태그와 일치하도록 정규식 패턴을 정의합니다. 정규식 패턴의 검색 메소드는 웹 페이지의 HTML 컨텐츠에서 패턴이 처음 나타나는 것을 찾습니다. group(1) 메소드를 사용하면 일치하는 첫 번째 그룹의 문자열 내용을 추출하여 웹페이지 제목을 얻을 수 있습니다.

아래 예에서는 정규식을 사용하여 웹페이지 제목을 추출합니다. 요청 라이브러리를 사용하여 GET 요청을 URL로 보내고 응답 개체를 "응답" 변수에 저장합니다.

그런 다음 "utf-8" 인코딩을 사용하여 웹페이지의 HTML 콘텐츠를 디코딩하고 이를 "html_content" 변수에 저장합니다. 웹페이지의 제목 태그와 일치하는 정규식 패턴을 정의합니다.

우리는 정규식 패턴의 "검색" 방법을 사용하여 웹 페이지의 HTML 콘텐츠에서 패턴이 처음 나타나는 것을 찾습니다. "group(1)" 메소드를 사용하여 첫 번째로 일치하는 그룹의 문자열 내용을 추출하고 이를 "title" 변수에 저장합니다. 그런 다음 웹 페이지 제목을 콘솔에 인쇄합니다.

아아아아

출력

으아아아

결론

이 기사에서는 요청과 Python의 Beautiful Soup 라이브러리를 사용하여 웹 페이지에서 제목을 추출하는 프로세스에 대해 논의했습니다. 요청 라이브러리는 HTTP 요청을 웹사이트 URL로 보내고 응답으로 HTML 콘텐츠를 얻는 데 사용됩니다. 그런 다음 Beautiful Soup 라이브러리를 사용하여 HTML 콘텐츠를 구문 분석하고 HTML 콘텐츠에서 필요한 헤더를 추출합니다.

위 내용은 Python을 사용하여 웹페이지에서 제목 추출의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:tutorialspoint.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿