Python 및 BeautifulSoup을 사용하여 웹 페이지에서 링크 검색
이 문서에서는 웹 페이지에서 링크를 검색하고 해당 URL 주소를 수집하는 방법을 보여줍니다. Python과 BeautifulSoup 사용 library.
문제:
Python을 사용하여 웹페이지에 포함된 링크의 URL을 어떻게 추출합니까?
해결책:
이를 달성하기 위해 다음에서 제공하는 SoupStrainer 클래스를 활용할 수 있습니다. BeautifulSoup. 다음 코드 조각은 프로세스를 예시합니다.
import httplib2 from bs4 import BeautifulSoup, SoupStrainer http = httplib2.Http() status, response = http.request('http://www.nytimes.com') for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')): if link.has_attr('href'): print(link['href'])
이 코드는 지정된 웹페이지(예제에서는 'http://www.nytimes.com')에 대한 연결을 설정합니다. BeautifulSoup을 사용하여 HTML 응답을 구문 분석하고 페이지 내의 'a' 태그(링크를 나타냄)에 초점을 맞춘 SoupStrainer('a') 필터를 적용합니다. 발견된 각 링크에 대해 코드는 실제 URL 주소가 포함된 'href' 속성을 검색합니다.
위 내용은 Python과 BeautifulSoup을 사용하여 웹페이지에서 하이퍼링크를 어떻게 추출할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!