BeautifulSoup을 사용하여 HTML에서 HREF 속성을 효율적으로 추출하는 방법은 무엇입니까?-파이썬 튜토리얼-php.cn

BeautifulSoup을 사용하여 HTML에서 HREF 속성을 효율적으로 추출하는 방법은 무엇입니까?

Mary-Kate Olsen

풀어 주다： 2024-10-30 18:36:03

원래의

818명이 탐색했습니다.

How to Efficiently Extract HREF Attributes from HTML Using BeautifulSoup?

BeautifulSoup에서 HREF 추출

BeautifulSoup을 사용하여 HTML 문서로 작업할 때 href와 같은 특정 속성을 추출하는 것이 필수적일 수 있습니다. 이 문서에서는 여러 태그가 존재하는 시나리오에서도 href 값을 효율적으로 검색할 수 있는 솔루션을 제공합니다.

HREF 검색에 find_all 사용

href 속성이 있는 태그만 대상으로 지정하려면 , 다음과 같이 find_all 메소드를 사용하십시오.

<code class="python"># Python2
from BeautifulSoup import BeautifulSoup

html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print "Found the URL:", a['href']</code>

로그인 후 복사

이 접근 방식을 사용하면 발견된 모든 태그를 반복하고 해당 태그의 href 값을 인쇄할 수 있습니다. BeautifulSoup 4 이전 버전의 경우 메소드 이름은 findAll이었습니다.

HREF로 모든 태그 검색

href 속성이 있는 모든 태그를 얻으려면 다음을 수행하세요. 간단히 name 매개변수를 생략하세요:

<code class="python">href_tags = soup.find_all(href=True)</code>

로그인 후 복사

위 내용은 BeautifulSoup을 사용하여 HTML에서 HREF 속성을 효율적으로 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!