文章专题学习下载问答编程词典手游最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

首页 > 后端开发 > Python教程 > 正文

在Python中使用HTMLParser解析HTML的教程

WBOY

发布： 2016-06-06 11:15:04

原创

1698 人浏览过

如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。

假设第一步已经完成了，第二步应该如何解析HTML呢？

HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。

好在Python提供了HTMLParser来非常方便地解析HTML，只需简单几行代码：

from HTMLParser import HTMLParser
from htmlentitydefs import name2codepoint

class MyHTMLParser(HTMLParser):

  def handle_starttag(self, tag, attrs):
    print('<%s>' % tag)

  def handle_endtag(self, tag):
    print('</%s>' % tag)

  def handle_startendtag(self, tag, attrs):
    print('<%s/>' % tag)

  def handle_data(self, data):
    print('data')

  def handle_comment(self, data):
    print('<!-- -->')

  def handle_entityref(self, name):
    print('&%s;' % name)

  def handle_charref(self, name):
    print('&#%s;' % name)

parser = MyHTMLParser()
parser.feed('<html><head></head><body><p>Some <a href=\"#\">html</a> tutorial...<br>END</p></body></html>')

登录后复制

feed()方法可以多次调用，也就是不一定一次把整个HTML字符串都塞进去，可以一部分一部分塞进去。

特殊字符有两种，一种是英文表示的，一种是数字表示的Ӓ，这两种字符都可以通过Parser解析出来。
小结

找一个网页，例如https://www.python.org/events/python-events/，用浏览器查看源码并复制，然后尝试解析一下HTML，输出Python官网发布的会议时间、名称和地点。

相关标签：

python

来源：php.cn

上一篇：python实现对一个完整url进行分割的方法下一篇：Python中使用hashlib模块处理算法的教程

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

BlackRock Labels BTC a Unique Diversifier

2024-09-20 15:51:33
Internet Computer (ICP) Price Prediction: Will ICP Price Hit $24?

2024-09-20 15:47:32
Worldcoin (WLD) Price Prediction 2022-23

2024-09-20 15:45:32
Top Meme Coins to Invest In Today

2024-09-20 15:39:32
Floki (FLOKI) Price Prediction: Will the Revamped Marketing Help Floki Catch Up on October Gains?

2024-09-20 15:38:32
Next Cryptocurrency to Explode: 5 Coins to Add to Your Watchlist

2024-09-20 15:27:32
Dogecoin: From an Internet Meme to a Digital Currency with a Billion-Dollar Market Capitalization

2024-09-20 15:26:32
ZChains Unveils a Series of Exciting Updates and Launches to Enhance Its Ecosystem

2024-09-20 15:12:32
如何下载小狐狸支付平台的Apple版本

2024-09-20 14:53:01
新手如何在MetaMask进行交易及优缺点

2024-09-20 14:51:01

最新问题

Python/MySQL无法正确持久化整数数据在这里不需要任何代码。我想要保存一个非常长的数字，因为我正在制作一个游戏，需要保存分数。但是我测试了一下，将分数设置为25000000000，但在mysql中保存为21474836...

来自于 2024-04-04 19:09:44

0

1

367

使用selenium想要点击并在类中定义URL 今天我需要另一个提示。我正在尝试构建Python/Selenium代码，想法是单击www.thewebsiteIwantoclickon下面是我正在处理的HTML示例。类entit...

来自于 2024-04-04 14:14:44

0

1

3492

Selenium + Python - 通过execute_script检查图像我需要使用python中的selenium验证图像是否显示在页面上。例如，让我们检查https://openweathermap.org/页面左上角的徽标。我使用execute_s...

来自于 2024-04-03 09:32:15

0

1

375

保留前X行，删除表格行的方法我在MySQLincident_archive中有一个包含数百万条记录的大表，我想按created列对行进行排序，并保留前X行并删除其余行，最有效的方法是什么。到目前为止，我用Py...

来自于 2024-04-01 18:32:54

0

1

347

如何使用 BeautifulSoup 抓取特定的谷歌天气文本？如何使用BeautifulSoup在Python中找到课程文本“美国纽约市”？尝试复制视频进行练习，但不再有效。尝试在官方文档中找到一些内容，但没有成功。或者我的get_html_...

来自于 2024-04-01 14:06:14

0

1

308

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1406369
php入门教程之一周学会PHP

4236557
JAVA 初级入门视频教程

2431673
小甲鱼零基础入门学习Python视频教程

500001
PHP 零基础入门教程

838163

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责声明 Sitemap: PHP中文网：公益在线PHP培训，帮助PHP学习者快速成长！