html5 - python 处理html页面爬虫数据

Question

请求的url 数据http://www.hkex.com.hk/chi/st...对了我只抓取一张表，希望能够提取关键表的数据. 希望抓取的数据是该成交报表，但是HTML 的标签都是&lt;pre&gt;造成了数据提取的困难。 {代码...} 代號 股票名稱 ...

ringa_lee · Answer

解决方法一:

首先先定位賣空成交量位置 a = soup.find('a', attrs={'name':'short_selling'})，然后根据pre->font的相邻关系，一直往下走直到列不到6行就结束

这是结果：

[['代號', '股票名稱', '股數(SH)', '金額($)', '股數(SH)', '金額($)'],
 ['1', '長和', '299,500', '27,572,475', '2,201,171', '202,964,029'],
 ['2', '中電控股', '61,000', '4,622,825', '1,452,853', '110,040,699'],
 ['3', '香港中華煤氣', '2,939,000', '42,694,880', '8,024,558', '116,691,466'],
....

源代码

import pprint
from bs4 import  BeautifulSoup
import requests

r = requests.get('http://www.hkex.com.hk/chi/stat/smstat/dayquot/d170202c.htm')
r.encoding = 'big5'
soup = BeautifulSoup(r.text)
a = soup.find('a', attrs={'name':'short_selling'})
data = []

pre = a.find_parent('pre')

for line in pre.font.text.splitlines():
    item = line.strip().split()
    if len(item) == 6:
        data.append(item)

end = False

for next_pre in pre.next_siblings:
    for line in next_pre.font.text.splitlines():
        item = line.strip().split()
        if len(item) > 7:
            item = item[1:2] + ["".join(item[1:-4])] + item[-4:]
        elif len(item) < 6:
            end = True
            break
        data.append(item)
    if end:
       break

pprint.pprint(data)

黄舟 · Answer

给你一个方案吧。

因为这些数据都是文本信息，没有标签包围。通过抓包，也没有发现特定的数据查询接口。所以数据应该是服务器生成好的通过html写死的发送给浏览器。
那么发现这些数据项每一个特定的属性都是占用同样的位置大小且居右对齐，而且每一项有特定的格式，可以使用正则表达式进行提取。
具体还是请您自行实现吧。

阿神 · Answer

干嘛这么麻烦用beautifulsoup，杀鸡焉用牛刀

你的网页只有一行行数据啊，格式简单的不能再简单

你直接把页面上的数据复制下来，保存成txt，然后用readline、split、正则表达式提取数据不就可以了嘛

php8，我來也

30分鐘學會網站佈局

尚觀Oracle入門到精通視頻教程

你的第一行UNI-APP程式碼

Flutter 從頭到應用程式啟動

兄弟連新版Linux視頻教程

AXURE 9影片教學（適用於產品經理互動產品設計UI）

零基礎PS影片教學

16天帶你入門UI視頻教程

PS技巧和切片技巧影片教學

阿裡雲環境搭建以及項目上線視頻教程

電腦網路概述－程式設計師必須掌握的基礎知識

程式設計師必備教學——HTTP協定講解

Websocket影片教學

解决方法一:

这是结果：

源代码