使用 Beautiful Soup 从 HTML 表中提取特定的 JavaScript 链接和日期

Question

我正在尝试使用beautifulsoup和FindALL方法解析HTML文档，但我似乎无法隔离我需要的信息。我查看了文档和一些教程，也许是因为我是初级开发人员，但我似乎无法隔离数字和链接。这是一个包含基本信息的虚拟HTML表格：T

P粉604848588 · Answer

我使用了datetime模块和re模块来尝试实现您的需求，希望对您有所帮助，以下是代码：

import re
from datetime import datetime
from bs4 import BeautifulSoup

file_location = r"yourhtml.html"
with open(file_location, "r") as f:
    file = f.read()
soup = BeautifulSoup(file, "html.parser")
script = soup.findAll("td", align="center")
print("begning loop")
for i in script:
    a_tags = i.findAll("a")
    if a_tags:
        # parsing JavaScript
        for a in a_tags:
            pattern = r"$'(.*?)'$"
            match = re.search(pattern, a["href"])
            if match:
                content = match.group(1)
                print(content)
    try:
        date_obj = datetime.strptime(i.text.strip(), "%m/%d/%Y")
        month = str(date_obj.month).zfill(2) # zero padding
        day = str(date_obj.day).zfill(2) # zero padding
        print(f"{str(date_obj.year)[-2:]}{month}{day}")
    except ValueError:
        continue
print("end")

php8，我来也

30分钟学会网站布局

尚观Oracle入门到精通视频教程

你的第一行 UNI-APP 代码

Flutter 从头到应用启动

兄弟连Linux新版视频教程

AXURE 9视频教程（适合产品经理交互产品设计UI）

零基础PS视频教程

16天带你入门UI视频教程

PS技巧和切片技巧视频教程

阿里云环境搭建以及项目上线视频教程

计算机网络概述——程序员必须掌握的基础知识

程序员必备教程——HTTP协议讲解

Websocket视频教程