Beautiful Soup を使用して HTML テーブルから特定の JavaScript リンクと日付を抽出する
P粉436410586
P粉436410586 2024-03-29 20:14:35
0
1
345

美しいスープと FindALL メソッドを使用して HTML ドキュメントを解析しようとしていますが、必要な情報を分離できないようです。おそらく私がジュニア開発者であるため、ドキュメントといくつかのチュートリアルを見ましたが、番号とリンクを分離できないようです。

これは、基本情報を含むダミーの HTML テーブルです:

リーリー

プログラムを実行するときは、各行 (行) ごとに次の内容を抽出する必要があります。 日付 (ただし、YYMMDD、つまり 641110 に並べ替えられています) と、「LINK GOES HERE」という文字列 (ただし、有効なリンクにするには、別の文字列と連結する必要があります)

ここにリンクがあるとか、文字化けしているなどの追加情報は必要ありません (例: Hjkhjksgd)

編集: 正しい信頼性で Web の場所にログインできる必要もあります (パスワードとユーザー名を持っています)

私のコードが十分に明瞭で、変数などを理解するのに役立つプリントアウトがあることを願っています。他の方法にもオープンですが、美しいパンダやセレンについては理解できないようです... これまでのところ、私はこれを持っています:

リーリー

テーブルから文字列を取り出そうとしましたが、int のようには見えず、文字列が非常に混乱しています。文字列がごちゃごちゃしているため、希望するものと比較することはできません。 td タグが複数あるため、 td で分離できません。

同様のことを行おうとしている人のために、ここにプレースホルダを含む単純な英語のコードを示します。このため、そのままではコンパイルできません... 答えの助けに感謝します! ! !

ああああ

P粉436410586
P粉436410586

全員に返信(1)
P粉604848588

私はあなたのニーズを達成するために datetime モジュールと re モジュールを使用しました。お役に立てば幸いです。コードは次のとおりです:

リーリー
いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート