美しいスープと FindALL メソッドを使用して HTML ドキュメントを解析しようとしていますが、必要な情報を分離できないようです。おそらく私がジュニア開発者であるため、ドキュメントといくつかのチュートリアルを見ましたが、番号とリンクを分離できないようです。
これは、基本情報を含むダミーの HTML テーブルです:
リーリープログラムを実行するときは、各行 (行) ごとに次の内容を抽出する必要があります。 日付 (ただし、YYMMDD、つまり 641110 に並べ替えられています) と、「LINK GOES HERE」という文字列 (ただし、有効なリンクにするには、別の文字列と連結する必要があります)
ここにリンクがあるとか、文字化けしているなどの追加情報は必要ありません (例: Hjkhjksgd)
編集: 正しい信頼性で Web の場所にログインできる必要もあります (パスワードとユーザー名を持っています)
私のコードが十分に明瞭で、変数などを理解するのに役立つプリントアウトがあることを願っています。他の方法にもオープンですが、美しいパンダやセレンについては理解できないようです... これまでのところ、私はこれを持っています:
リーリーテーブルから文字列を取り出そうとしましたが、int のようには見えず、文字列が非常に混乱しています。文字列がごちゃごちゃしているため、希望するものと比較することはできません。 td タグが複数あるため、 td で分離できません。
同様のことを行おうとしている人のために、ここにプレースホルダを含む単純な英語のコードを示します。このため、そのままではコンパイルできません... 答えの助けに感謝します! ! !
ああああ
私はあなたのニーズを達成するために
リーリーdatetime
モジュールとre
モジュールを使用しました。お役に立てば幸いです。コードは次のとおりです: