次の部分コンテナの内容を抽出したいです:
リーリー
通常、私は次のように XPath を使用します:
リーリー
問題は、Web サイトがこのコンテンツの生成に JavaScript を使用しているようだということです。また、XHR リクエストも見当たりません。これは役に立ちます。
データを抽出する機会はありますか?
わかりやすくするために。ここは私のウェブサイトではありません。それを掴まなければなりません。
これが完全なページです:
https://www.wowhead.com/today-in-wow
おっしゃるとおり、サイトではクライアント側 JavaScript が使用されており、上記のデータに対して追加の XHR リクエストは使用されていません。したがって、データは最初にロードされたコード (HTML JS) 内にあると予想される場合があります。コード内で
リーリーevent=643
のようなもの (event=479
と同様) を検索すると、提案が確認され、必要な JSON 形式の部分文字列が生成されます (I インデントが追加されました):抽出されたデータには必要なデータが含まれていることがわかります。これをスクレイピングするためにさまざまなツールを使用する場合があります。