ホームページ > バックエンド開発 > PHPチュートリアル > 取得した大量のhtmlデータを処理する

取得した大量のhtmlデータを処理する

WBOY
リリース: 2016-06-23 13:47:16
オリジナル
958 人が閲覧しました

30,000文字程度の大量のhtmlデータが取得できました。ただし、最初の数単語は役に立たず、最後の数千文字だけが役立つので、そこからデータを抽出したいと考えています。正規表現を直接使用して処理すると、多くのリソースが無駄になります。正規表現を文字列の末尾から開始し、特定の位置に到達したときに停止する方法はありますか。
最初は simple_html_dom クラスを使って処理しようとしましたが、途中で行き詰まってしまいました...
毎回取得するものは必ずしも長いか短いとは限らないため、固定数を直接横取りするのは良い方法ではありません文字の。


ディスカッションへの返信(解決策)

必要なコンテンツがどこから始まっているかを正確に知ることができないため、リソースを無駄にする問題はありません

HTMLを取得する
file_get_contents
curl

HTMLを定期的に解析する希望のテキストを取得できます。

定期的に一致させるか、使用するクラスを使用してデータをフィルタリングする必要があるため、良い方法はありません。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート