現在、WeChat ユーザーはますます増えており、当然ながら多くの WeChat 公開アカウント の記事も非常に長くなっていることがわかります。今日はその方法を分析します。 PHP で記述してください。WeChat 公開アカウント を収集する方法とコードについて詳しく説明していますので、一緒に見てみましょう。 Sogou 検索を通じて公開アカウントの履歴メッセージを収集するには、いくつかの問題があります。
1.
確認コードがあります。 2. 履歴メッセージ リストには、最後の 10 件のグループ メッセージしか含まれていません。記事アドレスには有効期限があります4. バッチ収集には IP を変更する必要があると言われています
収集システムは従来のルールほど単純ではありませんが、這うコレクター。ただし、一度設定した後のバッチ収集の効率はまだ許容範囲内です。さらに、収集された記事アドレスは永続的に有効であり、公開アカウントのすべての履歴メッセージを収集できます。公開アカウント記事のリンク アドレスから始めましょう:
1. WeChat の右上隅にあるメニューからコピーしたリンク アドレス:http://mp.weixin.qq.com/s/ fF34bERZ0je_8RWEJjoZ5A
2. 履歴メッセージ リストから取得したアドレス:
http://mp.weixin.qq.com/s?biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210 cee0d492ebdf20f7371f&chksm=83d7 4818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=4 #wechat_redirect
https://
Mp.weixin.qq.com/s? Biz = mjm5ndawmta2ma == & Mid = 2695729619 & IDX = 1 & Sn & chksm = 83D74818B4A0C10 EF286B33bb7Deb73226125F8666666DDB5B2781166069AFEF3705EABDB3B85 &シーン = 37 & キー = C81d7727118A0E6ce322 BE2D9DCAA2A7436AEBA2C1D47A20D02194D1C944A8286A8Eded93495eeadd0 5DA412BBFAA6379750AEAA4D785710d9736b80E3C72770 A 57A515C23FF2400 & アシーン = 3 & Uin = Mzuyotiynq %3D%3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsISu7KFJo6CiXOZex83Y5YBRglW4%3D&w x_header=1
上記3つのアドレスは、同じ記事を異なる場所で取得すると、3 つのまったく異なる結果が得られました。 履歴メッセージページと同様に、WeChatにもパラメータを自動的に補足する仕組みがあります。最初のアドレスはリンクをコピーすることで取得され、偽装されたエンコーディングであるようです。実際のところ、それは無駄なので検討しません。 2 番目のアドレスは、前の記事で紹介した方法で履歴メッセージの json 記事リストから取得したリンク アドレスです。このアドレスをデータベースに保存できます。その後、このアドレスを介してサーバーから記事のコンテンツを取得できます。 3 番目のリンクにパラメーターを追加した後、目的は、記事ページ内の読書 js が読書いいねの json 結果を取得できるようにすることです。前回の記事の方法では、クライアントで記事ページを開いて表示することで、記事ページ内のjsが自動的に閲覧量を取得するため、プロキシサービスを通じてこの記事の閲覧量を取得することができます。 。
この記事の内容は、このコラムの前回の記事で紹介した方法に基づいて、記事のコンテンツやその他の有用な情報を取得する方法を詳細に検討することです。
(データベースに保存されている記事のリスト、一部のフィールド)
1. 記事のソース コードを取得します:PHP 関数 file_get_content() を使用して、記事のソース コードを変数に読み取ることができます。 WeChat記事のソースコードはブラウザから開けるので、ページスペースの無駄を避けるためにここには貼り付けません。
<? //$content_url 变量的值为文章地址 $html = file_get_contents($content_url); ?>
2. ソースコード内の有用な情報:
1) 元のコンテンツ:
元のコンテンツは
php コード を通じて取得します:<? preg_match_all("/id=\"js_content\">(.*)<script/iUs",$html,$content,PREG_PATTERN_ORDER); $content = "<p id='js_content'>".$content[1][0]; ?>
通常の開始識別 、終了識別