Java Zhihu クローラをゼロから書くための準備作業-＆＃＆チュートリアル-php.cn

Java Zhihu クローラをゼロから書くための準備作業

黄舟

リリース： 2016-12-24 11:07:30

オリジナル

1845 人が閲覧しました

前と同じように、クローラーを作成するためのアイデアと準備に必要な知識について話しましょう。専門家は無視してください。

まず、何をしたいのか考えて、簡単な要件をいくつか挙げてみましょう。

要件は次のとおりです:

1. Zhihu 公式 Web サイト (http://www.zhihu.com/) へのアクセスをシミュレートします。

2. 以下を含む指定されたページのコンテンツをダウンロードします。

3. 投資、プログラミング、失敗コースなど、指定されたカテゴリのすべての質問と回答をダウンロードします

4. 指定された回答者からのすべての回答をダウンロードします

5. ワンクリックのような機能があるとよいでしょう。 (そうすることで、Lei Lun のすべての回答を一度に「いいね!」することができました!)

解決する必要がある技術的問題を以下に簡単にリストします:

1. Web ページにアクセスするためのブラウザーをシミュレートします

2.重要なデータを取得して保存する

3. Web ブラウジングにおける動的読み込みの問題を解決する

4. ツリー構造を使用して Zhihu 上のすべてのコンテンツを大規模にクロールする

次のステップは準備です。

1. クローラー言語を決定する: 以前に一連のクローラーチュートリアルを書いたことがあるため (ここをクリック)、Baidu Tieba、恥ずかしい百科事典、山東大学の成績ポイントクエリなどはすべて Python で書かれているため、Java を使用することにしました。今回はそれを書くために (こんにちは、私に連絡するのに 0.5 円もかかりません、わかりました)。

2. クローラーに関する一般的な科学: ウェブクローラー、またはウェブスパイダーは非常に鮮やかな名前です。インターネットを蜘蛛の巣に例えると、蜘蛛は巣の上を這っている蜘蛛です。 Web スパイダーは、リンクアドレスを通じて Web ページを検索します。詳しい紹介については、ここをクリックしてください。

3. クローラー環境を準備する: Jdk と Eclipse のインストールと構成については詳しく説明しません。長文になりましたが、便利なブラウザはクローラーにとって非常に重要です。まず、必要なものがどこにあるかを知るために自分で Web を閲覧する必要があり、その後、クローラーにどこに行くか、どのようにクロールするかを指示できるからです。個人的には、右クリックで要素を調べたり、ソースコードを表示したりする機能が非常に強力なので、Firefox または Google Chrome をお勧めします。

さあ、公式のクローラーの旅を始めましょう! ～具体的に何を話せばいいのですか、まあ、質問です、考えさせてください、心配しないでください^_^

以上がJava Zhihuクローラーをゼロから書くための準備作業の内容ですその他の関連コンテンツについては、PHP 中国語 Web サイト (m.sbmmt.com) をフォローしてください。