Web ページ <title></title> からタイトルを取得し、不要な文字を削除します。以下に示すように
コンテンツ コレクションの構成:
新浪ニュースの最終ページでは、ニュース コンテンツは <!-- text content begin --> <!-- text content end --> の間に含まれており、これら 2 つのノードはページのソース コード全体に含まれています。独自性がある。したがって、これをコンテンツを取得するためのルールとして使用できます。そしてコンテンツをフィルタリングします。以下に示すように