私は最近株関連のニュースを探しているのですが、最初に想像していたのは、新しいニュースがリリースされると、プログラムが最新のコンテンツを電子メールでメールボックスに送信するというものでした。
そこで、ニュースのタイトルとコンテンツをデータベースに保存したいと考えています。コンテンツが更新されたときに、新しいコンテンツとデータベースのタイトル リストを比較して、それがすでに存在するかどうかを確認します。すでに存在する場合は、存在しません。送信されない場合は送信されませんので、メールボックスに送信してください。
しかし、数が増えるとリストクエリの速度が遅くなります。他に方法はありますか?
クローラータスクの重複排除
キャプチャしたリンクをセットに保存し、新しいリンクがセット内にあるかどうかを確認します。
上記のセットやブルームフィルターなど、メモリを効果的に使用して効率を向上させる重複を削除する方法はたくさんあります