多线程 - 为何python子线程会等待很长时间

Question

背景：运行一个爬虫，开了10个线程，每个线程先去爬取指定数量的代理作为自己的代理池，然后开始工作。 问题：下面是爬虫日志的两行，可以看到在第一行任务处等待了45秒，而这里不过是输出一条信息，十分不理解为...

高洛峰 · Answer

説明されている問題は、主に SQLite の不適切な使用によって引き起こされていることが判明しました。以前の設計では、エージェントプール内のすべてのエージェントの検証が完了し、一定数のエージェントがキャプチャされるまで接続が開かれてから閉じられました。エージェント情報を追加、変更、または削除すると、データファイルが書き込まれるため、粗粒度 SQLite が長時間ロックされます。

この問題を発見した後、新しい接続の開始時にインベントリエージェントを読み取った後、すぐに接続を閉じました。その後、すべてのエージェントの新規データ、更新データ、および削除データは一時的にクラス変数に保存されます。必要なエージェントがすべて取得された後、新しい接続を開き、executemany でデータを更新してから接続を閉じ、スケジュールされたタスクを完了すると、速度が向上します。

しかし、元の状況では、スレッドスケジューリングメカニズムにより、データベースによってブロックされたスレッドが時間内に切り替えるのではなく、常にリソースを占有することができた理由がまだ理解できません。

伊谢尔伦 · Answer

あなたのスレッドはデータベースへの書き込みレベルでブロックされています。sqlite を使用しているので、データベースの書き込み操作を高速化するもう 1 つの古代の機能を提供しましょう。リーリー

3 つの方法を使用して

書き込み速度を高速化しますsqlite

ディスク同期をオフにする
SQLite トランザクション
多数のバッチ挿入を実行

追記: さらに、十分なメモリがある場合は、データベースファイルを

ディレクトリに放り込むことができます。これにより、ディスク I/O の影響が大幅に排除されます (メモリへの直接書き込みと同等) tmpfs