网络爬虫 - python爬虫爬取资料，是直接生成Excel文件还是存入Mysql有利于后期处理。

Question

要处理的文件不多，就是几万条，都是些简单的处理，Excel暂时也够用。大概思路两条： 1、python抓到的数据通过Python DB API 储存到mysql中再做处理。2、直接把爬取到的资料用Phthon XlsxWriter模块生成Execl文件...

大家讲道理 · Answer

私も同様の問題に遭遇しましたが、最終的な選択は Excel を使用することでした。
どちらを選択するかはあなたのニーズ次第です。まず私の状況について話させてください。

当時の私のニーズは、毎回数百個のデータをクロールするだけで、そのたびにデータを破棄していました。

Excel を使用する方が便利でした。
それだけでした。クロールされたデータを保存するために使用されます。操作スタイルは非常に簡単です。

データが何千件あるかにもよりますが、今後も増え続けることを考えると、後で操作するために直接データベースに保存した方が便利です。 Excelで保存することもできますので、今すぐExcelに保存しておくと便利です

今後データが大きくなってくると、Excelでは対応しきれなくなると思うので、直接インポートするスクリプトを書きます。 Excel のデータをデータベースに変換します。

質問者は MySQL に慣れていないことを心配していますが、他のデータベースを学習したことがあれば、MySQL を学習することはまったく問題ありません。

阿神 · Answer

データベース

遅かれ早かれ、あなたにご連絡しなければなりません

データが少なく、テキストファイルを直接保存できるため、Excel よりも優れています...

PHPz · Answer

これは、ストレージに使用されるデータベースとは関係ないと思います。クローラーによってクロールされたデータは、後で execl データをデータベースにインポートするプログラムを作成できます。これにより、速度も向上します。クローラー処理中にデータベースに保存される場合はあまり良くありません

PHPz · Answer

mysql が理解できない場合は、openpyxl を使用してください

伊谢尔伦 · Answer

CSV テキストファイルとして保存すると、Excel で開くことができ、データベースにインポートすることもできて便利です。

怪我咯 · Answer

<p>SQLite</p>

大家讲道理 · Answer

データが少なく同時実行性が低い場合は、Sqlite を使用してください。SQL に慣れていない場合は、たとえば、peewee~

を使用してください。

巴扎黑 · Answer

後処理には必ずデータベースを使用してください。