网络爬虫 - python爬虫爬取资料,是直接生成Excel文件还是存入Mysql有利于后期处理。
大家讲道理
大家讲道理 2017-04-18 10:20:34
0
8
966

要处理的文件不多,就是几万条,都是些简单的处理,Excel暂时也够用。大概思路两条:

1、python抓到的数据通过Python DB API 储存到mysql中再做处理。
2、直接把爬取到的资料用Phthon XlsxWriter模块生成Execl文件(.xlsx)。

不知道哪条路线对自动生成文件和后期的处理比较方便。自己不太会用mysql,所以比较倾向用XlsxWriter模块生成Execl文件,只是看了XlsxWriter模块的一些文档,也只是编写数据内容和格式,然后生成Execl文件,不知道有没有爬取的数据自动生成Execl文件比较简单的实现(有一些爬虫的框架可以实现,但是暂时没有学习框架,因为只是想实现一些简单的功能而已)。

大家讲道理
大家讲道理

光阴似箭催人老,日月如移越少年。

全員に返信(8)
大家讲道理

私も同様の問題に遭遇しましたが、最終的な選択は Excel を使用することでした。
どちらを選択するかはあなたのニーズ次第です。まず私の状況について話させてください。

当時の私のニーズは、毎回数百個のデータをクロールするだけで、そのたびにデータを破棄していました。

Excel を使用する方が便利でした。
それだけでした。クロールされたデータを保存するために使用されます。操作スタイルは非常に簡単です。

データが何千件あるかにもよりますが、今後も増え続けることを考えると、後で操作するために直接データベースに保存した方が便利です。 Excelで保存することもできますので、今すぐExcelに保存しておくと便利です

今後データが大きくなってくると、Excelでは対応しきれなくなると思うので、直接インポートするスクリプトを書きます。 Excel のデータをデータベースに変換します。

質問者は MySQL に慣れていないことを心配していますが、他のデータベースを学習したことがあれば、MySQL を学習することはまったく問題ありません。

いいねを押す +0
阿神

データベース

遅かれ早かれ、あなたにご連絡しなければなりません

データが少なく、テキスト ファイルを直接保存できるため、Excel よりも優れています...

いいねを押す +0
PHPzhong

これは、ストレージに使用されるデータベースとは関係ないと思います。クローラーによってクロールされたデータは、後で execl データをデータベースにインポートするプログラムを作成できます。これにより、速度も向上します。クローラー処理中にデータベースに保存される場合はあまり良くありません

いいねを押す +0
PHPzhong

mysql が理解できない場合は、openpyxl を使用してください

いいねを押す +0
伊谢尔伦

CSV テキスト ファイルとして保存すると、Excel で開くことができ、データベースにインポートすることもできて便利です。

いいねを押す +0
刘奇

SQLite

いいねを押す +0
大家讲道理

データが少なく同時実行性が低い場合は、Sqlite を使用してください。SQL に慣れていない場合は、たとえば、peewee~

を使用してください。
いいねを押す +0
巴扎黑

後処理には必ずデータベースを使用してください。

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート