网络爬虫 - python爬虫爬取资料,是直接生成Excel文件还是存入Mysql有利于后期处理。
大家讲道理
大家讲道理 2017-04-18 10:20:34
0
8
967

要处理的文件不多,就是几万条,都是些简单的处理,Excel暂时也够用。大概思路两条:

1、python抓到的数据通过Python DB API 储存到mysql中再做处理。
2、直接把爬取到的资料用Phthon XlsxWriter模块生成Execl文件(.xlsx)。

不知道哪条路线对自动生成文件和后期的处理比较方便。自己不太会用mysql,所以比较倾向用XlsxWriter模块生成Execl文件,只是看了XlsxWriter模块的一些文档,也只是编写数据内容和格式,然后生成Execl文件,不知道有没有爬取的数据自动生成Execl文件比较简单的实现(有一些爬虫的框架可以实现,但是暂时没有学习框架,因为只是想实现一些简单的功能而已)。

大家讲道理
大家讲道理

光阴似箭催人老,日月如移越少年。

répondre à tous(8)
大家讲道理

J'ai rencontré des problèmes similaires et le choix final a été d'utiliser Excel.
Tout dépend de vos besoins, selon ce qui vous convient le mieux.

Mes besoins à cette époque étaient seulement d'explorer quelques centaines de données à la fois, et je les jetais après chaque utilisation
Il était donc plus pratique d'utiliser Excel pour utiliser Excel. openpyxl.
Il n'a été utilisé que pour la sauvegarde. Les données explorées ne nécessitent pas de manipulation de styles, elles sont donc assez simples à utiliser.

Cela dépend du nombre de milliers de données dont vous disposez. Si vous considérez qu'elles continueront d'augmenter à l'avenir, il est plus pratique de les enregistrer directement dans la base de données pour une utilisation ultérieure.
Là encore, si vous pensez que l'enregistrer dans Excel maintenant peut répondre à vos besoins, et si c'est plus pratique, vous pouvez également l'enregistrer dans Excel
À mesure que les données augmentent à l'avenir, je pense qu'Excel ne peut pas répondre à la demande, donc. J'écris un script pour importer directement les données sous Excel dans la base de données

.

En regardant la question, la personne qui pose la question craint de ne pas connaître MySQL. Ce n'est pas du tout un problème si vous avez appris d'autres bases de données, apprendre MySQL n'est pas difficile.

阿神

Base de données

Tôt ou tard, nous devons nous contacter

Avec moins de données, le stockage direct de fichiers texte est meilleur qu'Excel...

PHPzhong

Je pense que cela n'a rien à voir avec la base de données utilisée pour le stockage. Les données analysées par le robot peuvent être stockées dans execl. Plus tard, vous pouvez écrire un programme pour importer les données execl dans la base de données. la vitesse de traitement du robot. Si pendant le processus d'exploration, il n'est pas bon de le stocker

PHPzhong

Si vous ne comprenez pas MySQL, utilisez simplement openpyxl

伊谢尔伦

Enregistrez-le sous forme de fichier texte CSV, qui peut toujours être ouvert avec Excel et qui est également pratique pour l'importation dans la base de données.

刘奇

SQLite

大家讲道理

Si vous avez peu de données et une faible concurrence, utilisez SQLite. Si vous n'êtes pas familier avec SQL, utilisez ORM Par exemple, peewee~

.
巴扎黑

Utilisez certainement une base de données pour le post-traitement.

Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal