网络爬虫 - python爬虫爬取资料,是直接生成Excel文件还是存入Mysql有利于后期处理。
大家讲道理
大家讲道理 2017-04-18 10:20:34
0
8
799

要处理的文件不多,就是几万条,都是些简单的处理,Excel暂时也够用。大概思路两条:

1、python抓到的数据通过Python DB API 储存到mysql中再做处理。
2、直接把爬取到的资料用Phthon XlsxWriter模块生成Execl文件(.xlsx)。

不知道哪条路线对自动生成文件和后期的处理比较方便。自己不太会用mysql,所以比较倾向用XlsxWriter模块生成Execl文件,只是看了XlsxWriter模块的一些文档,也只是编写数据内容和格式,然后生成Execl文件,不知道有没有爬取的数据自动生成Execl文件比较简单的实现(有一些爬虫的框架可以实现,但是暂时没有学习框架,因为只是想实现一些简单的功能而已)。

大家讲道理
大家讲道理

光阴似箭催人老,日月如移越少年。

membalas semua (8)
大家讲道理

我遇到过类似的问题, 最后选的是用 excel.
这个完全看你的需求.哪个方便选哪个. 先说下我的情况.

我当时的需求每次只爬几百条数据, 而且每次都是用完就扔.
所以用 excel 更方便些. 操作 excel 我用的 openpyxl.
只用来保存爬取的数据, 不操作样式, 用起来还是蛮简单的.

看你的数据有几万条, 如果考虑以后还会持续增加的话, 还是直接存数据库以后操作比较方便.
话又说回来, 如果觉得现在存 excel 也能满足自己需求的, 而且更方便的话, 存 excel 也行.
以后随着数据增长, 觉得 excel 不能满足需求了, 写个脚本直接把 excel 里的数据导入数据库里.

看题主还担心不熟悉 MySQL, 这个完全不是问题, 学过其他数据库的话, 学 MySQL 也不是难事.

    阿神

    数据库

    迟早要接触的

    数据少 直接文本文件存储都比 Excel 好...

      PHPzhong

      我觉得这个和用什么数据库存储没关系,可以爬虫爬取的数据存进execl里面,后期再自己写程序将execl数据导入数据库,这样也能提高爬虫处理的速度,如果在爬取过程中入库就不太好了

        PHPzhong

        不懂mysql 就直接用 openpyxl

          伊谢尔伦

          存成csv文本文件, 照样可以用Excel打开,也方便导入数据库.

            刘奇

            SQLite

              大家讲道理

              数据少并发不高用Sqlite呗~不熟sql用ORM呗~例如peewee~

                巴扎黑

                后期处理肯定使用数据库。

                  Muat turun terkini
                  Lagi>
                  kesan web
                  Kod sumber laman web
                  Bahan laman web
                  Templat hujung hadapan
                  Tentang kita Penafian Sitemap
                  Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!