网络爬虫 - python爬虫爬取资料，是直接生成Excel文件还是存入Mysql有利于后期处理。

Question

要处理的文件不多，就是几万条，都是些简单的处理，Excel暂时也够用。大概思路两条： 1、python抓到的数据通过Python DB API 储存到mysql中再做处理。2、直接把爬取到的资料用Phthon XlsxWriter模块生成Execl文件...

大家讲道理 · Answer

저도 비슷한 문제에 직면했는데 최종 선택은 Excel을 사용하는 것이었습니다.
모두 귀하의 필요에 따라 더 편리한 것을 선택하시게 됩니다.

당시 제 요구사항은 한 번에 수백 개의 데이터만 크롤링하는 것이었고, 사용할 때마다 버리는 것이었습니다.
그래서 Excel을 사용하는 것이 더 편리했습니다. openpyxl.
크롤링된 데이터는 스타일 조작이 필요하지 않아 사용이 매우 간단합니다.

수천개의 데이터를 가지고 있느냐에 따라 다르겠지만, 앞으로도 계속 늘어날 것이라는 점을 고려한다면 나중에 작업할 수 있도록 데이터베이스에 직접 저장하는 것이 더 편리합니다.
그럼 또, 지금 엑셀에 저장하는 것이 요구사항을 충족시킬 수 있다고 생각한다면, 그리고 더 편리하다면 엑셀에 저장하는 것도 가능합니다.
앞으로 데이터가 늘어나면 엑셀이 수요를 충족시킬 수 없을 것 같아서요. 엑셀의 데이터를 데이터베이스로 직접 가져오는 스크립트를 작성합니다.

질문을 보면 질문자는 MySQL에 익숙하지 않다고 걱정하고 있습니다. 이는 전혀 문제가 되지 않습니다. 다른 데이터베이스를 배웠다면 MySQL을 배우는 것은 어렵지 않습니다.

阿神 · Answer

데이터베이스

조만간 우리는 서로 연락해야 합니다

데이터가 적고 엑셀보다 직접 텍스트 파일 저장이 더 좋습니다...

PHPz · Answer

이것은 어떤 데이터베이스가 저장에 사용되는지와는 관련이 없다고 생각합니다. 크롤러가 크롤링한 데이터를 execl에 저장하고 나중에 자체 프로그램을 작성하여 execl 데이터를 데이터베이스로 가져올 수도 있습니다. 크롤러 처리 속도가 크롤링 중에 저장되는 것은 좋지 않습니다

PHPz · Answer

mysql을 모른다면 openpyxl을 사용하세요

伊谢尔伦 · Answer

CSV 텍스트 파일로 저장하면 Excel로 열 수 있고 데이터베이스로 가져오기에도 편리합니다.

怪我咯 · Answer

<p>SQLite</p>

大家讲道理 · Answer

데이터가 적고 동시성이 낮다면 Sqlite를 사용하세요. SQL에 익숙하지 않다면 ORM을 사용하세요. 예를 들어 peewee~

巴扎黑 · Answer

후처리에는 반드시 데이터베이스를 사용하세요.