IT桔子是關注IT互聯網產業的結構化的公司資料庫和商業資訊服務提供者。請問網站IT桔子(IT桔子官方網站)
的數據:創業者,機構,投資人,新聞等數據是怎麼樣取得的?
相同的問題是,36氪的哪些新創公司資料從哪裡取得?
這些都是完全由爬蟲抓取的嗎?還是有直接的數據管道?
如果有爬蟲抓取,那麼這種爬蟲的實現有什麼具體的參考和路徑?
回覆內容:
http://itjuzi.com 的資料來源比較多,總結起來主要有以下方式:
一類是技術抓取,包括主要新聞媒體、應用程式商店等,目前大概30%比例
一類是用戶UGC貢獻,目前大概30%比例
一類是合作夥伴數據管道,例如和一些招聘網站、開發者社群建立聯繫,定期取得;還包括來自於投資機構的數據,尤其是在投資事件的資訊取得上,大概佔比也有30%
另外10%則來自於IT桔子的成員作為網路創業和投資愛好者,主動去發現及個人人脈累積了~~
支援IT橘子,希望加重用戶UGC功能,簡化審核權限