國內一位開發(fā)者在 GitHub 上開源了個集眾多數(shù)據(jù)源于一身的爬蟲工具箱——InfoSpider,一不小心就火了!??!
有多火呢?開源沒幾天就登上GitHub周榜第四,標星1.3K,累計分支172個(GitHub地址:https://github.com/kangvcar/InfoSpider) 在這樣一個信息爆炸的時代,每個人都有很多個賬號,賬號一多就會出現(xiàn)這么一個情況:個人數(shù)據(jù)分散在各種各樣的公司之間,就會形成數(shù)據(jù)孤島,多維數(shù)據(jù)無法融合,這個項目可以幫你將多維數(shù)據(jù)進行融合并對個人數(shù)據(jù)進行分析,這樣你就可以更直觀、深入了解自己的信息。 InfoSpider 是一個集眾多數(shù)據(jù)源于一身的爬蟲工具箱,旨在安全快捷的幫助用戶拿回自己的數(shù)據(jù),工具代碼開源,流程透明。并提供數(shù)據(jù)分析功能,基于用戶數(shù)據(jù)生成圖表文件,使得用戶更直觀、深入了解自己的信息。
目前支持數(shù)據(jù)源包括GitHub、QQ郵箱、網(wǎng)易郵箱、阿里郵箱、新浪郵箱、Hotmail郵箱、Outlook郵箱、京東、淘寶、支付寶、中國移動、中國聯(lián)通、中國電信、知乎、嗶哩嗶哩、網(wǎng)易云音樂、QQ好友、QQ群、生成朋友圈相冊、瀏覽器瀏覽歷史、12306、博客園、CSDN博客、開源中國博客、簡書。 根據(jù)創(chuàng)建者介紹,InfoSpider 具有以下特性:
安全可靠:本項目為開源項目,代碼簡潔,所有源碼可見,本地運行,安全可靠。
使用簡單:提供 GUI 界面,只需點擊所需獲取的數(shù)據(jù)源并根據(jù)提示操作即可。
結構清晰:本項目的所有數(shù)據(jù)源相互獨立,可移植性高,所有爬蟲腳本在項目的 Spiders 文件下。
數(shù)據(jù)源豐富:本項目目前支持多達24+個數(shù)據(jù)源,持續(xù)更新。
數(shù)據(jù)格式統(tǒng)一:爬取的所有數(shù)據(jù)都將存儲為json格式,方便后期數(shù)據(jù)分析。
個人數(shù)據(jù)豐富:本項目將盡可能多地為你爬取個人數(shù)據(jù),后期數(shù)據(jù)處理可根據(jù)需要刪減。
數(shù)據(jù)分析:本項目提供個人數(shù)據(jù)的可視化分析,目前僅部分支持。
InfoSpider使用起來也非常簡單,你只需要安裝python3和Chrome瀏覽器,運行 python3 main.py,在打開的窗口點擊數(shù)據(jù)源按鈕, 根據(jù)提示選擇數(shù)據(jù)保存路徑,接著輸入賬號密碼,就會自動爬取數(shù)據(jù),根據(jù)下載的目錄就可以查看爬下來的數(shù)據(jù)。 是不是很簡單呢,如果你對InfoSpider也感興趣,趕緊試一下。
責任編輯:lq
-
開源
+關注
關注
3文章
3218瀏覽量
42329 -
GitHub
+關注
關注
3文章
465瀏覽量
16359 -
爬蟲
+關注
關注
0文章
82瀏覽量
6814
原文標題:一款爆紅的開源爬蟲工具箱
文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數(shù)據(jù)技術】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論