0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

來看看Pythoner志朋的爬蟲實(shí)驗(yàn)

馬哥Linux運(yùn)維 ? 來源:未知 ? 作者:李倩 ? 2018-11-23 15:43 ? 次閱讀

下面我們來看看Pythoner志朋的爬蟲實(shí)驗(yàn)。

一、使用的技術(shù)棧:

爬蟲:python27 +requests+json+bs4+time

分析工具: ELK套件

開發(fā)工具:pycharm

二、數(shù)據(jù)成果

爬取了知乎部分的用戶數(shù)據(jù)信息。

三、簡(jiǎn)單的可視化分析

1.性別分布

0 綠色代表的是男性 ^ . ^ ——1代表的是女性———— -1 性別不確定

可見知乎的用戶男性頗多。

2.粉絲最多的top30

粉絲最多的前三十名:依次是張佳瑋、李開復(fù)、黃繼新等等,去知乎上查這些人,也差不多這個(gè)排名,說明爬取的數(shù)據(jù)具有一定的說服力。

3.寫文章最多的top30

四、爬蟲架構(gòu)

爬蟲架構(gòu)圖如下:

說明:

選擇一個(gè)活躍的用戶(比如李開復(fù))的url作為入口url.并將已爬取的url存在set中。

抓取內(nèi)容,并解析該用戶的關(guān)注的用戶的列表url,添加這些url到另一個(gè)set中,并用已爬取的url作為過濾。

解析該用戶的個(gè)人信息,并存取到本地磁盤。

logstash取實(shí)時(shí)的獲取本地磁盤的用戶數(shù)據(jù),并給elsticsearch

kibana和elasticsearch配合,將數(shù)據(jù)轉(zhuǎn)換成用戶友好的可視化圖形。

五.編碼

爬取一個(gè)url:

解析內(nèi)容:

存本地文件:

代碼說明:

需要修改獲取requests請(qǐng)求頭的authorization。

需要修改你的文件存儲(chǔ)路徑。

源碼下載:https://github.com/forezp/ZhihuSpiderMan,記得star哦!

六.如何獲取authorization

打開chorme,打開https://www.zhihu.com/,

登陸,首頁隨便找個(gè)用戶,進(jìn)入他的個(gè)人主頁,F(xiàn)12(或鼠標(biāo)右鍵,點(diǎn)檢查)

點(diǎn)擊關(guān)注,刷新頁面,見圖:

七、可改進(jìn)的地方

可增加線程池,提高爬蟲效率

存儲(chǔ)url的時(shí)候我才用的set(),并且采用緩存策略,最多只存2000個(gè)url,防止內(nèi)存不夠,其實(shí)可以存在redis中。

存儲(chǔ)爬取后的用戶我說采取的是本地文件的方式,更好的方式應(yīng)該是存在mongodb中。

對(duì)爬取的用戶應(yīng)該有一個(gè)信息的過濾,比如用戶的粉絲數(shù)需要大與100或者參與話題數(shù)大于10等才存儲(chǔ)。防止抓取了過多的僵尸用戶。

八.關(guān)于ELK套件

關(guān)于elk的套件安裝就不討論了,具體見官網(wǎng)就行了。網(wǎng)站:https://www.elastic.co/

另外logstash的配置文件如下:

九、結(jié)語

從爬取的用戶數(shù)據(jù)可分析的地方很多,比如地域、學(xué)歷、年齡等等,我就不一一列舉了。

另外,我覺得爬蟲是一件非常有意思的事情,在這個(gè)內(nèi)容消費(fèi)升級(jí)的年代,如何在廣闊的互聯(lián)網(wǎng)的數(shù)據(jù)海洋中挖掘有價(jià)值的數(shù)據(jù),是一件值得思考和需不斷踐行的事情。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 互聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    54

    文章

    11076

    瀏覽量

    102631
  • python
    +關(guān)注

    關(guān)注

    55

    文章

    4773

    瀏覽量

    84385

原文標(biāo)題:碉堡了!一小時(shí)爬取百萬知乎用戶信息的Python神器曝光

文章出處:【微信號(hào):magedu-Linux,微信公眾號(hào):馬哥Linux運(yùn)維】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    很熱鬧,常來看看!

    很熱鬧,常來看看!
    發(fā)表于 02-15 14:39

    天天來看看~~~

    天天來看看~~~
    發(fā)表于 12-15 16:42

    每天上來看看

    每天上來看看挺好,
    發(fā)表于 12-22 22:53

    來看看怎么樣 下來看看怎么樣 下來看看怎么樣

    來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣[table=98%][tr][td]下
    發(fā)表于 05-13 19:01

    來看看怎么樣 下來看看怎么樣 下來看看怎么樣

    來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣[table=98%][tr][td]下
    發(fā)表于 05-13 19:03

    VR全景聲巨幕VR影院值不值購買?詳細(xì)體驗(yàn)總結(jié)

    多大的解析流。   大VR自身平臺(tái)上具有100+的巨幕視頻、普通電影大概有1000+的視頻、藍(lán)光電影40+,在來看看支持的視頻應(yīng)用,愛奇藝VR、優(yōu)酷VR、2大視頻巨頭的VR應(yīng)用,這VR視頻不要太多
    發(fā)表于 10-04 09:24

    網(wǎng)絡(luò)爬蟲nodejs爬蟲代理配置

    隨著互聯(lián)網(wǎng)的發(fā)展進(jìn)步,現(xiàn)在互聯(lián)網(wǎng)上也有許多網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲通過自己爬蟲程序向目標(biāo)網(wǎng)站采集相關(guān)數(shù)據(jù)信息。當(dāng)然互聯(lián)網(wǎng)的網(wǎng)站會(huì)有反爬策略。比如某電商網(wǎng)站就會(huì)限制一個(gè)用戶IP的訪問頻率,從而出現(xiàn)驗(yàn)證碼
    發(fā)表于 09-01 17:23

    什么是爬蟲?

    什么是爬蟲?爬蟲的價(jià)值?最簡(jiǎn)單的python爬蟲爬蟲基本架構(gòu)
    發(fā)表于 11-05 06:13

    如何運(yùn)行imdb爬蟲?

    imdbcn爬蟲實(shí)例 imdbcn網(wǎng)站結(jié)構(gòu)分析 創(chuàng)建爬蟲項(xiàng)目 運(yùn)行imdb爬蟲
    發(fā)表于 11-05 07:07

    ADS設(shè)計(jì)實(shí)驗(yàn)教程

    ADS設(shè)計(jì)實(shí)驗(yàn)教程,又需要的喲許下來看看。
    發(fā)表于 01-25 10:28 ?0次下載

    爬蟲是如何實(shí)現(xiàn)數(shù)據(jù)的獲取爬蟲程序如何實(shí)現(xiàn)

    進(jìn)入大數(shù)據(jù)時(shí)代,爬蟲技術(shù)越來越重要,因?yàn)樗谦@取數(shù)據(jù)的一個(gè)重要手段,是大數(shù)據(jù)和云計(jì)算的基礎(chǔ)。那么,爬蟲到底是如何實(shí)現(xiàn)數(shù)據(jù)的獲取的呢?今天和大家分享的就是一個(gè)系統(tǒng)學(xué)習(xí)爬蟲技術(shù)的過程:先掌握爬蟲
    發(fā)表于 01-02 16:30 ?10次下載
    <b class='flag-5'>爬蟲</b>是如何實(shí)現(xiàn)數(shù)據(jù)的獲取<b class='flag-5'>爬蟲</b>程序如何實(shí)現(xiàn)

    Python爬蟲 你真的會(huì)寫爬蟲嗎?

    你以為你真的會(huì)寫爬蟲了嗎?快來看看真正的爬蟲架構(gòu)!
    的頭像 發(fā)表于 05-02 17:02 ?3850次閱讀
    Python<b class='flag-5'>爬蟲</b> 你真的會(huì)寫<b class='flag-5'>爬蟲</b>嗎?

    如何使用表格做爬蟲

    很多人不知道,其實(shí)我們最常用的表格,在某些情況下也是可以用來做爬蟲的,而且爬下來的數(shù)據(jù)規(guī)整,不需要花太多時(shí)間進(jìn)行數(shù)據(jù)清洗,來看看是怎么實(shí)現(xiàn)的。
    的頭像 發(fā)表于 02-03 15:15 ?4869次閱讀
    如何使用表格做<b class='flag-5'>爬蟲</b>

    利用Python編寫簡(jiǎn)單網(wǎng)絡(luò)爬蟲實(shí)例

    利用 Python編寫簡(jiǎn)單網(wǎng)絡(luò)爬蟲實(shí)例2 實(shí)驗(yàn)環(huán)境python版本:3.3.5(2.7下報(bào)錯(cuò)
    發(fā)表于 02-24 11:05 ?14次下載

    導(dǎo)熱凝膠的特色有哪些,來看看

    導(dǎo)熱凝膠的特色有哪些,來看看,15年行業(yè)老經(jīng)驗(yàn)共享
    的頭像 發(fā)表于 03-07 17:12 ?3065次閱讀
    導(dǎo)熱凝膠的特色有哪些,<b class='flag-5'>來看看</b>