0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文讀懂關(guān)于爬蟲的概念

454398 ? 來源:搜狐 ? 作者:科技富能量 ? 2020-10-12 16:05 ? 次閱讀

最近,我們經(jīng)常能夠聽到“XX公司做違法爬蟲”被一鍋端,程序員坐牢。還有XX公司的爬蟲給12306網(wǎng)站帶來重壓等等新聞,在看熱鬧的同時,很多人都會提出疑問——爬蟲到底是啥?今天就徹底給您講明白。

按照定義“網(wǎng)絡(luò)爬蟲”就是按照一定的規(guī)則,自動地抓取互聯(lián)網(wǎng)信息的程序或者腳本,能夠把網(wǎng)站上的信息收集回來,并且能在網(wǎng)站之間游走。爬蟲還會模擬人的行為,這看看、那瞅瞅。

比如百度、谷歌等搜索引擎就是典型的“爬蟲”,當(dāng)你搜索“科技富能量”這個關(guān)鍵詞時,搜索引擎就會到各個網(wǎng)站上把和這個關(guān)鍵詞有關(guān)的內(nèi)容找來呈現(xiàn)在結(jié)果頁面。

搜索之后,我們自然會選擇想要的結(jié)果點擊進去,這樣“被爬”的網(wǎng)站增加了點擊量,搜索引擎也獲得流量,這屬于雙贏局面。

但并非所有網(wǎng)站都愿意“被爬”。比如12306,作為中國唯一的官方火車票預(yù)訂渠道,本身每天就有海量點擊,但火車票代訂、代刷軟件(比如攜程、360等),為了掙搶票費,也會使用爬蟲軟件,惡意爬12306.

最瘋狂的時候,就是年前那段時間,公開數(shù)據(jù)表示:最高峰時1天內(nèi)頁面瀏覽量達813.4億次,1小時最高點擊量59.3億次,平均每秒164.8萬次。

令人討厭的不僅僅有搶票爬蟲,還有微博的“僵尸爬蟲”——僵尸粉

打開某流量明星的留言頁面你就會看到,海量的留言量中,除了幾個真粉的發(fā)言,剩下的都是“步調(diào)一致”的僵尸粉。為啥流量明星最愛爬蟲?因為他們可以告訴廠商——我有流量,我有海量粉絲,來找我做代言/拍戲吧!

某流量明星留言中,還帶著“文案”二字

當(dāng)然,還有中性爬蟲——比價軟件。

按照正常購物流程,你會打開京東、淘寶甚至貝殼找房,查看同一商品然后進行價格對比,費時費力。

在比價網(wǎng)站上,你搜索一樣商品,這類聚合平臺就會自動把各個電商的商品都放在你面前供你選擇,基本各大購物網(wǎng)站都能囊括在內(nèi)。這就是“爬蟲”的功勞。它們?nèi)ジ骷译娚誊浖?,把商品的圖片和價格統(tǒng)統(tǒng)扒下來,然后在自己這里展示。

這種爬蟲方便了用戶卻“惡心”了電商,因為電商平臺會把最顯眼的位置留給交錢最多的賣家,你都爬走了,肯定按照最便宜的產(chǎn)品展示,如此一來,誰還看交過錢的商家呢?

但是電商平臺沒法像12306那樣設(shè)置驗證碼,而且爬蟲還會模擬用戶的操作行為,你能想象每打開一次商品就輸入一次驗證碼嗎?誰還愿意買東西呢?

但是電商平臺也不是吃素的,各種封禁爬蟲IP地址、故意耗費爬蟲程序資源等等方式也很常見,爬與被爬的攻防戰(zhàn),一刻不停。

最重要的是,雖然《網(wǎng)絡(luò)安全法》沒有對爬蟲行為作出明確規(guī)定,但是其司法解釋寫道“未經(jīng)授權(quán)爬取用戶手機通訊錄超過50條記錄;未經(jīng)授權(quán)抓取用戶淘寶交易記錄超過500條;未經(jīng)授權(quán)讀取用戶運營商網(wǎng)站通話記錄超過500條;未經(jīng)授權(quán)讀取用戶公積金社保記錄的超過50000條的?!笨梢匀胄?。

技術(shù)本無善惡之分,就看爬與被爬的,到底是誰。
編輯:hfy

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 網(wǎng)絡(luò)爬蟲
    +關(guān)注

    關(guān)注

    1

    文章

    52

    瀏覽量

    8639
  • 爬蟲
    +關(guān)注

    關(guān)注

    0

    文章

    82

    瀏覽量

    6816
收藏 人收藏

    評論

    相關(guān)推薦

    讀懂單燈控制器工作原理

    讀懂單燈控制器工作原理
    的頭像 發(fā)表于 11-11 13:13 ?37次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>單燈控制器工作原理

    讀懂MSA(測量系統(tǒng)分析)

    讀懂MSA(測量系統(tǒng)分析)
    的頭像 發(fā)表于 11-01 11:08 ?694次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>MSA(測量系統(tǒng)分析)

    詳細解讀爬蟲多開代理IP的用途,以及如何配置!

    爬蟲多開代理IP是種在爬蟲開發(fā)中常用的技術(shù)策略,主要用于提高數(shù)據(jù)采集效率、避免IP被封禁以及獲取地域特定的數(shù)據(jù)。
    的頭像 發(fā)表于 09-14 07:55 ?396次閱讀

    讀懂新能源汽車的功能安全

    電子發(fā)燒友網(wǎng)站提供《讀懂新能源汽車的功能安全.pdf》資料免費下載
    發(fā)表于 09-04 09:22 ?3次下載

    【古瑞瓦特光伏逆變器品牌】讀懂PCS儲能變流器

    【古瑞瓦特光伏逆變器品牌】讀懂PCS儲能變流器 在加快實現(xiàn)雙碳目標和構(gòu)建新型電力系統(tǒng)的進程中,儲能技術(shù)正逐步成為支撐新型電力系統(tǒng)穩(wěn)定運行、優(yōu)化資源配置的關(guān)鍵技術(shù)之。其中,PCS(
    的頭像 發(fā)表于 06-14 16:39 ?1118次閱讀
    【古瑞瓦特光伏逆變器品牌】<b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>PCS儲能變流器

    電主軸:教您如何讀懂?|深圳恒興隆機電.

    電主軸:教您如何讀懂?|深圳恒興隆機電電主軸是種利用電機作為驅(qū)動源的主軸。它具有高速、高精度和高剛性等特點,廣泛應(yīng)用于機械加工、數(shù)控機床、機器人等領(lǐng)域。本文將詳細介紹電主軸的原理
    發(fā)表于 03-27 10:30

    讀懂寬帶、帶寬、網(wǎng)速之間的區(qū)別與關(guān)系

    讀懂寬帶、帶寬、網(wǎng)速之間的區(qū)別與關(guān)系? 寬帶、帶寬和網(wǎng)速是在網(wǎng)絡(luò)領(lǐng)域中經(jīng)常使用的術(shù)語,它們之間有定的區(qū)別和關(guān)系。在深入理解寬帶、帶寬和網(wǎng)速之間的關(guān)系之前,讓我們先了解
    的頭像 發(fā)表于 01-31 09:11 ?5931次閱讀

    如何解決Python爬蟲中文亂碼問題?Python爬蟲中文亂碼的解決方法

    如何解決Python爬蟲中文亂碼問題?Python爬蟲中文亂碼的解決方法 在Python爬蟲過程中,遇到中文亂碼問題是常見的情況。亂碼問題主要是由于編碼不致所導(dǎo)致的,下面我將詳細介紹
    的頭像 發(fā)表于 01-12 15:11 ?2116次閱讀

    讀懂車規(guī)級AEC-Q認證

    讀懂車規(guī)級AEC-Q認證
    的頭像 發(fā)表于 12-04 16:45 ?866次閱讀

    爬蟲的基本工作原理 用Scrapy實現(xiàn)個簡單的爬蟲

    數(shù)以萬億的網(wǎng)頁通過鏈接構(gòu)成了互聯(lián)網(wǎng),爬蟲的工作就是從這數(shù)以萬億的網(wǎng)頁中爬取需要的網(wǎng)頁,從網(wǎng)頁中采集內(nèi)容并形成結(jié)構(gòu)化的數(shù)據(jù)。
    的頭像 發(fā)表于 12-03 11:45 ?1495次閱讀
    <b class='flag-5'>爬蟲</b>的基本工作原理 用Scrapy實現(xiàn)<b class='flag-5'>一</b>個簡單的<b class='flag-5'>爬蟲</b>

    讀懂微力扭轉(zhuǎn)試驗機的優(yōu)勢

    讀懂微力扭轉(zhuǎn)試驗機的優(yōu)勢
    的頭像 發(fā)表于 11-30 09:08 ?525次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>微力扭轉(zhuǎn)試驗機的優(yōu)勢

    秒”讀懂串?dāng)_對信號傳輸時延的影響

    秒”讀懂串?dāng)_對信號傳輸時延的影響
    的頭像 發(fā)表于 11-28 17:07 ?535次閱讀
    “<b class='flag-5'>一</b>秒”<b class='flag-5'>讀懂</b>串?dāng)_對信號傳輸時延的影響

    讀懂,什么是BLE?

    讀懂,什么是BLE?
    的頭像 發(fā)表于 11-27 17:11 ?2133次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>,什么是BLE?

    Python網(wǎng)絡(luò)爬蟲Selenium的簡單使用

    想要學(xué)習(xí)爬蟲,如果比較詳細的了解web開發(fā)的前端知識會更加容易上手,時間不夠充裕,僅僅了解html的相關(guān)知識也是夠用的。
    的頭像 發(fā)表于 11-14 14:44 ?399次閱讀
    Python網(wǎng)絡(luò)<b class='flag-5'>爬蟲</b>Selenium的簡單使用

    如何看待Python爬蟲的合法性?

    Python爬蟲種自動化程序,可以從互聯(lián)網(wǎng)上獲取信息并提取數(shù)據(jù)。通過模擬網(wǎng)頁瀏覽器的行為,爬蟲可以訪問網(wǎng)頁、抓取數(shù)據(jù)、解析內(nèi)容,并將其保存到本地或用于進步分析
    的頭像 發(fā)表于 11-14 10:35 ?564次閱讀