最近,我們經(jīng)常能夠聽到“XX公司做違法爬蟲”被一鍋端,程序員坐牢。還有XX公司的爬蟲給12306網(wǎng)站帶來重壓等等新聞,在看熱鬧的同時,很多人都會提出疑問——爬蟲到底是啥?今天就徹底給您講明白。
按照定義“網(wǎng)絡(luò)爬蟲”就是按照一定的規(guī)則,自動地抓取互聯(lián)網(wǎng)信息的程序或者腳本,能夠把網(wǎng)站上的信息收集回來,并且能在網(wǎng)站之間游走。爬蟲還會模擬人的行為,這看看、那瞅瞅。
比如百度、谷歌等搜索引擎就是典型的“爬蟲”,當(dāng)你搜索“科技富能量”這個關(guān)鍵詞時,搜索引擎就會到各個網(wǎng)站上把和這個關(guān)鍵詞有關(guān)的內(nèi)容找來呈現(xiàn)在結(jié)果頁面。
搜索之后,我們自然會選擇想要的結(jié)果點擊進去,這樣“被爬”的網(wǎng)站增加了點擊量,搜索引擎也獲得流量,這屬于雙贏局面。
但并非所有網(wǎng)站都愿意“被爬”。比如12306,作為中國唯一的官方火車票預(yù)訂渠道,本身每天就有海量點擊,但火車票代訂、代刷軟件(比如攜程、360等),為了掙搶票費,也會使用爬蟲軟件,惡意爬12306.
最瘋狂的時候,就是年前那段時間,公開數(shù)據(jù)表示:最高峰時1天內(nèi)頁面瀏覽量達813.4億次,1小時最高點擊量59.3億次,平均每秒164.8萬次。
令人討厭的不僅僅有搶票爬蟲,還有微博的“僵尸爬蟲”——僵尸粉
打開某流量明星的留言頁面你就會看到,海量的留言量中,除了幾個真粉的發(fā)言,剩下的都是“步調(diào)一致”的僵尸粉。為啥流量明星最愛爬蟲?因為他們可以告訴廠商——我有流量,我有海量粉絲,來找我做代言/拍戲吧!
某流量明星留言中,還帶著“文案”二字
當(dāng)然,還有中性爬蟲——比價軟件。
按照正常購物流程,你會打開京東、淘寶甚至貝殼找房,查看同一商品然后進行價格對比,費時費力。
在比價網(wǎng)站上,你搜索一樣商品,這類聚合平臺就會自動把各個電商的商品都放在你面前供你選擇,基本各大購物網(wǎng)站都能囊括在內(nèi)。這就是“爬蟲”的功勞。它們?nèi)ジ骷译娚誊浖?,把商品的圖片和價格統(tǒng)統(tǒng)扒下來,然后在自己這里展示。
這種爬蟲方便了用戶卻“惡心”了電商,因為電商平臺會把最顯眼的位置留給交錢最多的賣家,你都爬走了,肯定按照最便宜的產(chǎn)品展示,如此一來,誰還看交過錢的商家呢?
但是電商平臺沒法像12306那樣設(shè)置驗證碼,而且爬蟲還會模擬用戶的操作行為,你能想象每打開一次商品就輸入一次驗證碼嗎?誰還愿意買東西呢?
但是電商平臺也不是吃素的,各種封禁爬蟲IP地址、故意耗費爬蟲程序資源等等方式也很常見,爬與被爬的攻防戰(zhàn),一刻不停。
最重要的是,雖然《網(wǎng)絡(luò)安全法》沒有對爬蟲行為作出明確規(guī)定,但是其司法解釋寫道“未經(jīng)授權(quán)爬取用戶手機通訊錄超過50條記錄;未經(jīng)授權(quán)抓取用戶淘寶交易記錄超過500條;未經(jīng)授權(quán)讀取用戶運營商網(wǎng)站通話記錄超過500條;未經(jīng)授權(quán)讀取用戶公積金社保記錄的超過50000條的?!笨梢匀胄?。
技術(shù)本無善惡之分,就看爬與被爬的,到底是誰。
編輯:hfy
-
網(wǎng)絡(luò)爬蟲
+關(guān)注
關(guān)注
1文章
52瀏覽量
8639 -
爬蟲
+關(guān)注
關(guān)注
0文章
82瀏覽量
6816
發(fā)布評論請先 登錄
相關(guān)推薦
評論