0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

網(wǎng)絡(luò)爬蟲分幾類

工程師 ? 來源:網(wǎng)絡(luò)整理 ? 作者:h1654155205.5246 ? 2019-03-21 17:18 ? 次閱讀

網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲又名“網(wǎng)絡(luò)蜘蛛”,是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到按照某種策略把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取完為止的技術(shù)。

網(wǎng)絡(luò)爬蟲分幾類

1、通用Web爬蟲

通用網(wǎng)絡(luò)爬蟲所爬取的目標數(shù)據(jù)是巨大的,并且爬行的范圍也是非常大的,正是由于其爬取的數(shù)據(jù)是海量數(shù)據(jù),故而對于這類爬蟲來說,其爬取的性能要求是非常高的。這種網(wǎng)絡(luò)爬蟲主要應(yīng)用于大型搜索引擎中,有非常高的應(yīng)用價值?;蛘邞?yīng)用于大型數(shù)據(jù)提供商。

2、聚焦網(wǎng)絡(luò)爬蟲

聚焦網(wǎng)絡(luò)爬蟲是按照預(yù)先定義好的主題有選擇地進行網(wǎng)頁爬取的一種爬蟲,聚焦網(wǎng)絡(luò)爬蟲不像通用網(wǎng)絡(luò)爬蟲一樣將目標資源定位在全互聯(lián)網(wǎng)中,而是將爬取的目標網(wǎng)頁定位在與主題相關(guān)的頁面中,此時,可以大大節(jié)省爬蟲爬取時所需的帶寬資源和服務(wù)器資源。聚焦網(wǎng)絡(luò)爬蟲主要應(yīng)用在對特定信息的爬取中,主要為某一類特定的人群提供服務(wù)。

3、增量Web爬蟲

增量式網(wǎng)絡(luò)爬蟲,在爬取網(wǎng)頁的時候,只爬取內(nèi)容發(fā)生變化的網(wǎng)頁或者新產(chǎn)生的網(wǎng)頁,對于未發(fā)生內(nèi)容變化的網(wǎng)頁,則不會爬取。增量式網(wǎng)絡(luò)爬蟲在一定程度上能夠保證所爬取的頁面,盡可能是新頁面。

4、深層網(wǎng)絡(luò)爬蟲

在互聯(lián)網(wǎng)中,網(wǎng)頁按存在方式分類,可以分為表層頁面和深層頁面。所謂的表層頁面,指的是不需要提交表單,使用靜態(tài)的鏈接就能夠到達的靜態(tài)頁面;而深層頁面則隱藏在表單后面,不能通過靜態(tài)鏈接直接獲取,是需要提交一定的關(guān)鍵詞之后才能夠獲取得到的頁面。在互聯(lián)網(wǎng)中,深層頁面的數(shù)量往往比表層頁面的數(shù)量要多很多,故而,我們需要想辦法爬取深層頁面。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 網(wǎng)絡(luò)爬蟲
    +關(guān)注

    關(guān)注

    1

    文章

    52

    瀏覽量

    8639
  • 爬蟲
    +關(guān)注

    關(guān)注

    0

    文章

    82

    瀏覽量

    6816
收藏 人收藏

    評論

    相關(guān)推薦

    全球視野下的海外爬蟲IP:趨勢、機遇與風險

    在全球視野下,海外爬蟲IP的使用呈現(xiàn)出一系列趨勢,同時也伴隨著機遇與風險。
    的頭像 發(fā)表于 10-15 07:54 ?147次閱讀

    海外爬蟲IP的合法邊界:合規(guī)性探討與實踐

    海外爬蟲IP的合法邊界主要涉及合規(guī)性探討與實踐。
    的頭像 發(fā)表于 10-12 07:56 ?153次閱讀

    如何利用海外爬蟲IP進行數(shù)據(jù)抓取

    利用海外爬蟲IP進行數(shù)據(jù)抓取需要綜合考慮多個方面。
    的頭像 發(fā)表于 10-12 07:54 ?129次閱讀

    詳細解讀爬蟲多開代理IP的用途,以及如何配置!

    爬蟲多開代理IP是一種在爬蟲開發(fā)中常用的技術(shù)策略,主要用于提高數(shù)據(jù)采集效率、避免IP被封禁以及獲取地域特定的數(shù)據(jù)。
    的頭像 發(fā)表于 09-14 07:55 ?396次閱讀

    linux系統(tǒng)的設(shè)備驅(qū)動一般幾類

    Linux系統(tǒng)的設(shè)備驅(qū)動是操作系統(tǒng)與硬件設(shè)備之間的橋梁,負責實現(xiàn)操作系統(tǒng)與硬件設(shè)備之間的通信和控制。Linux系統(tǒng)的設(shè)備驅(qū)動可以分為以下幾類: 字符設(shè)備驅(qū)動 塊設(shè)備驅(qū)動 網(wǎng)絡(luò)設(shè)備驅(qū)動 音頻設(shè)備驅(qū)動
    的頭像 發(fā)表于 08-30 15:13 ?328次閱讀

    幾類網(wǎng)線最好?

    在選擇網(wǎng)線時,并沒有一個絕對的“最好”的類別,因為最好的選擇取決于具體的應(yīng)用場景和需求。不同類別的網(wǎng)線在傳輸速率、帶寬、抗干擾性、價格等方面各有優(yōu)勢。以下是對幾類常見網(wǎng)線的詳細分析,以幫助您做出更合
    的頭像 發(fā)表于 08-05 09:42 ?1120次閱讀

    網(wǎng)線幾類是什么意思

    傳輸性能和帶寬劃分 一類線(CAT1) 用途:主要用于傳輸語音信號,如早期的電話通信系統(tǒng)。 傳輸頻率:較低,通常不超過1MHz。 數(shù)據(jù)速率:不支持高速數(shù)據(jù)傳輸,僅適用于語音信號。 應(yīng)用場景:幾乎不再用于新安裝的網(wǎng)絡(luò)系統(tǒng)中,僅存
    的頭像 發(fā)表于 07-29 10:11 ?602次閱讀

    網(wǎng)絡(luò)爬蟲,Python和數(shù)據(jù)分析

    電子發(fā)燒友網(wǎng)站提供《網(wǎng)絡(luò)爬蟲,Python和數(shù)據(jù)分析.pdf》資料免費下載
    發(fā)表于 07-13 09:27 ?1次下載

    網(wǎng)線是幾類線怎么看

    要確定網(wǎng)線是幾類線,可以通過以下幾種方式進行判斷: 查看網(wǎng)線標識: 在網(wǎng)線的絕緣膠皮上通常會印有網(wǎng)線的品牌、種類等信息??梢灾苯油ㄟ^外皮上印有的標識來區(qū)分是幾類網(wǎng)線。 例如,CAT5表示五類網(wǎng)線
    的頭像 發(fā)表于 07-10 09:49 ?2345次閱讀

    全球新聞網(wǎng)封鎖OpenAI和谷歌AI爬蟲

    分析結(jié)果顯示,至2023年底,超半數(shù)(57%)的傳統(tǒng)印刷媒體如《紐約時報》等已關(guān)閉OpenAI爬蟲,反之電視廣播以及數(shù)字原生媒體相應(yīng)地分別為48%和31%。而對于谷歌人工智能爬蟲,32%的印刷媒體采取相同措施,電視廣播和數(shù)字原生媒體的比率分別為19%和17%。
    的頭像 發(fā)表于 02-27 15:31 ?777次閱讀

    如何解決Python爬蟲中文亂碼問題?Python爬蟲中文亂碼的解決方法

    如何解決Python爬蟲中文亂碼問題?Python爬蟲中文亂碼的解決方法 在Python爬蟲過程中,遇到中文亂碼問題是常見的情況。亂碼問題主要是由于編碼不一致所導(dǎo)致的,下面我將詳細介紹如何解
    的頭像 發(fā)表于 01-12 15:11 ?2116次閱讀

    怎么判斷家里的網(wǎng)線是幾類線?

    怎么判斷家里的網(wǎng)線是幾類線? 判斷家里的網(wǎng)線是幾類線,可以通過以下幾個步驟和線纜特征進行檢查和確定。 第一部:了解網(wǎng)絡(luò)線纜及分類 網(wǎng)絡(luò)線纜
    的頭像 發(fā)表于 12-07 15:29 ?2672次閱讀

    爬蟲的基本工作原理 用Scrapy實現(xiàn)一個簡單的爬蟲

    數(shù)以萬億的網(wǎng)頁通過鏈接構(gòu)成了互聯(lián)網(wǎng),爬蟲的工作就是從這數(shù)以萬億的網(wǎng)頁中爬取需要的網(wǎng)頁,從網(wǎng)頁中采集內(nèi)容并形成結(jié)構(gòu)化的數(shù)據(jù)。
    的頭像 發(fā)表于 12-03 11:45 ?1495次閱讀
    <b class='flag-5'>爬蟲</b>的基本工作原理 用Scrapy實現(xiàn)一個簡單的<b class='flag-5'>爬蟲</b>

    Python網(wǎng)絡(luò)爬蟲Selenium的簡單使用

    想要學(xué)習爬蟲,如果比較詳細的了解web開發(fā)的前端知識會更加容易上手,時間不夠充裕,僅僅了解html的相關(guān)知識也是夠用的。
    的頭像 發(fā)表于 11-14 14:44 ?399次閱讀
    Python<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>爬蟲</b>Selenium的簡單使用

    如何看待Python爬蟲的合法性?

    Python爬蟲是一種自動化程序,可以從互聯(lián)網(wǎng)上獲取信息并提取數(shù)據(jù)。通過模擬網(wǎng)頁瀏覽器的行為,爬蟲可以訪問網(wǎng)頁、抓取數(shù)據(jù)、解析內(nèi)容,并將其保存到本地或用于進一步分析
    的頭像 發(fā)表于 11-14 10:35 ?564次閱讀