資料介紹
無論是通用搜索還是垂直搜索,其關(guān)鍵的核心技術(shù)之一就是網(wǎng)絡(luò)爬蟲的設(shè)計。本文結(jié)合
HTMLParser 信息提取方法,對生活類垂直搜索引擎中網(wǎng)絡(luò)爬蟲進(jìn)行了詳細(xì)研究。通過深入分析生活類網(wǎng)站網(wǎng)址的樹形結(jié)構(gòu)的構(gòu)架,開發(fā)了收集種子頁面URL 的模擬搜索器,并基于HTMLParser 的信息提取方法,從種子頁面中提取出與生活類主題相關(guān)的目標(biāo)URL。經(jīng)實驗測試證明該爬蟲的爬準(zhǔn)率達(dá)93.552% ,爬全率達(dá)96.720% ,表明該網(wǎng)絡(luò)爬蟲是有效的,達(dá)到中等規(guī)模的垂直搜索企業(yè)級應(yīng)用的要求。
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;垂直搜索; HTMLParser
Abstract:Whether general search engine or vertical search engine, the design of web crawler is the core technology. In this article, a novel system of life-theme web crawler based on HTMLParser information extraction is thoroughly studied. In this system, a simulation searcher is designed for collecting the seed URL by analyzing tree structure of life-theme website, then, based on the discussion of HTMLParser information extraction, the target URL that relate to life-theme is extracted from the seed pages. Empirical studies show that the Pr ecision = 93.552% and the Re call = 96.720%, proving its effectiveness and achieving requirements for general enterprise-level application of vertical search engine.
Key words:web crawler; vertical search engine;HTMLParser
- 一種自適應(yīng)網(wǎng)頁結(jié)構(gòu)化信息提取方法 2次下載
- 什么是網(wǎng)絡(luò)爬蟲使用Python寫網(wǎng)絡(luò)爬蟲的教程說明 3次下載
- 爬蟲是如何實現(xiàn)數(shù)據(jù)的獲取爬蟲程序如何實現(xiàn) 10次下載
- 如何設(shè)計一個網(wǎng)絡(luò)爬蟲程序進(jìn)行智慧城市研究的獲取與分析 9次下載
- python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎 29次下載
- 散亂點云數(shù)據(jù)特征信息提取算法 0次下載
- 基于同態(tài)系統(tǒng)的高分辨率遙感圖像河流信息提取 2次下載
- 脈沖多普勒雷達(dá)識別中的信號調(diào)制信息提取 13次下載
- 短時傅立葉變換在陣列聲波信息提取中的應(yīng)用 9次下載
- GPS定位信息提取及應(yīng)用 67次下載
- 基于VB6.0的點陣字模信息提取方法
- 一種新型網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)
- 道路定位信息提取及四參數(shù)坐標(biāo)轉(zhuǎn)換方法
- 植被虛擬仿真中遙感地信息定量化提取
- Web元數(shù)據(jù)信息提取技術(shù)的研究
- 爬蟲的基本工作原理 用Scrapy實現(xiàn)一個簡單的爬蟲 1198次閱讀
- 如何看待Python爬蟲的合法性? 450次閱讀
- 爬蟲的學(xué)習(xí)方法 735次閱讀
- Python-爬蟲開發(fā)01 507次閱讀
- 基于統(tǒng)一語義匹配的通用信息抽取框架USM 960次閱讀
- 基于eBPF技術(shù)實現(xiàn)TLS加密的明文捕獲 2008次閱讀
- 爬蟲技術(shù)為什么變成了害蟲?爬蟲技術(shù)到底犯了什么錯? 4164次閱讀
- 如何解決爬蟲被封的問題 5140次閱讀
- 如何快速入門Python爬蟲的? 2550次閱讀
- Python3網(wǎng)絡(luò)爬蟲入門實戰(zhàn)解析 5390次閱讀
- Python爬蟲速成指南讓你快速的學(xué)會寫一個最簡單的爬蟲 7000次閱讀
- Python學(xué)習(xí)爬蟲掌握的庫資料大全和框架的選擇的分析 5100次閱讀
- 網(wǎng)絡(luò)爬蟲教程(1):音樂歌單編寫 1098次閱讀
- 初學(xué)者寫Python爬蟲的四大工具 5721次閱讀
- 多普勒流量測量概述-信號解調(diào)方法等 4856次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1490次下載 | 免費
- 2單片機(jī)典型實例介紹
- 18.19 MB | 93次下載 | 1 積分
- 3S7-200PLC編程實例詳細(xì)資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關(guān)電源原理及各功能電路詳解
- 0.38 MB | 10次下載 | 免費
- 6基于AT89C2051/4051單片機(jī)編程器的實驗
- 0.11 MB | 4次下載 | 免費
- 7基于單片機(jī)和 SG3525的程控開關(guān)電源設(shè)計
- 0.23 MB | 3次下載 | 免費
- 8基于單片機(jī)的紅外風(fēng)扇遙控
- 0.23 MB | 3次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關(guān)電源設(shè)計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537791次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學(xué)會AVR單片機(jī)與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論
查看更多