您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費(fèi)注冊(cè)]

您的位置:電子發(fā)燒友網(wǎng)>電子百科>半導(dǎo)體技術(shù)>基礎(chǔ)知識(shí)>

網(wǎng)絡(luò)搜索引擎,網(wǎng)絡(luò)搜索引擎的工作原理

2010年03月26日 15:51 ttokpm.com 作者:佚名 用戶評(píng)論(0

網(wǎng)絡(luò)索引擎,網(wǎng)絡(luò)搜索引擎的工作原理

21 世紀(jì)是信息時(shí)代,隨著信息科學(xué)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)已成為人們生活中的重要組成部分,網(wǎng)上信息呈幾何級(jí)數(shù)增長(zhǎng),面對(duì)眾多繁雜無序的信息,如何能快速、準(zhǔn)確、經(jīng)濟(jì)地查找到所需要的信息,成為人們迫切需要解決的問題。

搜索引擎概述
搜索引擎是為滿足人們對(duì)網(wǎng)絡(luò)信息的搜索需求而新興的一種網(wǎng)絡(luò)工具,它利用網(wǎng)絡(luò)自動(dòng)搜索功能,對(duì)各種信息資源分門別類地進(jìn)行標(biāo)引、建庫,并對(duì)信息進(jìn)行理解、提取、組織和處理,從而起到信息導(dǎo)航的作用,幫助人們從不同形式的數(shù)字化信息中進(jìn)行搜索。

搜索引擎起源于傳統(tǒng)的信息全文檢索理論。狹義上的搜索引擎僅指基于因特網(wǎng)的搜索引擎;廣義上的搜索引擎除此之外還包括基于目錄的信息檢索服務(wù)。搜索引擎的研究極具綜合性和挑戰(zhàn)性,它涉及到信息檢索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的關(guān)鍵理論和技術(shù),其核心問題是數(shù)據(jù)庫的規(guī)模、索引數(shù)據(jù)庫的質(zhì)量和標(biāo)引質(zhì)量。


搜索引擎的工作原理及分類
搜索引擎由搜索器、索引器、檢索器和用戶接口四部分。它利用一個(gè)名為“蜘蛛”的機(jī)器人程序以一定的策略自動(dòng)進(jìn)行信息搜索,然后由索引器對(duì)信息進(jìn)行理解、處理,從中抽取索引項(xiàng),建立索引庫,再由檢索器根據(jù)用戶的查詢?cè)谒饕龓熘锌焖贆z索文檔,進(jìn)行相關(guān)度評(píng)價(jià),將要輸出的結(jié)果排序,并按用戶的查詢需求合理反饋信息,由用戶接口來接納用戶查詢,顯示查詢結(jié)果,提供個(gè)性化查詢項(xiàng)。按照信息搜集的方法和服務(wù)提供方式的不同,搜索引擎可以分為:

1. 全文搜索引擎

全文搜索引擎是從各個(gè)網(wǎng)站提取信息,建立數(shù)據(jù)庫,檢索與用戶查詢條件相匹配的記錄后,按照一定的排列順序返回結(jié)果,是名副其實(shí)的搜索引擎。全文搜索引擎的自動(dòng)信息搜集功能分2 種:一種是定期搜索,即每隔一段時(shí)間,搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定IP 地址范圍的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫;另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)(2 天到數(shù)月不等) 定向向你的網(wǎng)站派出“蜘蛛”程序。全文搜索引擎中最具代表性的有國外著名的Google 及國內(nèi)的百度搜索。

2. 目錄索引

目錄索引是一種人工方式或半自動(dòng)方式的搜索引擎,由編輯人員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。由于目錄索引只是一個(gè)按目錄分類的網(wǎng)站鏈接列表,因此不能稱為嚴(yán)格意義上的搜索引擎。由于目錄索引中加入了人的智能,所以導(dǎo)航質(zhì)量高,信息更準(zhǔn)確,但也正因?yàn)槿绱?使得維護(hù)費(fèi)用偏大,信息更新不及時(shí)。目錄索引中最具代表性的為yahoo 、新浪。

3. 元搜索引擎

元搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,將返回的結(jié)果處理后,作為自己的結(jié)果返回給用戶。元搜索引擎返回結(jié)果的信息量更大、更全,但是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。元搜索引擎的代表是WebCrawler、info market 等。


搜索引擎的發(fā)展現(xiàn)狀及技術(shù)展望
目前,搜索引擎一般提供的是關(guān)鍵詞的全文檢索和分類瀏覽的查詢方式,檢索方式單一。分類目錄瀏覽常常檢索到很多無關(guān)的信息,查全率、查準(zhǔn)率不高;關(guān)鍵詞檢索僅僅是機(jī)械的詞語匹配,缺乏知識(shí)處理能力和理解能力,信息檢索質(zhì)量不高。此外,數(shù)據(jù)庫檢索功能和應(yīng)用上的局限性、排序技術(shù)指標(biāo)單一、分類目標(biāo)體系缺乏規(guī)范、信息加工深度不夠,這些都嚴(yán)重影響著搜索引擎的發(fā)展。因此,必須增加檢索途徑,加強(qiáng)網(wǎng)絡(luò)信息資源的科學(xué)標(biāo)引和組織,推動(dòng)網(wǎng)絡(luò)資源標(biāo)準(zhǔn)化進(jìn)程,積極推進(jìn)搜索引擎的發(fā)展。

1. 精確搜索技術(shù)

采用基于自然語言理解技術(shù)的智能化搜索引擎,加深理解用戶搜索請(qǐng)求; 通過對(duì)用戶的不斷了解、分析,提供個(gè)性化搜索;利用XML 等技術(shù)使信息結(jié)構(gòu)化,查詢結(jié)構(gòu)化,提高檢索的速度和性能;針對(duì)某一行業(yè),某一主題和某一地區(qū)的信息而建立專業(yè)化搜索,提高搜索的準(zhǔn)確度。

2. 對(duì)等搜索技術(shù)

對(duì)等搜索P2P(Peer To Peer) 技術(shù)是以用戶為中心,通過P2P 共享硬盤上的文件、目錄甚至整個(gè)硬盤,將這一理念具體運(yùn)用到搜索引擎技術(shù)上,使用戶無須通過Web 服務(wù)器,不受信息文檔格式和宿主設(shè)備的限制,進(jìn)行深度搜索,網(wǎng)上信息的價(jià)值得到極大的提升。

3. 交叉語言檢索技術(shù)

交叉語言信息檢索是指用戶用母語提交查詢,搜索引擎在多種語言的數(shù)據(jù)庫中進(jìn)行信息檢索,返回能夠回答用戶問題的所有語言的文檔。如果再加上機(jī)器翻譯,返回結(jié)果可以用母語顯示。該技術(shù)目前還處于初步研究階段,主要的困難在于語言之間在表達(dá)方式和語義對(duì)應(yīng)上的不確定性。但對(duì)于經(jīng)濟(jì)全球化、互聯(lián)網(wǎng)跨越國界的今天,無疑具有很重要的意義。

4. 移動(dòng)代理技術(shù)

移動(dòng)代理(Mobile Agent) 技術(shù)是一種新型分布式計(jì)算技術(shù),是指網(wǎng)絡(luò)上具有移動(dòng)功能的、能夠自主運(yùn)行的,按照用戶的要求完成指定任務(wù)的程序。在移動(dòng)代理模式下,客戶機(jī)向服務(wù)器提交的不再是一些簡(jiǎn)單的請(qǐng)求,而是包含代碼和數(shù)據(jù)的移動(dòng)對(duì)象,移動(dòng)對(duì)象代表用戶,按照“程序靠近數(shù)據(jù)”的原則,在服務(wù)器間自主的移動(dòng),完成數(shù)據(jù)處理的任務(wù)?;谝苿?dòng)代理的模式之上的應(yīng)用程序可以大大節(jié)省網(wǎng)絡(luò)寬帶,有效克服網(wǎng)絡(luò)延時(shí)帶來的種種問題,可以智能化地自主異步執(zhí)行,它克服了搜索引擎?zhèn)鹘y(tǒng)的“數(shù)據(jù)靠近程序”的運(yùn)行模式,大大降低了網(wǎng)絡(luò)的數(shù)據(jù)流量,節(jié)省了網(wǎng)絡(luò)資源。


發(fā)展前景
隨著信息化社會(huì)的推進(jìn),搜索已成為網(wǎng)絡(luò)生活中組織和控制網(wǎng)絡(luò)信息資源的有效工具,利用搜索引擎加速信息流通及整和有用知識(shí),提高信息利用率,已成為廣大用戶的共識(shí)。我們應(yīng)更好的利用搜索引擎,實(shí)現(xiàn)信息服務(wù)的人性化、高效化,為用戶檢索信息提供更大的便利。

非常好我支持^.^

(208) 99.5%

不好我反對(duì)

(1) 0.5%

( 發(fā)表人:admin )

      發(fā)表評(píng)論

      用戶評(píng)論
      評(píng)價(jià):好評(píng)中評(píng)差評(píng)

      發(fā)表評(píng)論,獲取積分! 請(qǐng)遵守相關(guān)規(guī)定!

      ?