中文字幕一区二区三区熟妇的荡欲,无码中文A∨在线,久久aa毛片免费播放嗯啊

互聯(lián)網最初設計是為了能提供一個通訊網絡，即使一些地點被核武器摧毀也能正常工作。如果大部分的直接通道不通，路由器就會指引通信信息經由中間路由器在網絡中傳播。最大的搜索引擎Google從2002年的10億網頁增加到現(xiàn)在近40億網頁；最近雅虎搜索引擎號稱收錄了45億個網頁；國內的中文搜索引擎百度的中文頁面從兩年前的7 000萬頁增加到了現(xiàn)在的2億多。據估計，當前整個互聯(lián)網的網頁數(shù)達到100多億，而且還在快速增長。用戶要在如此浩瀚的信息海洋里尋找信息，猶如“大海撈針”，往往無功而返。如何從資源的海洋里找到自己需要的內容就成了關鍵問題，搜索引擎的出現(xiàn)和研究，使網絡上的資源變得有序，使用戶能更加方便快捷地找到所需資源。目前被大家廣泛使用的搜索引擎如Google、百度等，其實現(xiàn)技術非常復雜，后臺數(shù)據庫也非常龐大，更新速度也很快。

1 Lucene基本技術原理

Lucene是apache軟件基金會4 jakarta項目組的一個子項目，是一個開放源代碼的全文檢索引擎工具包，即它不是一個完整的全文檢索引擎，而是一個全文檢索引擎的架構，提供了完整的查詢引擎和索引引擎，部分文本分析引擎（英文與德文兩種西方語言）。Lucene的目的是為軟件開發(fā)人員提供一個簡單易用的工具包，以方便的在目標系統(tǒng)中實現(xiàn)全文檢索的功能，或者是以此為基礎建立起完整的全文檢索引擎。

作為一個開放源代碼項目，Lucene從問世之后，引發(fā)了開放源代碼社群的巨大反響，程序員們不僅使用它構建具體的全文檢索應用，而且將之集成到各種系統(tǒng)軟件中去，以及構建Web應用，甚至某些商業(yè)軟件也采用了Lucene作為其內部全文檢索子系統(tǒng)的核心。apache軟件基金會的網站使用了Lucene作為全文檢索的引擎，IBM的開源軟件eclipse[9]的2.1版本中也采用了Lucene作為幫助子系統(tǒng)的全文索引引擎，相應的IBM的商業(yè)軟件Web Sphere[10]中也采用了Lucene。Lucene以其開放源代碼的特性、優(yōu)異的索引結構、良好的系統(tǒng)架構獲得了越來越多的應用。

目前網絡上有許多全文搜索引擎的開源代碼，若想構建自己的全文搜索引擎，可以在這些開源代碼的基礎上進行。Lucene不是一個完整的全文索引應用，可以直接作為查詢工具使用，而只是為全文搜索引擎的構建提供了基本的工具和設計方法。Lucene提供了一系列API，能夠對文檔進行預處理、過濾、分析、索引和檢索排序。本文就是在Lucene基礎上構建了一個全文搜索引擎MYSearch。

2 MYSearch工作流程

2.1 搜索引擎的基本構成

搜索引擎系統(tǒng)一般由蜘蛛（也叫網頁爬行器）、切詞器、索引器、查詢器幾部分組成。蜘蛛負責網頁信息的抓取工作；一般情況下切詞器和索引器一起使用，它們負責將抓取的網頁內容進行切詞處理并自動進行標引，建立索引數(shù)據庫；查詢器根據用戶查詢條件檢索索引數(shù)據庫并對檢索結果進行排序和集合運算，再提取網頁簡單摘要信息反饋給查詢用戶。

2.2 MYSearch工作流程

MYSearch首先使用網絡蜘蛛抓取網絡上的可用網頁鏈接，然后把抓取到的網頁資源下載到本地計算機，對下載到本地計算機的網頁進行初步的處理，去掉對搜索沒有意義的信息和詞匯。然后使用Lucene提供的索引功能，對處理后的信息資源建立索引，并且保存到索引數(shù)據庫中。之后，根據用戶提供的搜索信息，在索引中進行查詢，并將搜索結果顯示到用戶搜索的界面上。其流程框圖如圖1所示。

基于Lucene實現(xiàn)全文搜索引擎MYSearch的構建

3 MYSearch實現(xiàn)

3.1 系統(tǒng)功能模塊的劃分

MYSearch全文搜索系統(tǒng)主要分為網絡蜘蛛抓取、資源初步處理、建立索引、搜索以及顯示等功能模塊。

（1）網絡蜘蛛抓取功能模塊：首先根據事先設定好的網絡入口地址和設置的搜索條件，讀取網頁的內容，分析網頁中其他的鏈接地址，然后垂直鏈接到下一個網頁，這樣一直循環(huán)，直到網站的所有網頁都抓取完成或者滿足了搜索的條件為止。

（2）資源初步處理功能模塊：將搜索來的網頁中的信息進行相關處理，去掉沒有用的格式內容和其他對搜索結果沒有實際意義的信息。

（3）建立索引功能模塊：將處理后的網頁資源寫入數(shù)據庫，并使用倒排索引算法實現(xiàn)網頁資源索引的建立。

（4）搜索功能模塊：根據用戶的搜索關鍵詞，在已建好索引的數(shù)據庫中，根據語素向量的匹配度和相似度進行相關的匹配，然后按照一定的排列順序把搜索結果返回給用戶。

（5）顯示功能模塊：將搜索結果按照一定的顯示方式顯示在頁面中，供用戶選擇和瀏覽。

3.2 MYSearch全文搜索引擎的實現(xiàn)

3.2.1 網絡蜘蛛

網絡蜘蛛是指某個能以人類無法達到的速度不斷重復執(zhí)行某項任務的自動程序[1]。本系統(tǒng)中使用的蜘蛛程序是Nutch，核心是Crawl工具。它可以根據之前設定好的入口URL列表不斷地自動下載頁面，直到滿足系統(tǒng)預設的停止條件。圖2所示是Nutch的工作機制。

基于Lucene實現(xiàn)全文搜索引擎MYSearch的構建

3.2.2 網頁初步處理

網頁剛剛被抓取下來的時候，存在很多格式化的信息（如html的網頁標記），還有很多多余的信息（比如“is，the，an”）。這些信息都是噪音，如果想要使搜索引擎更高效、更準確地運行，就要去除這些信息，留下有效的信息。

對于html標記的處理，首先就是準備一個空字符串，然后判斷網頁的文字中是否存在html的“<>”符號，如果是html“<>”的符號，就繼續(xù)判斷網頁中的下一個字符，如果不是就把該字符保存到這個空字符串中；如果判斷完成，就結束；否則就繼續(xù)判斷。對于多余信息，在Lucene中提供了相關的包進行處理。

通過上面的處理之后，下載的文件在建立索引的時候，就會更加便捷。

3.2.3 索引的建立

在日常的生活中，往往需要快速地從海量頁面信息中定位頁面資源。這樣的需求就需要用索引技術來實現(xiàn)。索引建立的好壞直接影響搜索效果和用戶的體驗感覺，所以索引的建立方法十分重要。Lucene采用倒排索引算法建立索引[2]，主要包括索引類（IndexWriter）、文檔對象類（Document）和信息字段對象類（Field）。索引建立的過程為：

（1）建立索引器IndexWriter；

（2）建立文檔對象Document；

（3）建立信息字段對象Field；

（4）將Field添加到Document；

（5）將Document添加到IndexWriter里面；

（6）關閉索引器IndexWriter。

Lucene將建好的索引信息存儲在“_0.cfs”、“segments.gen”以及“segments_s”文件中。

3.2.4 信息搜索

用戶提交的查詢請求通常是一個詞語或者短語，MYSearch搜索引擎在接受用戶訪問后會進行一系列處理并最終向用戶提交。當用戶輸入關鍵詞搜索后，由搜索程序從索引數(shù)據庫中找到符合該關鍵詞的所有相關文檔。因為所有文檔針對該關鍵詞的相關度早已算好，所以只需按照現(xiàn)成的相關度數(shù)值排序。排序規(guī)則是相關度越高，排名就越靠前。然后，就會把查詢到的信息返回給用戶，并進行顯示?；静樵兞鞒倘鐖D3所示。

基于Lucene實現(xiàn)全文搜索引擎MYSearch的構建

3.2.5 搜索結果顯示

良好的交互設計可以使用戶的操作更加簡便，可以使用戶能夠更快更準確地找到自己想要的信息，同時能夠增加用戶的滿意度。MYSearch全文搜索引擎設計了一個簡捷的搜索界面，用戶在該界面中輸入搜索條件，提交后就可以看到查詢結果。

4 改進

搜索引擎（search engine）是指根據一定的策略、運用特定的計算機程序從互聯(lián)網上搜集信息，在對信息進行組織和處理后，為用戶提供檢索服務，將用戶檢索相關的信息展示給用戶的系統(tǒng)。分詞就是為生成索引提供原材料，如果分詞分得不明確，則生成的索引必然復雜，那些沒有實際意義的分詞被稱為噪音，噪音多了搜索速度必然下降。Lucene其實自身是帶有中文分詞功能的，主要采用“單字切分”和“二分法”，但是由于它沒有做到確定最小索引項，因此無法去除噪音，搜索效率大大降低。IK_Canalyzer中文分析器是第三方實現(xiàn)的分析器，繼承自Lucene的Analyzer類。圖4（a）和圖4（b）分別為采用Lucene與IK_Canalyer分詞的顯示結果，可明顯看出后者優(yōu)于前者。

基于Lucene實現(xiàn)全文搜索引擎MYSearch的構建

全文索引引擎是名副其實的搜索引擎，國外代表有Google，國內知名的百度搜索。它們從互聯(lián)網提取各個網站的信息（以網頁文字為主），建立起數(shù)據庫，并能檢索與用戶查詢條件相匹配的記錄，按一定的排列順序返回結果。

MYSearch是基于Lucene設計實現(xiàn)的一個全文搜索引擎，本文給出了設計過程以及實驗結果，并針對Lucene在中文分詞方面的不足給出了解決辦法。此外目前可以獲得的Lucene開源代碼中并沒有對PDF、Word、Excel等常用的文本格式進行搜索。要想克服上述問題，就要對不同格式的文本進行解析，把解析出來的文字提取出純文本，然后就像建立網頁的索引一樣，對提出來的文字建立索引，以便查詢。這將是進一步需要改進MYSearch全文搜索引擎的工作重點。

根據搜索結果的不同，全文搜索引擎可分為兩類：一類擁有自己的網頁抓取、索引、檢索系統(tǒng)（Indexer），有獨立的“蜘蛛”（Spider）程序、或爬蟲（Crawler）、或“機器人”（Robot）程序（這三種稱法意義相同），能自建網頁數(shù)據庫，搜索結果直接從自身的數(shù)據庫中調用，上面提到的Google和百度就屬于此類；另一類則是租用其他搜索引擎的數(shù)據庫，并按自定的格式排列搜索結果，如Lycos搜索引擎。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

路由器

路由器

+關注

關注
22

文章
3693

瀏覽量
113427
引擎

引擎

+關注

關注
1

文章
358

瀏覽量
22513
代碼

代碼

+關注

關注
30

文章
4722

瀏覽量
68236

[分享]最強山寨版搜索引擎震驚世界-熊熊搜索

日前，一款名為“熊熊搜索”（Bearsou.com）的搜索引擎引起了不少網友的關注，這個搜索引擎一眼看去和普通搜索引擎區(qū)別不大，但仔細一看，這款搜索

發(fā)表于 11-22 18:58

參加搜索引擎營銷SEM培訓的好處？

1. 可以快速學習搜索引擎營銷(SEM)投放策略、方法和技術，避免在自己摸索中浪費時間；2. 可以快速學習到搜索引擎營銷(SEM)最新優(yōu)化技術，在頂尖SEM優(yōu)化公司指導下實實在在賺錢；3. 可以通過

發(fā)表于 04-11 14:21

基于網格技術的并行搜索引擎

研究現(xiàn)有網格技術和搜索技術，分析并行搜索引擎的優(yōu)點和不足，提出基于網格技術的并行搜索引擎解決方案，其中包含一個3 層結構的應用框架和一個并行搜索引擎的應用方案。

發(fā)表于 03-30 10:09 ?23次下載

維、哈、柯全文搜索引擎檢索器的關鍵技術

研究維、哈、柯全文搜索引擎檢索器的關鍵問題，提出有效的解決方法，包括在用戶計算機沒有安裝本地輸入法和字庫的情況下輸入維、哈、柯文檢索詞并正常顯示搜索結果，針對

發(fā)表于 04-11 09:26 ?14次下載

基于壓縮后綴數(shù)組技術的搜索引擎

目前，搜索引擎的核心模塊(索引器)均采用倒排文件結構，對短語查詢的準確率較低。該文引入后綴數(shù)組技術進行全文索引，為克服全文索引時占用空間大的缺點，研究了壓縮后綴數(shù)

發(fā)表于 04-22 09:57 ?25次下載

教育網BBS搜索引擎設計與實現(xiàn)

BBS 是教育網的一大特色，也是傳統(tǒng)搜索引擎搜索的盲點，本文系統(tǒng)介紹了根據教育網BBS 的特點建立BBS 搜索引擎的關鍵技術和實現(xiàn)方法。關鍵詞：搜索

發(fā)表于 06-17 11:28 ?14次下載

化工搜索引擎索引庫的研究和實現(xiàn)

本文在對Lucene 全文檢索、索引開發(fā)包深入研究的基礎上，設計了多索引器索引方案，有效地減少了索引

發(fā)表于 12-18 16:27 ?13次下載

開放源代碼的全文檢索引擎 Lucene

開放源代碼的全文檢索引擎 Lucene――介紹、系統(tǒng)結構與源碼實現(xiàn)分析第一節(jié) 全文檢索系統(tǒng)與

發(fā)表于 02-10 15:09 ?5次下載

主題搜索引擎的研究

介紹了將開源的全文檢索工具包Lucene嵌入到自己的搜索引擎中來滿足開發(fā)主題搜索引擎的需求。并基于Lucene中文分詞的不足設計了一個比較完

發(fā)表于 07-05 16:30 ?11次下載

網絡搜索引擎,網絡搜索引擎的工作原理

網絡搜索引擎,網絡搜索引擎的工作原理 21 世紀是信息時代,隨著信息科學技術的不斷發(fā)展,網絡已成為人們生活中的重要組成部分,網上

發(fā)表于 03-26 15:51 ?1439次閱讀

基于JAVA技術的搜索引擎的研究與實現(xiàn)

本文還利用Java技術對搜索引擎的三個核心部分即網絡蜘蛛、網頁索引、搜索進行了實現(xiàn)。索引和搜索部

發(fā)表于 05-07 14:14 ?35次下載

垂直搜索引擎是什么_垂直搜索引擎有哪些

垂直搜索引擎是針對某一個行業(yè)的專業(yè)搜索引擎，是搜索引擎的細分和延伸，是對網頁庫中的某類專門的信息進行一次整合，定向分字段抽取出需要的數(shù)據進行處理后再以某種形式返回給用戶。垂直搜索是相對

發(fā)表于 01-04 17:19 ?7884次閱讀

介紹五個具有高級功能的搜索引擎

數(shù)據庫里存儲的大量的信息對標準的搜索引擎來說是不可見的，標準的搜索引擎只是索引網站上的內容，從一個鏈接到另一個鏈接。隱匿搜索引擎專門用來搜索

發(fā)表于 04-04 09:13 ?7066次閱讀

蘋果自研的搜索引擎干的過谷歌嗎？

據TNW報道，蘋果正在加快研發(fā)自己的搜索引擎，以取代谷歌。推出自己的搜索引擎，將有利于蘋果的產品服務的推廣，同時削弱谷歌在搜索領域的壟斷地位。

發(fā)表于 12-22 14:54 ?1914次閱讀

NAS下搭建linux命令搜索引擎教程

前面寫到了程序專用的vscode，今天再來介紹一款程序佬專用的搜索引擎——Linux命令搜索引擎。該引擎專用于搜索Linux下的各種命令，畢竟人的記憶力是有限的，當你記不住某一個命令的

發(fā)表于 02-24 11:33 ?1069次閱讀

搜索歷史

基于Lucene實現(xiàn)全文搜索引擎MYSearch的構建

評論

[分享]最強山寨版搜索引擎震驚世界-熊熊搜索

參加搜索引擎營銷SEM培訓的好處？

基于網格技術的并行搜索引擎

維、哈、柯全文搜索引擎檢索器的關鍵技術

基于壓縮后綴數(shù)組技術的搜索引擎

教育網BBS搜索引擎設計與實現(xiàn)

化工搜索引擎索引庫的研究和實現(xiàn)

開放源代碼的全文檢索引擎 Lucene

主題搜索引擎的研究

網絡搜索引擎,網絡搜索引擎的工作原理

基于JAVA技術的搜索引擎的研究與實現(xiàn)

垂直搜索引擎是什么_垂直搜索引擎有哪些

介紹五個具有高級功能的搜索引擎

蘋果自研的搜索引擎干的過谷歌嗎？

NAS下搭建linux命令搜索引擎教程