當前位置:學問君>學習教育>畢業論文>

談網絡環境下搜尋引擎的使用

學問君 人氣:3.12W

建立索引數據庫由分析索引系統程序對收集回來的網頁進行分析,怎樣淺談網絡環境下搜尋引擎的使用?

談網絡環境下搜尋引擎的使用

摘要 隨着網絡資訊時代的到來,資訊檢索處於一個互聯的網絡系統之中,用戶、資訊檢索技術、資訊資源構成資訊檢索三個基本要素。主要透過intemet搜尋引擎來介紹信息檢索技術。

關鍵詞 網絡 資訊檢索 搜尋引擎

一、前言

隨着internet的迅速發展,網上資訊正以爆炸性的速度增長,其資源內容幾乎涉及所有領域,已經成爲知識、資訊的集合體,是人們獲取資訊的基本工具。在internet網上進行瀏覽和檢索,就好比進入了世界上最大的圖書館,而這個圖書館裏的書刊、雜誌、廣告、新聞及各種形式的文獻資訊全都沒有規律地排放着,沒有一箇中心目錄將這些資訊組織起來。正是因爲internet資源既豐富又分散且處於無序狀態,使得人們在網上查找自己所需的資訊並非易事。這時爲滿足人衆資訊檢索的需求,搜尋引擎便應運而生。搜尋引擎是指使用某些自動索引軟件來發現、收集網絡上的資訊,然後對收集的網頁進行標引,建立一個可供查詢的大型數據庫。

intemet提供了多種不同的檢索工具,它們各自有各自的數據庫、語言、檢索功能和顯示方式,對用戶來說,最重要的就是熟悉這些工具的性能,掌握檢索技巧,提高檢索的命中率。

二、搜尋引擎的工作原理

搜尋引擎的工作原理可以簡單概括爲:從互聯網上抓取網頁→建立索引數據庫→在索引數據庫中搜尋排序。

從互聯網上抓取網頁利用能夠從互聯網上自動收集網頁的spider (又名爲:robot, crawler,worms,wanders)系統程序,自動訪問互聯網,並沿着任何網頁中的所有url爬到其它網頁,重複這過程,並把爬過的所有網頁收集回來。

建立索引數據庫由分析索引系統程序對收集回來的網頁進行分析,提取相關網頁資訊(包括網頁所在url、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的連結關係等),根據一定的相關度算法進行大量複雜計算,得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度(或重要性),然後用這些相關資訊建立網頁索引數據庫。

在索引數據庫中搜尋排序當用戶輸入關鍵詞搜尋後,由搜尋系統程序從網頁索引數據庫中找到符合該關鍵詞的所有相關網頁。因爲所有相關網頁針對該關鍵詞的.相關度早已算好,所以只需按照現成的相關度數值排序,相關度越高,排名越靠前。最後由頁面生成系統將搜尋結果的連結地址和頁面內容摘要等內容組織起來返回給用戶。說到這裏,網絡搜尋引擎的基本工作原理基本上讓大家瞭解了。

三、檢索技巧

(一) 科學選擇關鍵詞。由於搜尋引擎智能化程度的影響,它只能在現存的數據庫中查找匹配的關鍵詞,因此,這種匹配相對比較盲目,我們在選擇關鍵詞時,要注意兩方面的問題,纔有可能得到較好的搜尋效果。