搜尋引擎中的網絡蜘蛛技術探析

學問君人氣：1.96W

摘要：搜尋引擎技術可以從海量的網絡資訊中獲得我們想要的資訊，隨着網絡資訊資源的急劇增長其作用越來越顯著。本文介紹了搜尋引擎技術中的網路蜘蛛，分析了其對檔案的處理方法，研究了其搜尋與更新策略。
　　關鍵詞：搜尋引擎；網路蜘蛛；更新策略
　　
　　一　網絡蜘蛛工作原理
　　
　　網絡蜘蛛，即搜尋引擎機器人程序。將整個互聯網想象成一張很大的蜘蛛網，而搜尋引擎機器人程序透過連結來抓取資訊的過程就像是蜘蛛在這張網上爬來爬去一樣。網絡蜘蛛是透過連結地址來尋找網頁的。它由一個啓始連結開始抓取網頁內容，同時也採集網頁上的連結，並將這些連結作爲它下一步抓取的連結地址，如此循環，直到達到某個停止條件後纔會停止。停止條件的設定通常是以時間或是數量爲依據，有時也會以連結的層數來限制網絡蜘蛛的執行。
　　
　　二　網路蜘蛛與網站的交互問題
　　
　　網絡蜘蛛訪問一個網站，通常會去尋找一個特殊的文字檔案，這個檔案如果存在的話通常會放在網站的根目錄下。它是專門用來同網絡蜘蛛交互用的專用檔案。它會將網站管理者的意思傳遞給訪問它的網絡蜘蛛，告訴網站同意或是禁止某些或是所有蜘蛛訪問網站的某個特定的網頁或者目錄。它的結構和語法都比較簡單，一般網絡蜘蛛都可以很容易的理解網站的意思。正規的搜尋引擎透過讀取這個檔案可以很方便的理解網站的意思並按照網站管理者的意思來進行友好的訪問。但是這個僅僅只是網絡的一個約定協議而以，並沒有對其制定相應的強迫手段，更沒有提出相應的懲罰，所以這個約定對於遵守者是有效的，但對於那些不懂生規矩的蜘蛛是一點作用都沒有。
　　在網頁中的Meta字段同樣也可以放入和上面檔案相同效用的內容，它可以告訴網絡蜘蛛這個網頁對於網站管理者來說，是需要被收錄還是僅僅被瀏覽或是根本就不允許蜘蛛訪問。這個字段通常會放在文檔的頭部，透過讀取這個字段，蜘蛛可以在沒有讀取到全部文檔的情況下就瞭解文檔的相關資訊，可以避免將無效的網頁取下來後又將其廢棄而造成無謂的浪費。同樣這個規則也是沒有特殊限制的，遵守程度完全靠網絡蜘蛛的自覺性和網站的設計方式來決定。爲了讓網站被搜尋引擎搜尋到，尤其是那些網站所有者希望網絡蜘蛛採集的網頁，網站的設計者通常會在網站中放入一個叫做的網頁，並將它作爲網站的入口檔案。
　　
　　三　網絡蜘蛛對於檔案的處理
　　
　　(一)二進制檔案處理
　　網絡上除了有大量的HTML檔案和XML檔案外，也有大量的二進制檔案。爲了使網頁的內容更加豐富，圖片和多媒體檔案被網頁大量的引用。它們在網頁上也是以超連結的形式出現的，因而在連結提取的階段它們也是會被放在待訪問隊列中。對於二進制檔案透過檔案的內容來完成檔案的索引是不現實的，現在的技術還沒有達到可以透過二進制檔案來理解檔案內容的地步。因而對於這些檔案的處理一般是採用單獨處理的方式，其內容的理解完全需要依靠二進制檔案的錨點描述來完成。錨點描述通常代表了檔案的標題或是基本內容。錨點資訊一般是由引用網頁來提供，而不是放在二進制檔案本身。二進制檔案由於種類的差別問題，也需要分別來進行處理。
　　
　　(二)腳本檔案的處理

TAGS：搜尋引擎技術蜘蛛探析

最熱推薦

猜你喜歡

最近更新

更多推薦