站內搜尋引擎的設計ASP+ACCESS

學問君人氣：1.98W

站內搜尋引擎的設計

摘要：本文介紹了搜尋引擎的發展，並對搜尋引擎的工作原理及其相關技術作了少許分析與討論。用少許篇幅介紹了搜尋引擎數據庫的相關知識，着重講述站內搜尋的設計。講述了站內搜尋引擎的需求和站內搜尋引擎領域的關鍵技術與具體實現方法，及其該具備的基本功能和特點，描述了站內搜尋引擎的具體設計流程與實現過程，對關鍵功能做出了進1步的解釋，並對智能化匹配與返回用戶搜尋時間兩主要功能進行了詳細的解釋，並進行了測試。總之站內搜尋引擎是充分利用網站資源、迅速提供有效資訊的最佳工具，是查尋網站內部資訊的密鑰。

關鍵詞：搜尋引擎；ASP；資訊檢索

Design Of Search Engine Station

Abstract: This text introduced to search the development of engine, and made few analysis and discussion to the work principle which searches engine and its related oduced with the few space related search the knowledge of engine database, the design emphasized to relate to search inside ted to search and search the key technique of engine realm and concretely carry out a method inside need and station of engine inside station, and it should have of basic function and characteristics, describe station inside search engine of concrete design process and carry out process, do to the key function further of explain, and turn and match and return to customer and search time two main functions and carry on to the intelligence detailed of explain, and carry on a fine search engine inside station is the best tool which makes use of a website resources well and provides a valid information quickly, is the airtight key which checks to look for the website internal information.
Keywords: Search engine; ASP; Information index
目錄
前言 1
1 相關知識 3
1.1 ASP簡介 3
1.1.1 ASP訪問數據庫的原理 3
1.1.2 ASP頁面的結構 3
1.1.3 ASP的執行環境 3
1.1.4 ASP的內建對象 4
1.1.5 ASP的主要內置組件 4
1.1.6 Database Access組件ADO 4
1.2 ASP訪問數據庫步驟 5
1.3 Dreamweaver MX 概述 5
1.4 IIS簡介 6
1.5 SQL SERVER 6
1.5.1 SQL SERVER 2000簡介 6
1.5.2 SQL Server系統 6
1.5.3 主從式系統 7
1.5.4 兩層式架構 7
2 需求分析 9
2.1 搜尋引擎的功能 9
2.2 搜尋引擎的需求 10
2.2.1數據量 10
2.2.2 內容相關性 10
2.2.3 安全性 10
2.2.4 個性化和智能化 10
3 數據庫的設計 11
3.1 數據庫設計的特點 11
3.2 數據庫設計方法簡述 11
3.3 數據庫設計的基本步驟 12
3.4 數據庫各級模式的形成過 13
3.5 數據庫設計技巧 13
3.5.1 計數據庫之前 13
3.5.2 表和字段的設計 13
3.6 鍵和索引 15
3.7 數據完整性設計 16
3.8 其他設計技巧 16
3.9 數據庫 17
3.10 數據庫訪問技術 18
4 總體設計 19
4.1 搜尋引擎的系統架構 19
4.2 搜尋結果進行處理排序 21
4.3 搜尋的處理過程 22
4.4 中文分詞系統 24
4.5 資源索引標註系統結構 24
5 詳細設計與測試 26
5.1 功能模組詳細設計 26
5.1.1 ODBC數據源的建立 26
5.1.2 SQL數據庫的建立 27
5.1.3 引索數據庫的連接 29
5.1.4 站內搜尋引擎介面的設計與功能的實現 30
5.1.5 實現智能化關鍵字匹配 31
5.1.6 返回用戶搜尋所用時間 33
5.2 測試 35
6 結束語 37
參考文獻 38
致謝 39

前言
在互聯網發展初期，網站相對較少，資訊查找比較容易。然而伴隨互聯網爆炸性的發展，普通網絡用戶想找到所需的資料簡直如同大海撈針，這時爲滿足大衆資訊檢索需求的專業搜尋網站便應運而生了。
現代意義上的搜尋引擎的祖先，是1990年由蒙特利爾大學學生Alan Emtage發明的Archie。雖然當時World Wide Web還未出現，但網絡中檔案傳輸還是相當頻繁的，而且由於大量的檔案散佈在各個分散的FTP主機中，查詢起來非常不便，因此Alan Emtage想到了開發1個可以以檔案名查找檔案的系統，於是便有了Archie。
Archie工作原理與現在的搜尋引擎已經很接近，它依靠腳本程序自動搜尋網上的檔案，然後對有關資訊進行索引，供使用者以1定的表達式查詢。由於Archie深受用戶歡迎，受其啓發，美國內華達System Computing Services大學於1993年開發了另1個與之非常相似的搜尋工具，不過此時的搜尋工具除了索引檔案外，已能檢索網頁。
當時，“機器人”在編程者中10分流行。電腦“機器人”（Computer Robot）是指某個能以人類無法達到的速度不間斷地執行某項任務的軟件程序。由於專門用於檢索資訊的“機器人”程序象蜘蛛1樣在網絡間爬來爬去，因此，搜尋引擎的“機器人”程序就被稱爲“蜘蛛”程序。
世界上第1個用於監測互聯網發展規模的“機器人”程序是Matthew Gray開發的World wide Web Wanderer。剛開始它只用來統計互聯網上的服務器數量，後來則發展爲能夠檢索網站域名。
與Wanderer相對應，Martin Koster於1993年10月創建了ALIWEB，它是Archie的HTTP版本。ALIWEB不使用“機器人”程序，而是靠網站主動提交資訊來建立自己的連結索引，類似於現在的`Yahoo。
隨着互聯網的迅速發展，使得檢索所有新出現的網頁變得越來越困難，因此，在Matthew Gray的Wanderer基礎上，1些編程者將傳統的“蜘蛛”程序工作原理作了些改進。其設想是，既然所有網頁都可能有連向其他網站的連結，那麼從跟蹤1個網站的連結開始，就有可能檢索整個互聯網。到1993年底，1些基於此原理的搜尋引擎開始紛紛涌現，其中以JumpStation、The World Wide Web Worm（Goto的前身，也就是今天Overture），和Repository-Based Software Engineering（RBSE）spider最負盛名。[1]
然而JumpStation和WWW Worm只是以搜尋工具在數據庫中找到匹配資訊的先後次序排列搜尋結果，因此毫無資訊關聯度可言。而RBSE是第1個在搜尋結果排列中引入關鍵字串匹配程度概念的引擎。
最早現代意義上的搜尋引擎出現於1994年7月。當時Michael Mauldin將John Leavitt的蜘蛛程序接入到其索引程序中，創建了大家現在熟知的Lycos。同年4月，斯坦福（Stanford）大學的兩名博士生，David Filo和美籍華人楊致遠（Gerry Yang）共同創辦了超級目錄索引Yahoo，併成功地使搜尋引擎的概念深入人心。從此搜尋引擎進入了高速發展時期。目前，互聯網上有名有姓的搜尋引擎已達數百家，其檢索的資訊量也與從前不可同日而語。比如最近風頭正勁的Google，其數據庫中存放的網頁已達30億之巨！還有百度其存放的網頁也有6億多。
隨着互聯網規模的急劇膨脹，1家搜尋引擎光靠自己單打獨鬥已無法適應目前的市場狀況，因此現在搜尋引擎之間開始出現了分工協作，並有了專業的搜尋引擎技術和搜尋數據庫服務提供商。象國外的Inktomi（已被Yahoo收購），它本身並不是直接面向用戶的搜尋引擎，但向包括Overture（原GoTo，已被Yahoo收購）、LookSmart、MSN、HotBot等在內的其他搜尋引擎提供全文網頁搜尋服務。國內的百度也屬於這1類，搜狐和新浪用的就是它的技術。因此從這個意義上說，它們是搜尋引擎的搜尋引擎。[2]
現在1提到搜尋引擎，人們往往想到的是Google、百度、雅虎、搜狐等。那麼究竟什麼是搜尋引擎呢？“搜尋引擎”實際上是爲人們提供在internet網上利用關鍵詞來進行全文檢索的1種網頁檢索工具。

TAGS：搜尋引擎

最熱推薦

猜你喜歡

最近更新

更多推薦