當前位置:學問君>學習教育>畢業論文>

CPM搜尋引擎的設計與實現

學問君 人氣:9.49K
畢業論文

目錄
摘要 2
前 言 4
1 概述 5
1.1 搜尋引擎的概念 5
1.2 1些著名的搜尋引擎 6
1.2.1 Google 6
1.2.2 百度 7
1.2.3 天網 7
1.3 典型WEB搜尋引擎工作原理 7
1.4 CPM搜尋引擎工作原理 9
2  CPM搜尋總體設計 10
2.1基本要求 10
2.2 體系結構規劃分析 11
2.3 各模組設計策略分析 11
2.3.1 網頁蒐集 11
2.3.2 預處理 13
2.3.3 查詢服務 14
2.4 體系結構 16
3 網頁蒐集模組的設計與實現 18
3.1 超文字傳輸協議 18
3.2 網絡蜘蛛原理 19
3.3 網絡蜘蛛的類結構 20
3.4 CSPIDERTHREAD類 21
3.5 網絡蜘蛛爬取策略 26
3.6 控制對1個站點併發搜尋線程的數目 26
3.7 數據庫設計 26
4 預處理模組的設計與實現 28
4.1 分析網頁 28
4.1.1 分析網頁內容 28
4.1.2 獲取網頁所有連結URL 29
4.3 網頁重複蒐集的避免 30
4.4 網頁重要程度確定 31
4.5 中文分詞 31
4.5.1 算法介紹 31
4.5.2 正向減字最大匹配法 33
4.5.3 分詞系統實現 35
5 查詢服務模組設計與實現 40
5.1 查詢服務系統結構 40
5.2 查詢結果顯示 41
5.3 用戶介面 41
5.4 針對查詢服務對分詞系統的改進 43
6 結束語 44
致謝 46
參 考 文 獻 47
附錄 48
1 網絡蜘蛛程序與數據庫接口實現 48
2 分詞系統對文章處理的函數實現 49

CPM搜尋引擎的設計與實現

 
CPM搜尋引擎的設計與實現

摘要:本文論述了1個小型搜尋引擎(CPM搜尋)系統的設計原理、設計思想及具體的實現過程,對在設計過程中涉及到的.關鍵算法作了具體分析和介紹,並對各個模組的架構以及設計思想和設計過程作了詳細闡述。該系統主要包括3個模組:網頁蒐集、預處理和查詢服務。網頁蒐集和預處理模組採用VC++開發 ,實現了搶先式多線程網絡蜘蛛程序和中文分詞系統。查詢服務模組實現了基於ASP的Web服務系統。
CPM搜尋是個人畢業設計做的1個小型搜尋引擎系統,設計的目的就是讓它足夠小,但是又讓它具備完整的搜尋服務功能。便於任何1個對搜尋引擎感興趣的人可以利用自己有限的硬件資源(如自己的臺式機)搭建,實現小型搜尋服務,如校園搜尋。

關鍵字:網絡蜘蛛;中文分詞;網頁重要程度;網頁索引詞;動態庫
 
 
The Design And Realization of CPM Search Engine

Abstract: There is a small search engine (CPM search) system design principles, design concepts and concrete realization process in the discourse. in the design process involves a specific analysis of the key algorithms and introduction, and the structure and design of the various modules of ideas and made a detailed design process. The system consists of three main modules : web collection, pretreatment and query services. Collection and pretreatment module used VC++ development, achieving pre-empt a number of systems network spider procedures and Chinese participle system. Query service module based on the ASP achievement of the Web system.
CPM is a small search engine search which i designed in my graduate-design time. The aim of design it is enough small, but it has also integrated search service functions. A search engine for any interested person may make use of its limited hardware resources (such as their desktop) structures, and achieve small search services, such as campus search.

KeyWords:Network spiders;the Chinese participle;the degree of importance of the website;dynamic link libraries

包括:畢業論文 任務書 沒有原始碼