當前位置:學問君>學習教育>畢業論文>

數據挖掘技術在Web資訊檢索中的應用研究論文

學問君 人氣:9.38K

 [摘要]將數據挖掘技術應用到Web資訊檢索中,可以使網絡資訊檢索更加準確化和智能化。介紹了Web數據挖掘的概念,分析了Web數據挖掘在Web資訊檢索中的應用,最後對Web資訊檢索未來發展進行了展望。

數據挖掘技術在Web資訊檢索中的應用研究論文

 [關鍵詞]數據挖掘;Web資訊檢索;搜尋引擎

[中圖分類號]P209[文獻標誌碼]A[文章編號]2096-0603(2017)29-0033-01

Web現已成爲一個巨大的知識庫、資訊庫,Web資訊檢索透過搜尋引擎返回給用戶成千上萬個檢索到的網頁,但是滿足用戶檢索要求的網頁卻鳳毛麟角,用戶無法在第一時間得到滿足要求的有價值資訊。因此,Web資訊檢索的精度不能爲客戶提供準而精的檢索資訊,需要檢索精度更高的數據挖掘技術。

所謂數據挖掘(DataMining)就是從海量的原始數據中提取資訊和知識的過程,這些資訊和知識隱含在原始數據中,事先未知,但是對用戶來說是很有用的。

一般的數據挖掘對象是結構化數據,而Web數據挖掘的對象是非結構化數據,在現有數據挖掘研究成果的基礎上,運用Web數據挖掘技術,可以提高資訊檢索的精準率和有效率,Web資訊檢索將會達到向一個新的高度。

一、Web數據挖掘技術概述

Web數據挖掘是一項綜合技術,是從WWW資源上抽取資訊(或知識)的過程,是對Web資源中蘊涵的未知的有潛在應用價值的模式的提取[1]。按挖掘對象來分類,基於Web的數據挖掘分爲3大類:基於Web內容的挖掘(WebContentMining)、基於WEB結構的挖掘(WebStructureMining)、基於WEB使用的挖掘(WebUsageMining)。

(一)基於Web內容的挖掘

基於Web內容的挖掘,是在Web文檔以及相應的Web文檔描述中獲取知識。目前,WWW資訊資源是網絡資訊資源的主要組成部分,用戶直接從網上抓取這些資源,併爲之建立索引,從而實現查詢服務,而那些被隱藏起來的數據,用戶無法進行有效的檢索,這就迫使我們把這些被隱藏的內容(比如數據庫系統中的數據,由用戶的提問而動態生成的結果等)挖掘出來。此外,Web的資訊內容是由文字、音頻、視頻、圖片等非結構化的數據,因此基於Web內容的挖掘也是一種針對多媒體數據的挖掘[2]。

(二)基於Web結構的挖掘

基於Web結構的挖掘,主要挖掘Web潛在的連結結構模式,是從網頁上的相互連結和萬維網的整體結構中發現知識的過程。這種模式主要採用網頁歸類技術,在衆多的網頁中獲得不同網頁間的資訊,比如相似度及關聯度。Web結構挖掘主要是幫助用戶找到所需要資訊的權威站點,同時也會對Web資訊檢索結果的排序產生影響。

(三)基於Web使用的挖掘

基於Web使用的挖掘,也可以稱之爲WebLogMining,Web日誌挖掘,用戶在進行網絡訪問後,會留下一些重要的第二手數據,它們是Web使用挖掘的主要對象,從而分析用戶的網絡行爲提供依據。

二、Web數據挖掘在Web資訊檢索中的應用

(一)對Web資訊源進行挖掘,形成資訊源知識庫

對Web資訊源內容的挖掘,主要是針對中多媒體數據等Web資訊源的內容的特徵進行挖掘,統計方法、機器學習、神經網絡、人工智能是最常使用的方法,透過抽取、分類、聚類網頁內容的特徵,形成資訊源知識庫。

對Web資訊源結構的挖掘,主要透過相關算法對Web頁面的超連結關係、URL地址結構的進行挖掘,在Web的組織結構和連結關係中發現知識。

(二)對Web結構進行挖掘,形成權威網頁

搜尋引擎的作用主要有兩個,一是搜尋與主題相關的內容,二是篩選高水平的相關網頁,就是我們所說的權威網頁。第二個作用尤其重要,因爲用戶更希望他們最需要的`資訊能在最短的時間內呈現在他們面前,而不是浪費大量的精力和時間從大量的檢索結果中找尋最需要的資訊,採用Web結構挖掘的一些經典算法就能很好地識別出權威網頁。

(三)對用戶的訪問模式進行分析,爲用戶提供更加人性化的服務

用戶在進行資訊檢索時,會在網站上留下許多資訊,比如檢索的時間、檢索詞以及瀏覽了哪些檢索結果等。基於Web使用的挖掘可以對其進行分析,採用各種算法對這些日誌展開挖掘,從而延伸出更有價值的內容,形成用戶知識模型,並對用戶潛在相同的檢索行爲模式進行歸納總結,對這些模式進行系統的研究,對搜尋引擎的檢索效果進行反饋,從而改進搜尋引擎,讓檢索結果更加智能化,使單個用戶感覺使用Web資訊檢索更高效。

總之,隨着互聯網的發展,數據挖掘的一個主要應用領域就是Web數據挖掘,與Web資訊檢索有着密切的關係,但是又比Web資訊檢索有着更高的技術層次,可以使基於Web的資訊檢索發展到一個更高的水平。

參考文獻:

[1]韓家煒,孟小峯,王靜,等挖掘研究[J].計算機研究與發展,2001,38(4):405-414.

[2]塗承勝,魯明羽,陸玉昌內容挖掘技術研究[J].計算機應用研究,2003,20(11):5-9.