科技論文發表基於Web數據挖掘技術的研究論文

學問君人氣：1.32W

互聯網的不斷得到發展，網頁中數據量迅速增加，如何從這麼多的網頁資訊中獲取有用的數據已經成功數據挖掘領域的一個熱門的研究方向，數據挖掘是近幾年來迅速發展的進行資訊獲取的一個重要渠道，尤其大量運用與社會和科學的方方面面。一般來說數據挖掘主要利用計算機和相關的資訊技術，把有用的數據從海量的網頁數據中挖掘出來，爲我們從事其他方面的運用。基於網頁的數據挖掘是一門技術的綜合研究方向，它的思想是從Internet中提取網頁中的大量數據，也就是從網頁的數據結構中發現隱含的模式[1]。

1 數據挖掘的特點

1）數據挖掘的特點之一就是半結構化，這個特別算是網頁數據挖掘的最大特點[2]，因爲網頁上的數據分佈沒有規律，非常複雜，沒有任何固定的模式能夠很好的描述它的特點。因此稱它爲半結構化。

2）數據挖掘的特點之二是網頁中的數據比較分散，這些網頁數據存在世界各地的很多服務器上，因此是一種數據源分散的結構。

3）數據挖掘的特點之三是數據庫的'結構存在不同，因爲互聯網上的一個網站可以存爲一個數據源，它們的結構互不相關，異構性特點比較強，由它們構成的數據庫自然而然也屬於一種異構的形式。

4）數據挖掘的特點之四是動態性強，網站上的數據資源是不斷更新變化的，找不到固定的形式，網站與網站的直接訪問的連結是形式變化的。

2 數據挖掘過程

基於Web的數據挖掘與傳統的數據倉庫相比，網頁上的資訊是半結構化的或非結構化、不容易識別、變化的，正因爲它這些特點，要想在網頁上開展直接數據挖掘，可謂很費功夫，就要藉助一些方法來預處理數據，才能方便挖掘。通常進行網頁數據挖掘可分爲的如圖1所示的四個步奏。

1）數據源的獲取，在網站的各個頁面中獲取數據資訊，組成目標數據資訊源，再從這些資訊源中找到相關有用的數據。這個過程的目的就是從像網頁文檔、email、網頁記錄、新聞資訊、各種網站數據庫中挖掘出有用的數據。

2）把獲取的數據進行加工處理，網頁數據挖掘的好壞直接與數據源的好壞相關，如果獲取的數據源有大量的垃圾數據，對數據挖掘過程有很大的影響，因此挖掘之前需要對數據源進行篩選，消除那些雜音數據，保證數據源的純正，然後將這些已經過濾的數據再次裝入數據庫中進行下一步的分析。

3）對數據經過提純處理後，進入模式尋找階段，這需要各種挖掘算法分析、挖掘大量的、隱藏的、潛在的、可被利用的數據模式。在挖掘的過程中，經常會使用到一些相關的方法，例如聚類分析法、關聯規則發等挖掘方法。

4）在對數據模式發現後，需要對這些模式進行挖掘，也就是知識的轉換過程，把提取到的模式再進行資訊轉化，轉化爲我們能夠理解，識別的知識，爲我們的決策需要提供有用的參考源。

3 數據挖掘分類

在進行數據挖掘的時候，針對不同的數據結構，會採用不同的挖掘方法，這樣纔能有效、合理挖掘到有用的數據，不能籠統採用一種方法，這樣挖掘的數據相應的雜音數據就比較多。大體上，我們把數據挖掘分爲三種類型，即：網頁使用挖掘、網頁結構挖掘、網頁內容挖 [3]，如圖2所示。

4 數據挖掘相關技術

互聯網的發展促進網頁數據挖掘得到越來越多的應用，於是針對網頁挖掘的各種方法和技術不斷出現，就這些相關的技術[4]，下面分別一一介紹。

4.1 網頁內容挖掘

4.1.1 網頁文檔挖掘

網頁文檔挖掘就是分析網站上存在的數量很多的網頁文檔採用聚類、分類、關聯處理等多種方法進行分析，然後根據網頁文檔進行預測。在Internet的文檔數據一般都是以html格式的網頁文檔出現，要採集這些網頁文檔數據，然後把這些文檔數據變成記錄的形式存貯進數據庫，把這些記錄用來表示文檔內容特徵，爲後續的分析提供保障。表示文檔的特徵形式通常使用文檔特徵向量形式，由於文檔的特徵表示中存在一些缺陷，文檔的特徵向量的維數非常高，對數據分析不利，因此一個好特徵表示主要集中在特徵集的選取方面，特徵集需求好，對數據進行分析的時間就相對少，如果選取不好，將要花很長時間去等待。因此特徵集選取好壞成爲數據分析額關鍵。一旦特徵集選擇好後，就可以採用聚類、分類、數據關聯等方法來進行提取資訊，然後對這些提取的資訊進行評價分析，找到有用的資訊，爲後續的決策工作提供指導。

4.1.2 挖掘網頁多媒體

在進行網頁多媒體挖掘主要關注的是特徵提取，這點網頁內容挖掘不一樣。在網頁多媒體挖掘中提取的多媒體特徵主要關注視頻或者圖片的顏色特徵、鍵值、形式以及它們的URL，最後根據這些特徵進行數據挖掘。

4.2挖掘網頁結構

挖掘網站空間中的知識，不僅關注包含在各個網頁內容中的資訊數據，同時也關注網站與網站之間的網頁結構和超級連結結構，這也是非常重要的。進行網頁結構挖掘主要分析網頁結構之間的特徵，利用聚類和分類來分析頁面結構特徵，找到特徵模式。

4.3 網頁使用挖掘

網頁使用挖掘也是挖掘網頁記錄，實際就是挖掘用戶在網頁上留下的相關的記錄資訊，網頁使用挖掘就是分析用戶留言記錄的相關資訊，透過這些資訊時報未來需要發展的用戶；網頁使用挖掘通常使用擴展有向樹模型分析用戶的各種瀏覽行爲習慣，挖掘出用戶的日誌資訊，以及用戶關心、關注的興趣領域，把這些資訊存放在知識庫中，未下一步的分析工作提供數據，對網頁使用日誌挖掘可分爲三個步驟：日誌預分析、分析方法處理、模式分析階段。在網頁使用分析中，關注網頁服務器記錄的相關資訊，這些資訊主要包括用戶訪問的時間、URL、IP、使用方法、代理、返回結構、傳輸數據等相關資訊雖然資訊比較多，但是還存在無用的數據，需要進行提純處理。一旦數據處理後，就能採用關聯分析、如路徑分析等模式發現技術來分析日誌，獲取有用的資訊。

5 結束語

本文介紹了網頁數據挖掘的相關概念、挖掘過程、分類方法以及相關技術。在Internet發展的今天，網頁數據挖掘的研究方面更加寬，人們不斷關注如何對這些網頁數據的處理。網頁數據挖掘在各個方面，特別在結合語言問題、查詢半結構化、數據庫方面會得到不斷髮展。

TAGS：技術 Web 數據挖掘論文發表

最熱推薦

猜你喜歡

最近更新

更多推薦