當前位置:學問君>學習教育>畢業論文>

淺談基於web日誌挖掘的網絡教學系統的設計與實現

學問君 人氣:6.16K

論文關鍵詞:web日誌挖掘 網絡教學 聚類

淺談基於web日誌挖掘的網絡教學系統的設計與實現

論文摘要:現有的網絡教學系統,雖然自身資訊量極其豐富,但教師對學生的學習情況缺乏瞭解,無法滿足學生個性化的學習需求。Web日誌全面記錄學生網上學習的行爲,是解決問題的有效方法,文章設計並實現了Web日誌挖掘系統,從中發現相似的學生羣體,以及瀏覽興趣路徑,幫助教師及時調整站點結構提供寶貴的建議參考。 

  一、引言
  針對某課程的網絡教學系統網站的服務器上每天記錄了大量的學生網上學習的行爲記錄的,透過對Web日誌進行挖掘可[1]以幫助任課教師瞭解哪些教學內容學生比較感興趣,網站的使用情況,根據發現的資訊對網站結構進行改進,以吸引更多的學生來進行網上學習,提高網站的服務效率。
  二、系統需求分析
  基於以上的目的,以某職業院校的某課程的網絡教學系統爲研究對象,設計並實現了Web日誌挖掘系統,取得了較好的實驗效果。系統主要是對該網絡教學系統的日誌數據進行採樣、預處理[2],然後運用基於選擇路徑和瀏覽頁面的`聚類算法對處理後的數據進行模式分析,獲得Web站點用戶的瀏覽興趣路徑和用戶聚類羣。
  三、系統功能模組
  系統的功能包含員和用戶兩部分。管理員主要是設定採樣時間、配置挖掘參數,修改網站拓撲結構資訊;用戶主要是實施Web日誌挖掘,進行用戶[3]識別、會話識別、事務識別、最後得到用戶瀏覽興趣路徑。
  (一)管理員功能
  管理員主要是該網站的建設者以及該課程的實訓教師負責設定採樣時間、設定挖掘參數、添加網頁改變網站結構。
  1.設定採樣時間:實現從大量的Web日誌數據中選取基於配置檔案中的採樣時間段的日誌數據的功能,並將獲取該時間段的日誌數據存儲到數據庫中。管理員透過修改配置檔案更改採樣時間段(以天爲單位)。
  2.設定挖掘參數:挖掘參數包括會話超時時間、選擇路徑興趣度所佔的權重wr、瀏覽頁面興趣度所佔的權重wn、瀏覽興趣[4]路徑使用的閾值。會話超時時間前人實驗得到的經驗值爲25.5分鐘,管理員可重新設定;選擇路徑興趣度所佔權重與瀏覽頁面興趣度所佔權重之和爲1。默認設定爲wr=0.5,wn=0.5,可進行更改。
  3.調整網站拓撲結構:包括調整頁面順序,添加新的頁面,刪除過時的頁面等。
  (二)普通用戶功能
  普通用戶主要指該課程的任課教師、學生以及該系部的教務員。
  1.用戶識別:依據規則從日誌中識別不同用戶,並儲存用戶訪問資訊。主要有2個規則:第一,不同的用戶名(UserID)代表不同的用戶;第二,不同的IP位址代表不同的用戶。
  2.會話識別:根據會話識別規則,對用戶數據進行會話識別,得到用戶一系列的會話數據。同時提供了基本的會話資訊,如用戶的瀏覽路徑序列。會話識別後,將會話資訊儲存會話資訊表中,以備事務識別使用。
  3.事務識別:根據規則將用戶會話序列分割爲事務,並將事務序列資訊存儲事務資訊表中,作爲用戶聚類的數據輸入。
  4.用戶聚類:依照聚類算法,把所有用戶劃分爲不同的用戶羣,並將用戶羣資訊存入用戶羣表中,作爲系統的最終數據。
  5.瀏覽興趣路徑:找出用戶瀏覽興趣模式,同時得到瀏覽興趣路徑的相關資訊,包括瀏覽興趣路徑序列。
  四、系統結果分析
  實驗以某職業院校網絡教學管理系統服務器上的日誌爲研究對象,蒐集了8周的數據,作爲系統的測試用例。從實驗結果中可以看到,瀏覽興趣路徑的長度一般不超過5。這就表示在設計教學網站時網站深度不要太深,避免給用戶訪問造成不便。從總體來看,學生瀏覽的路徑分爲3大類,分別是檢視作業、通知、課件。而教學大綱以及視頻檢視的人寥寥無幾。本算法的執行時間與網站的URL數目n有關係,它的時間複雜度爲O(n2)。因此在該網站中當不斷的增加新的頁面時,算法的執行時間也會隨之增加。當網站的頁面數目超過20時,該算法有待於進一步驗證。
  參考文獻:
  [1]胡迎鬆,寧海霞.一種新型的Web挖掘數據採集模型[J].工程與科學,2007,29(2):36-39
  [2]陳峯.基於Web日誌的用戶興趣聚類研究[D][碩士學位論文].合肥:合肥大學,2008
  [3]任曉霞.一種Web日誌數據挖掘系統的設計與實現[D][碩士學位論文].北京:北京郵電大學,2008
  [4]胡可雲,田鳳占,黃厚寬.數據挖據理論與應用[M].北京:清華大學出版社,北京大學出版社,2008