當前位置:學問君>學習教育>畢業論文>

淺析基於數據挖掘的數字檔案資訊管理研究

學問君 人氣:2.47W

論文關鍵詞:數字化 圖書管理 檔案化

淺析基於數據挖掘的數字檔案資訊管理研究

論文摘要:隨着社會主義現代化的發展,計算機技術的進步,資訊技術在社會發展的各個領域都扮演着極其重要的角色。資訊化建設更是被我國列爲經濟社會發展的首要內容。網頁檔案化管理包括文檔、文字翻譯轉換、圖片資料、聲像資料、多媒體遠程會議等。尤其是大學檔案館更側重教學與科研,網頁檔案化管理是必然的趨勢。

  在資訊化發展的今天,圖書館,特別是大學圖書館不僅要對資訊進行簡單的數字轉換和管理,更要對新興事物網絡進行檔案化管理和歸檔,包括文檔、文字翻譯轉換、圖片資料、聲像資料、多媒體遠程會議等。所以網絡檔案化管理,成爲當今圖書管理的必然趨勢,這就必須對檔案化管理的技術和法律相關問題進行深入闡述和探討。
  所謂數據挖掘(Data Mining),就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的但又是潛在有用的資訊和知識的過程。這些數據可以是結構化的,如關係數據庫中的數據,也可以是半結構化的,如文字,圖形,圖像數據,甚至是分佈在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現了的知識可以被用於資訊管理、查詢優化、決策支援、過程控制等,還可以進行數據自身的維護。數據挖掘藉助了多年來數理統計技術和人工智能以及知識工程等領域的研究成果構建自己的理論體系,是涉及數據庫、人工智能、數理統計、機械學、人工神經網絡、可視化、並行計算等的交叉學科,是目前國際上數據庫和決策支援領域的最前沿的研究方向之一。
  一、數據挖掘的功能
  數據挖掘透過預測未來趨勢及行爲,做出預測性的、基於知識的決策。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識,按其功能可分爲以下幾類。
  1、關聯分析
  關聯分析能尋找到數據庫中大量數據的相關聯繫,常用的一種技術爲關聯規則和序列模式。關聯規則是發現一個事物與其他事物間的相互關聯性或相互依賴性。
  2、聚類
  輸入的數據並無任何類型標記,聚類就是按一定的規則將數據劃分爲合理的集合,即將對象分組爲多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而在不同簇中的對象差別很大。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統的模式識別方法和數學分類學。
  3、自動預測趨勢和行爲
  數據挖掘自動在大型數據庫中進行分類和預測,尋找預測性資訊,自動地提出描述重要數據類的模型或預測未來的數據趨勢,這樣以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。
  4、概念描述
  對於數據庫中龐雜的數據,人們期望以簡潔的描述形式來描述彙集的數據集。概念描述就是對某類對象的內涵進行描述並概括出這類對象的有關特徵。概念描述分爲特徵性描述和區別性描述,前者描述某類對象的共同特徵,後者描述不同類對象之間的區別。生成一個類的特徵性只涉及該類對象中所有對象的共性。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。
  5、偏差檢測
  數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是尋找觀測結果與參照值之間有意義的差別。這常用於金融銀行業中檢測欺詐行爲,或市場分析中分析特殊消費者的消費習慣。
  二、數據挖掘在建設現代化高校檔案館中的應用
  1、資源類數據包括館藏檔案經過數字化加工而產生的各類電子檔案、電子檔案中心中存儲的各類電子檔案、檔案軟件收集的資訊、檔案資訊網建設和維護資訊。我們從研究大學檔案用戶的資訊需求出發,數據挖掘爲大學檔案館全面掌握和準確理解檔案用戶的資訊需求提供了方法。
  (1) 利用Web訪問資訊挖掘技術發現其中的關聯模式、序列模式和Web訪問趨勢等,構建多維視圖的用戶興趣模型。從而可以確定檔案資訊或服務受歡迎的程度,發現用戶訪問模式和用戶需求的趨勢,從不同側面來研究用戶的資訊需求,爲優化檔案館的檔案資訊資源建設提供了科學依據。
  (2) 收集大學檔案網web服務器保留的用戶註冊資訊、訪問記錄,以及有關用戶與系統交互的資訊等原始數據,經過清洗、濃縮和轉換形成便於統計分析的用戶查閱數據庫、日誌數據庫、用戶定製資訊庫、用戶反饋資訊等各種數據集合。