當前位置:學問君>實用寫作>讀書筆記>

數據挖掘的讀書筆記

學問君 人氣:2.85W

導語:數據挖掘一般是指從大量的數據中透過算法搜尋隱藏於其中資訊的過程。數據挖掘通常與計算機科學有關,並透過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。目前喲普與大數據時代的到來,數據挖掘在很多高等院校已經成爲一門獨立的學科。下面是數據挖掘的相關讀書筆記。歡迎大家閱讀。

數據挖掘的讀書筆記

一、數據挖掘概念(即什麼是數據挖掘)

我們生活在數據時代,各行各業每天都產生巨大的數據。數據的爆炸式增長、廣泛可用和巨大數量使得我們的時代成爲真正的數據時代。急需功能強大和通用的工具,以便從海量數據中發現有價值的資訊,把這些數據轉換成有組織的、可利用的知識。這種需求導致了數據挖掘的誕生。

數據挖掘實際上是從數據中挖掘知識,由以下步驟的迭代組成:

(1)數據清理(消除噪聲和刪除不一致數據)

(2)數據集成(多種數據源可以組合在一起)

(3)數據選擇(從數據庫中提取與分析任務相關的數據)

(4)數據變換(透過彙總或聚集操作,把數據變換和統一成適合挖掘的形式)

(5)數據挖掘(基本步驟,使用智能方法提取數據模式)

(6)模式評估(根據某種興趣度度量,識別代表知識的真正有趣的模式)

(7)知識表示(使用可視化和知識表示技術,向用戶提供挖掘的知識) 關係數據庫是數據挖掘最常見、最豐富的資訊源,因此它是我們數據挖掘研究研究的一種主要數據形式。

二、數據挖掘技術(即怎樣進行數據挖掘)

1、可以挖掘什麼類型的模式  特徵化與區分、頻繁模式、關聯和相關性挖掘,分類與迴歸,聚類分析,離羣點分析。  數據挖掘可以被用來進行市場分析和管理、風險分析和管理、缺陷分析和管理等。

2、使用什麼技術

1)首先要認識數據,一個數據對象代表一個實體,又稱樣本、實例、數據點或對象。   屬性是一個數據字段,表示數據對象的一個特徵,又稱維、特徵和變量。

2)數據描述  中心趨勢度量:均值、中位數和衆數  度量數據散佈:極差、四分位數、方差、標準差和四分位數極差 透過基於像素的可視化技術等清晰有效的表達數據

3)進行數據預處理,包括數據變換與數據離散化。  數據變換策略:光滑、屬性構造、聚集、規範化、離散化、由標稱數據產生概念分層  數據離散化策略:分箱、直方圖分析、聚類決策樹和相關分析

4)然後需要建立數據倉庫進行處理,數據倉庫:是一種數據庫,它允許將各種應用系統集成在一起,爲統一的歷史數據分析提供堅實的.平臺,對資訊處理提供支援。數據倉庫的構建需要數據集成、數據清洗和數據統一。

5)聯機分析處理可以,在使用多維數據模型的數據倉庫或數據集市上進行,使用數據立方體結構,OLAP操作可以有效的實現。

數據立方體計算的一般策略:    排序、散列和分組    同時聚集和快取中間結果

當存在多個子女方體時,由最小的子女聚集    可以使用先驗剪枝方法有效的計算冰山立方體

數據立方體計算方法:     多路數組聚集,基於稀疏數組的、自底向上的、共享計算的物化整個數據立方體  BUC,透過探查有效的自頂向下計算次序和排序計算冰山立方體  Star-Cubing,使用星樹結構,集成自頂向下和自底向上計算,計算冰山立方體  外殼片段立方體,透過僅預計算劃分的立方體外殼片段,支援進行高維OLAP

6)挖掘頻繁模式和關聯規則  頻繁項集挖掘方法:  Apriori算法(透過限制候選產生髮現頻繁項集),由頻繁項集產生關聯規則,提高Apriori算法的效率,挖掘頻繁項集的模式增長方法,使用垂直數據格式挖掘頻繁項集,挖掘閉模式和極大模式