當前位置:學問君>學習教育>畢業論文>

數據挖掘技術在中等職業學校管理實踐中的應用研究

學問君 人氣:2.95W
數據挖掘技術在中等職業學校管理實踐中的應用研究
摘  要:我國中等職業教育的學校規模、在校生人數等都有了很大的發展,高效的數據管理對學校發展起到越來越重要的作用。利用Hash樹和Fp樹對Apriori算法對學生資訊、教學資訊、後勤資訊進行分析和研究,並進行優化和實施關聯規則挖掘,用遺傳算法對挖掘成果進行優化,以此來推動中等職業教育的發展。
關鍵詞: 數據挖掘;關聯規則;遺傳算法  
        1 引言
        資訊時代的計算機數據存儲技術等得到了飛速發展。大量的數據與數據分析處理方法相互結合產生了數據挖掘技術,目前數據挖掘是在許多領域和方面得到了廣泛應用的技術。隨着中等職業教育的發展,提高職業教育質量已成爲一個系統工程。目前職業學校已存儲了以學校教學實踐爲中心的大量數據,但是其背後所蘊含的大量有用資訊並未得到發現和利用,主要是因爲利用分析方法不適應職業學校的大量複雜數據。利用數據挖掘技術從中發現有價值的資訊可以指導職業學校教學、就業、後勤等各方面的管理,提高管理效率,降低成本,推動職業教育更好的發展。
        2  關聯規則挖掘算法
        2.1 Apriori算法及改進
        Apriori算法是關聯規則挖掘的基本算法,它利用項集的先驗性知識和層次順序的循環搜尋方法來發現頻繁項集,首先產生頻繁1-項集L1;然後利用L1來產生頻繁2-項集L2,不斷循環下去直到無法發現更多的頻繁K-項集爲止。
        從兩個方面對Apriori算法進行改進。
        2.1.1 利用HASH樹對支援度進行計數
        HASH樹根節點爲空,用HASH函數來決定內部節點的分支走向,遍歷HASH樹可以對候選項集支援度進行計數,用HASH樹對候選項集的支援度進行計數,避免了窮舉法對事務中的每個項集與候選項集進行比較,而是進行了分類,降低了支援度計數的任務量。 
        2.1.2 用FP樹提取頻繁項集
        FP樹(frequent pattern tree)實現了對數據的緊湊表示,可以從該結構中直接提取頻繁項集。FP樹之中的一條路徑所表示的數據序列對應一條事務中的數據,對於不同事務中相同的數據項對應的FP樹中的路徑可以重疊,從而實現了事務數據的緊湊表示。FP樹的節點包括數據項的標記和計數,計數表示經過該路經的事務個數。
        (1)對各數據項的數據按照它們的支援度計數的遞減順序排序,從而調整數據集中各數據的次序。
        (2)由數據集構造FP樹,對第一個事務創建從根節點到事務中各數據的路徑並進行支援度計數。
        (3)繼續讀入事務,與創建過路徑的事務進行比較將新事務加入FP樹,如果與創建過的事務有相同的'路徑則合併相同的路徑,相應節點支援度增加,不同路徑增加不同的分支,進行支援度計數。   
        (4)繼續該過程直到所有的事務都映射到FP樹。
        (5)由FP樹依據不同的結尾進行劃分,產生以其爲後綴的路徑。
        (6)不同的後綴產生相應的頻繁項集。
        2.2  關聯規則的發現
        由頻繁項集可以較爲容易地產生相應的關聯規則,可以透過計算置信度來獲得強關聯規則,關聯規則的操作爲:
        2.2.1 對於每個頻繁項集L產生所有的非空子集。
        2.2.2 對於L的非空子集 ,如果c(   L- )= ≥min_s,則產生  (L- )的關聯規則, min_s爲最小置信度閥值。
        3  學校資訊的數據挖掘
        3.1 對學校資訊進行關聯挖掘
        下邊以有代表性的學生就業方面資訊爲例來進行分析。就業資訊庫中的數據項包括:學生的編號、成績、學生幹部、操行等級、實踐動手能力、就業單位,其中編號爲學生的唯一標識。爲了便於數據存取現在對各數據項的內容進行編號,其中成績項分爲:優(a1),良(a2),一般(a3);學生幹部分爲:是(b1)、不是(b2);操行等級程度分爲:良(c1)、優(c2)、一般(c3);實踐動手能力分爲:強(d1)、較強(d2)、一般(d3)。就業單位分爲:大型公有企業(e1)、大型私企 (e2)、一般公有企業 (e3)、一般私企(e4)。
        現有部分學生就業資訊: 
         
        學生資訊庫中共有125條學生就業方面的資訊,應用挖掘軟件對其進行數據挖掘,最小支援度選定爲0.3,最小置信度選定爲0.5。其數據資訊和挖掘結果如下所示: 
         
        在該就業數據庫中就業資訊處於最主要的地位,也最有分析價值和現實意義。爲了挖掘就業方面的關聯規則,發現影響就業情況的因素,從挖掘結果中提取“結論”含有就業數據項(e1,e2,e3)的規則,得到的規則表達式和可信度爲:
        (1)b1|c2 e1    confidence=0.84
        (2)b1 e1      confidence=0.62