當前位置:學問君>學習教育>畢業論文>

數據挖掘技術應用於經濟統計中的研究論文

學問君 人氣:3.23W

摘要:數據管理中,由於很大數量的基數產生,而且數據的結構相對複雜,很容易導致數據缺失的問題。採用數據挖掘技術,可以對數據管理中所產生的數據進行更深層次加工,以提高數據質量。本論文針對數據挖掘技術應用於經濟統計中的研究展開研究。

數據挖掘技術應用於經濟統計中的研究論文

關鍵詞:數據挖掘技術 預處理 決策樹 經濟統計

數據挖掘技術作爲數據處理技術,就是針對數據倉庫中的各種數據資訊處理中選擇合適的分析工具,以透過篩選而獲得有用的資訊。在經濟統計中應用數據挖掘技術,可以對社會經濟活動的執行情況進行分析,以使得統計資訊能夠滿足社會各個領域的需求。

一、數據挖掘技術

資訊環境下所產生的數據量逐漸增大,給數據資訊的使用者帶來了困難。在經濟統計中,如果對這些資訊進行處理,並獲得有價值對資訊成爲亟待解決的問題。面對龐大的屬於局資訊,採用數據挖掘技術,可以透過對所獲得的數據資訊進行分析和技術處理後獲得符合使用標準的數據資訊,以滿足使用者的需求。在經濟統計中採用數據挖掘技術,可以提高數據資訊質量,以使得數據資訊能夠更好地爲中的社會經濟發展服務。隨着數據資訊質量的提高,數據資訊的使用效率也會提升,而且數據之間的內在關聯性也會被建立起來。

二、經濟統計中數據挖掘技術的應用

1.數據挖掘技術之預處理方法的應用

對數據進行預處理可以分爲三個部分,即要做好數據清理工作,之後對有用的資訊進行篩選,對統計數據中所存在的不全面的現象,就要將具有噪聲的資訊進行去除。經濟統計中所獲得的數據資訊不同,所採用的數據挖掘技術也要有所不同。如果在經濟統計的過程中所獲得的數據中,數據點和噪聲都是空值的時候,在進行數據處理的時候就可以採用均值法或者平滑法。兩者之間的不同在於,均值法是將所獲得的有效數據進行平均處理而獲得的數值,而平滑法所使用的是經過加權處理後所獲得的平均數。這種方法對數據對其結果的權重都要予以充分考慮,因此結果與真實值更加接近。這兩種方法的.運用,要根據實際需要進行選擇。還有一種方法是數據集成,就是集合不同的數據而形成集體,在集合數據的同時,還能夠對數據的準確性予以保證。數據集成在運用的過程中會存在一些問題,如果存在實體識別問題,由於不同的數據會以不同的數據模式呈現,就會出現模式集成問題;如果數據較爲繁瑣,存在多於的數據而使得數據質量較低,就是冗餘問題的存在。在數據挖掘中,就要將經濟統計數據與其他數據之間的關係精簡,以使得數據庫中所存有的數據量得到優化而提高數據的管理效率和應用價值。比如,在對於國民生產總值進行計算的時候,就要總體人口的屬性合理利用,還要將國內生產總值計算出來。對冗餘的屬性進行判斷的時候,要將相關度的對比關係充分地利用起來。其中,元組的個數爲n,屬性A的標準方差表示爲“σA”,屬性B的標準方差表示爲“σB”。如果σA>O,σB>0,就意味着屬性A與屬性B之間存在着正相關性,隨着屬性A的逐漸增大,屬性B也會有所增大。如果σA=0,σB=0,就意味着屬性A與屬性B之間並不存在相關性,相互之間並不存在必然的聯繫,兩者是各自獨立存在的。如果σA<0,σB<0,就意味着屬性A與屬性B之間存在着負相關性,隨着屬性A的增大,屬性B就會相應地減小。

2.數據挖掘技術之決策樹的應用

對數據採用數據挖掘技術的時候,首先要系統性地分析數據,將分析完成的數據輸出。在進行數據分類的時候採用決策樹,就是要將決策樹的結構構建起來。首先,對數據的基本模型進行分析,之後採用訓練集將決策樹建立起來,而且要對數據的決策樹進行精簡處理。其次,對決策樹進行分類,從決策樹的根部開始數據分類,之後是樹幹的數據和樹丫的數據的分類,直到所輸入的數據能夠滿足條件。

比如,將某地區的企業在每年所上報的數據建立序列模式,得出企業當年的預測值。將企業所上報的數據以及預測值經過比較後得出差別率。如果差別率超過20%,則企業爲A類;如果差別率介於10%至20%之間,則企業爲B類;如果差別率低於10%,則企業爲C類。根據企業規模的變化率以及企業可能發生的經營事件將決策樹建立起來。差別率採用如下公式:

差別率=|上報數據預測值|/上報數據×100%

如果企業所上報的數據與預測值之間存在很大的差距,就要以這些企業作爲主要的調查對象。

綜上所述,中國進入到進一步深化改革開放的發展時期,要促進經濟的快速發展,就要對先進的技術予以充分利用。在經濟統計中應用數據挖掘技術,可以提高數據的有效利用率,以提高經濟效益。