當前位置:學問君>學習教育>畢業論文>

大學數據中心機房運維風險的識別和應對論文

學問君 人氣:1.8W

無論是身處學校還是步入社會,許多人都寫過論文吧,論文是探討問題進行學術研究的一種手段。還是對論文一籌莫展嗎?下面是小編整理的大學數據中心機房運維風險的識別和應對論文,歡迎閱讀,希望大家能夠喜歡。

大學數據中心機房運維風險的識別和應對論文

摘要:

高校數據中心機房作爲學校重要的場所,爲學校日常教學辦公提供重要的網絡保障。如何保障數據中心的安全,已經變得越來越重要。本文透過研究風險管理在高校數據中心機房的應用研究。以我校數據中心機房運維項目爲例,進行風險管理各方面的研究。旨在提高機房管理人員管理能力,保障數據中心機房安全。

關鍵詞: 

風險識別;風險應對;數據中心機房;

引言:

數據中心機房是學校數據匯聚交互的核心場所,所有接入校園網的數據都是透過數據中心機房進行交互。資訊化大背景下,高校數據中心機房爲師生提供更加便捷的服務,在教學、科研、辦公等方面都有體現。

近些年來,隨着數字校園,智慧校園的推進,全國各高校的數據中心機房規模不斷髮展。“一表通系統”上線,“最多跑一次”改革,高校越來越多的業務都轉到校園網上,辦公流程的簡化,業務流程的電子化,極大地方便了廣大師生。但同時,伴隨着不斷增長的業務,擴增的機房設備,我們對數據中心的要求不斷提升,日常的運維管理面臨的風險也越來越大。

1、高校數據中心運維引入風險管理的意義

數據中心機房是全校網絡的核心區域,包括服務器,IPS設備,業務系統等,是一系列硬件軟件設備的總和。一般高中小學校不會涉及數據中心機房,而大學的數據中心機房則不同,需要專人管理。數據中心機房的日常維護絕不是簡單的設備維修,而是一項長期且細緻的工作,涉及的內容很多,包括機房設備維修,系統升級,安防檢查等。因此我們需要引入一整套科學合理的管理方法來應對風險。

數據中心機房的風險管理涉及內容很多有:風險識別,風險分析,風險應對等。其中,風險識別就是識別出潛在的風險,例如:機房火災,漏水,停電等,是風險管理中最重要的內容之一,是確定潛在風險並分析找出應對方法的前提。所以一般對於風險識別的內容,我們會花費大量的時間來收集彙總,識別中會用到的德爾菲法,頭腦風暴等方法。在數據中心日常運維中,針對識別出的高風險因素,我們需要制定相關的策略,包括消極和積極2方面的風險應對策略。風險存在是必然,我們需要積極引入風險管理機制,才能在出現問題時候迅速解決。

2、數據中心機房運維的風險識別

每個項目特性是千差萬別,項目獨特性決定項目實施過程存在很多不確定性,儘可能識別出不確定因素,是確保項目成功的重要因素[1]。風險識別不僅是風險管理的核心部分,更是基礎內容。風險識別就是運用各種科學方法,識別項目的潛在風險,識別引發潛在風險的原因以及可能引發的`後果。特點:風險識別覆蓋整個項目的生命週期。項目管理過程中,需要對風險進行反覆地識別。風險識別的方法很多,包括德爾菲法,頭腦風暴,專家判斷等。

爲了儘可能全面地識別出潛在的風險,結合實際情況,對數據中心機房風險識別步驟包括3步,第一步,進行工作分解結構WBS,目的就是爲了更直觀地進行風險識別。第二步,風險收集,針對運維項目,需要組織人員進行現場勘查,發現存在的問題,收集數據中心的資料。針對運維現狀,組織全體人員進行頭腦風暴法識別潛在的風險,再利用專家調查法對收集的潛在風險進行識別。第三步,風險確認,組織相關人員進行總結分析歸納,最終得到運維項目風險登記冊。

(1)工作分解結構WBS

數據中心運維項目按照一定原則進行工作分解,其目的是爲了給風險識別提供依據。首先,組織運維項目的各部門的負責人員,技術人員等進行現場勘查,摸清機房現狀。按照整體機房運維的思路做好地勘工作,地勘需要記錄各個領域的工作,並進行工作分解。

(2)風險收集

本次運維項目的風險收集採用頭腦風暴會議。在會議之前,需要收集項目相關資料,包括項目技術檔案,運維記錄,機房資料,合同等。然後提前將地勘記錄和收集到的項目資料發給參與會議的人員,確保參會人員能提前充分了解項目內容。會議針對運維項目期間可能存在的風險,進行充分的討論和彙總。由項目經理擔任本次會議支援人,在主持人的推動下,與參會人員就項目的風險集思廣益。所有參與人員均有平等發言權,對潛在的風險提出自己的觀點。最後將會議的內容進行整理彙總,初步得到機房運維的風險因素。

(3)風險確認

風險確認即將收集彙總的風險因素髮給專家小組,由專家小組再次確認,記錄整理並完成風險識別。專家小組包括各行業專家、部門負責人等。專家小組透過瞭解數據中心機房運維項目的基本情況,背景等,對頭腦風暴會議收集的風險因素進行多次徵詢,直至達成一致意見,完成項目風險識別。

最終將運維項目風險分爲5類,包括設備風險,業務風險,運維管理風險,自然風險,其他風險。設備風險包含:服務器風險,IPS設備風險,環控設備風險等。業務風險包括:特大網絡故障風險,一般業務故障風險,業務質量下降風險等。運維管理風險包括:團隊管理風險,溝通交流風險,人員管理風險等。自然風險包括:火災,水災,電磁干擾等,其他風險包括:合同風險,需求變化風險,人員技術風險等。

3、數據中心機房運維的風險分析

風險分析從2方面進行,第一個是定性風險分析,定性分析是指採取一定手段,綜合評估分析存在的風險概率以及它的影響程度,並對風險按風險程度排序。同時爲下一步分析提供依據。本次運維項目研究所用到的分析工具有概率-影響矩陣,風險分類,專家判斷法等。定性風險分析過程作用是爲了降低項目的不確定性,並重點關注高優先級的風險,有利於後續針對性開展風險應對。

概率-影響矩陣(P-I矩陣)是經常使用的工具,它是針對不同程度的風險,進行分級和排序,便於下一步進行定量分析及應對。在概率-影響矩陣中,一般將橫座標和縱座標從低到高劃分爲5個標準,用數值0.1、0.3、0.5、0.7、0.9表示,一共劃分爲25個方格,方格內數字表示風險值R,公式爲R=P*I。R數值越低,概率越小,影響程度越小。R數值越高,概率越高,影響程度越大。概率高,影響程度高的區域,一般在右上角,屬於高風險,需要採取重點措施,並採取積極地應對策略。概率低,影響程度低的區域,一般在左下角,屬於低風險區域,一般列入待觀察風險清單,一般不需要採取積極管理措施,監測即可。

第二個是定量風險分析,它是對定性分析過程中,對項目影響很大,風險等級很高的風險進行更加具體的分析。它是對風險事件的影響程度分析,一般高風險事件分配高數值,低風險分配低數值。定量風險分析的目的是爲了確定重大的風險,同時提醒管理人員對高風險,進行密切關注,做好應對準備。

4、數據中心機房運維的風險應對

風險應對過程是在風險分析之後,針對存在的風險,在分析風險概率及其影響程度基礎上,制定一系列措施降低風險、提高有利機會。透過科學合理的管理理論和措施,可以有效規避和降低項目風險。風險應對措施必須及時有效,並制定多種應對方式,擇優選擇。

風險應對方法有很多,針對已總結的風險,結合數據中心項目的具體情況制定相關的應對策略包括:風險規避,風險轉移,風險預防,風險減輕。

(1)風險規避:風險規避是爲了達到項目目的,改變原來計劃,從而規避風險,減少風險帶來的影響。如:調試項目範圍,利用多種手段達到目的等。在機房檢修的時候,必須秉承着不影響機房正常執行的原則。檢修UPS蓄電池,進行放電時,不能影響機房正常執行。檢修空調時,應該要一個一個進行檢查,不能同時關閉所有機房空調,否則會影響機房正常散熱,導致服務器出現故障。維護業務服務器時,必須不能影響其他業務的執行。

(2)風險轉移:風險轉移目的是將風險轉嫁給第三方人員,包括風險的影響和責任。在數據中心機房運維中,常見的風險轉移就是第三方公司維保。因爲數據中心機房的重要性,所以必須保證機房7*24小時都要穩定執行。單單依靠網絡中心一個部門是無法保障機房的一年365天的安全,還必須要有其他部門和第三方運維公司的配合。現在高校的數據中心機房都會有第三方公司運維,包括服務器的維保,環境監控的維保,網絡安全維保等。轉移工具包括合同、履約保證協議、保密協議,保證書等。透過簽署合同或協議,能將風險的責任轉移給第三方。

(3)風險預防:風險預防就是針對存在的風險,制定應急預案,避免風險的發生。施工或運維過程中一旦出現風險或者發現目標與預期有較大偏差時,即可按照應急方案採取相應措施。機房定期進行應急演練是必要的,針對運維情況制定不同的應急演練內容,如:特大網絡故障,一般業務故障,火災等。有利於提高運維人員對突發安全事件的響應與處置能力,保障學校機房安全、持續和穩定執行。機房內不需要的設備必須及時清理,必須建立定期檢查制度,對相關設備進行詳細檢查[2]。

(4)風險減輕:風險減輕就是減輕風險事件所帶來的影響,減低風險發生的概率。它分爲兩個方面,第一個是已經發生的風險,要採取積極的措施減少風險帶來的影響。第二個是還沒發生的風險,要採取積極措施減少發生概率。例如:在機房整理線纜時候,必須按照行業規範,進行走線,並按照統一標準添加標籤,確保線材整潔。這樣能減少後期維護的成本,當出現線路問題時,能在第一時間找到問題線路。此外,在機房配備UPS電源,也是爲了保護服務器設備,在斷電情況下能繼續工作一段時間,減少服務器突然斷電引發的一系列問題。

5、結語

數據中心機房承擔着高校全部的資訊化業務,運維內容包括服務器,IPS設備,業務系統等軟硬件設備,涉及多個部門和第三方運維公司。因此,高校數據中心機房運維是一個長期、複雜的項目,需要持續性地管理。

風險管理作爲一種科學的管理手段,在數據中心機房的運維中的應用有着重要的意義,透過風險管理研究,識別、分析和應對等,我們可以清晰地瞭解整個運維項目存在的風險。識別潛在風險,透過科學的風險分析手段,應對不同程度的風險。

參考文獻

[1]鄭渝莎.淺談通信機房搬遷項目的風險管理[J].江西建材,2017(13):261+263.

[2]王欣.資訊機房運維及其管理的主要策略分析[J].計算機產品與流通,2020(01):131.