BUSINESS SCOPE

業務範圍

成都市溫江區楊柳河西路北段116號路口轉入150米即到
028-82733805 / 135-6899-8001

哪些原因會導致數據中心斷網?

2013-03-26 12:01:41

人再囧途之泰囧在2012年歲末床下了華語電影的票房記錄,而且還在刷新著記錄。但是在IT界,頻頻爆發的數據中心安全故障事件,也在一次次衝擊著企業用戶的心理防線。隻期待,數據中心的安全問題,不要成為人再囧途之“泰囧”。

雲計算服務在這個時代被吹捧成為IT聖者,所有的服務都可以被“雲”化。但是,當很多公司勇於第一個吃螃蟹之後,卻發現往往最容易受傷的也是他們。近幾年來,層出不窮的雲服務斷網事件,讓業界聽得心驚膽寒。

人們漸漸回歸理想,更加清晰地看清楚雲計算的真麵目。可以說,無論多麽高遠的夢想還是要找到穩固的立足點,雲服務最終還是要從一個數據中心被傳輸到另外一個數據中心,在這個過程仍然擺脫不了需要人、計算機、網絡、電能、存儲等之間協同工作。這樣一來,整個過程出現錯誤和漏洞就在所難免,再加上天災人禍。所以,啟用雲服務你必須有一定的思想準備,同時要有第二手的解決方案來應對。

編者在這裏回顧一下近年來發生的一係列斷網事件背後的原因。從2009年-2012年之間。也許能讓你看到:即便是計算機出錯似乎在所難免,再保險的措施似乎也隻能把安全事件控製在一個小概率範圍內。

斷網類型一:係統故障

典型事件1:亞馬遜AWS平安夜斷網

故障原因:彈性負載均衡服務故障

2012年12月24日,剛剛過去的聖誕節平安夜,亞馬遜並沒有讓他們的客戶過得太平安。亞馬遜AWS位於美國東部1區的數據中心發生故障,其彈性負載均衡服務(Elastic Load Balancing Service)中斷,導致Netflix和Heroku等網站受到影響。其中,Heroku在之前的AWS美國東部區域服務故障中也受到過影響。不過,有些巧合的事情是Netflix的競爭對手,亞馬遜自己的業務Amazon Prime Instant Video並未因為這個故障而受到影響。

12月24日,亞馬遜AWS中斷服務事件不是第一次,當然也絕非最後一次。

2012年10月22日,亞馬遜位於北維吉尼亞的網絡服務AWS也中斷過一次。其原因與上次相似。事故影響了包括Reddit、Pinterest等知名大網站。中斷影響了彈性魔豆服務,其後是彈性魔豆服務的控製台,關係數據庫服務,彈性緩存,彈性計算雲EC2,以及雲搜索。這次事故讓很多人認為,亞馬遜是應該升級其北維尼吉亞數據中心的基礎設施了。

2011年4月22日,亞馬遜雲數據中心服務器大麵積宕機,這一事件被認為是亞馬遜史上最為嚴重的雲計算安全事件。由於亞馬遜在北弗吉尼亞州的雲計算中心宕機,包括回答服務Quora、新聞服務Reddit、Hootsuite和位置跟蹤服務FourSquare在內的一些網站受到了影響。亞馬遜官方報告中聲稱,此次事件是由於其EC2係統設計存在漏洞和設計缺陷,並且在不斷修複這些已知的漏洞和缺陷來提高EC2(亞馬遜ElasticComputeCloud服務)的競爭力。

2010年1月,幾乎6萬8千名的Salesforce.com用戶經曆了至少1個小時的宕機。Salesforce.com由於自身數據中心的“係統性錯誤”,包括備份在內的全部服務發生了短暫癱瘓的情況。這也露出了Salesforce.com不願公開的鎖定策略:旗下的PaaS平台、Force.com不能在Salesforce.com之外使用。所以一旦Salesforce.com出現問題,Force.com同樣會出現問題。所以服務發生較長時間中斷,問題將變得很棘手。

 

斷網誘因二:自然災害

典型事件1:亞馬遜北愛爾蘭柏林數據中心宕機

故障原因:閃電擊中柏林數據中心的變壓器

2011年8月6日,在北愛爾蘭都柏林出現的閃電引起亞馬遜和微軟在歐洲的雲計算網絡因為數據中心停電而出現大規模宕機。閃電擊中都柏林數據中心附近的變壓器,導致其爆炸。爆炸引發火災,使所有公用服務機構的工作暫時陷入中斷,導致整個數據中心出現宕機。

這個數據中心是亞馬遜在歐洲唯一的數據存儲地,也就是說,EC2雲計算平台客戶在事故期間沒有其他數據中心可供臨時使用。宕機事件使得采用亞馬遜EC2雲服務平台的多家網站長中斷達兩天時間之久。

典型事件2:卡爾加裏數據中心火災事故

故障原因:數據中心發生火災

2012年7月11日卡爾加裏數據中心火災事故:加拿大通信服務供應商ShawCommunicationsInc位於卡爾加裏阿爾伯塔的數據中心發生了一場火災,造成當地醫院的數百個手術延遲。由於該數據中心提供管理應急服務,此次火災事件影響了支持關鍵公共服務主要的備份係統。此次事件為一係列政府機構敲響了警鍾,必須確保及時的恢複和擁有故障轉移係統,同時結合出台災害管理計劃。

典型事件3:超級颶風桑迪襲擊數據中心

故障原因:風暴和洪水導致數據中心停止運行

2012年10月29日,超級颶風桑迪:紐約和新澤西州的數據中心都受到了此次颶風的影響,所帶來的惡劣影響包括為曼哈頓下城地區的洪水和一些設施的停機,周圍地區數據中心發電機運行失常。颶風桑迪所帶來的影響超出了一般單一的中斷事故,為受災地區數據中心產業帶來了規模空前的災難。事實上,柴油已然成為了數據中心恢複工作的生命線,作為備用電源係統接管了整個地區的負荷,促使特別措施,保持發電機的燃料。隨著眼前的工作重點逐步轉移到災後重建,香蕉官网app官网网站入口有必要長期就數據中心的選址、工程和災難恢複進行探討,這一話題可能將持續幾個月,甚至幾年。

 

斷網誘因三:人為因素

典型事件1:Hosting.com服務中斷事故

故障原因:服務供應商執行斷路器操作順序不正確造成的UPS關閉

2012年7月28日Hosting.com停運事件:人為錯誤通常被認為是數據中心停機的主導因素之一。7月Hosting.com中斷事件造成 1100名客戶服務中斷就是一個例子。停機事故的發生是由於該公司位於特拉華州紐瓦克的數據中心正進行UPS係統預防性維護,“服務供應商執行斷路器操作順序不正確造成的UPS關閉是造成數據中心套房內的設施損失的關鍵因素之一。”Hosting.com首席執行官ArtZeile說。“沒有任何重要的電力係統或備用電源係統出現故障,完全是一種人為的錯誤造成的。”

典型事件2:微軟爆發BPOS服務中斷事件

故障原因:微軟在美國、歐洲和亞洲的數據中心的一個沒有確定的設置錯誤造成的

2010年9月,微軟在美國西部幾周時間內出現至少三次托管服務中斷事件向用戶致歉。這是微軟首次爆出重大的雲計算事件。

事故當時,用戶訪問BPOS(Business Productivity Online Suite)服務的時候,如果使用微軟北美設施訪問服務的客戶可能遇到了問題,這個故障持續了兩個小時。雖然,後來微軟工程師聲稱解決了這一問題,但是沒有解決根本問題,因而又產生了9月3日和9月7日服務再次中斷。

微軟的Clint Patterson說,這次數據突破事件是由於微軟在美國、歐洲和亞洲的數據中心的一個沒有確定的設置錯誤造成的。BPOS軟件中的離線地址簿在“非常特別的情況下”提供給了非授權用戶。這個地址簿包含企業的聯絡人信息。

微軟稱,這個錯誤在發現之後兩個小時就修複了。微軟稱,它擁有跟蹤設施,使它能夠與那些錯誤地下載這些數據的人取得聯係以便清除這些數據。

 

斷網誘因四:係統故障

典型事件1:GoDaddy網站DNS服務器中斷

故障原因:係統內一係列路由器的數據表造成的網絡中斷

2012年9月10日GoDaddy網站DNS服務器中斷:域名巨頭GoDaddy是一家最重要的DNS服務器供應商,其擁有500萬個網站,管理超過5000萬的域名。這就是為什麽九月10日中斷事故會是一個2012年最具破壞性的事件。

一些炒作甚至認為,此次長達6個小時的中斷事件是由於拒絕服務攻擊的結果,但GoDaddy後來表示,這是路由器表的損壞數據造成的。“服務中斷不是由外部影響造成的。”GoDaddy的臨時首席執行官史葛瓦格納說。“這不是黑客攻擊也不是一個拒絕服務攻擊(DDoS)。香蕉视下载app最新版ioses已經確定了服務中斷是由於內部的一係列路由器的數據表造成的網絡事件損壞。”

典型事件2:盛大雲存儲斷網

故障原因:數據中心一台物理服務器磁盤損壞

2012年8月6日晚上8:10,盛大雲在其官方微博上發布一則因雲主機故障致用戶數據丟失事件的公開聲明。聲明說到:8月6日,盛大雲在無錫的數據中心因為一台物理服務器磁盤發生損壞,導致“個別用戶”數據的丟失。盛大雲已經在盡全力協助用戶恢複數據。

對於因為一台“物理服務器磁盤發生損壞”,導致“個別用戶”數據的丟失的情況,盛大雲技術人員給出自己的解釋:虛擬機的磁盤有兩種生產方式,一種是直接使用宿主機的物理磁盤。這種情況下,如果宿主機的物理磁盤發生故障,雲主機不可避免會造成數據丟失,這也是本次事件產生的原因;另外一種是使用遠程存儲,也就是盛大硬盤產品,這種方式實際上是把用戶的數據存到了遠程的一個集群裏,並同時做了多份備份,即使宿主機出故障也不會影響到雲主機的數據。因為物理機的損壞很難避免,為了避免您遇到意外損失,香蕉app下载官方下载建議您在雲主機之外,也做好數據備份。

典型事件3:Google App Engine中斷服務

故障原因:網絡延遲

Google App Engine:GAE是用於開發和托管WEB應用程序的平台,數據中心由google管理,中斷時間是10月26日,持續4小時,因為突然變得反應緩慢,而且出錯。受此影響,50%的GAE請求均失敗。

穀歌表示沒有數據丟失,應用程序行為也有備份可以還原。為表歉意,google宣布11月份用戶可以google表示他們正在加強其網絡服務以應對網絡延遲問題,“香蕉视下载app最新版ioses已經增強了流量路由能力,並調整了配置,這些將會有效防止此類問題再次發生”。

 

斷網誘因五:係統Bug

典型事件1:Azure全球中斷服務

事故原因:軟件Bug導致閏年時間計算不正確

2012年2月28日,由於“閏年bug”導致微軟Azure在全球範圍內大麵積服務中斷,中斷時間超過24小時。雖然微軟表示該軟件BUG是由於閏年時間計算不正確導致,但這一事件激起了許多用戶的強烈反應,許多人要求微軟為此做出更合理詳細的解釋。

典型事件2:Gmail電子郵箱爆發全球性故障

事故原因:數據中心例行性維護時,新程序代碼的副作用

2009年2月24日,穀歌的Gmail電子郵箱爆發全球性故障,服務中斷時間長達4小時。穀歌解釋事故的原因:在位於歐洲的數據中心例行性維護之時,有些新的程序代碼(會試圖把地理相近的數據集中於所有人身上)有些副作用,導致歐洲另一個資料中心過載,於是連鎖效應就擴及到其它數據中心接口,最終釀成全球性的斷線,導致其他數據中心也無法正常工作。

典型事件3:“5.19斷網事件”

事故原因:客戶端軟件Bug,上網終端頻繁發起域名解析請求,引發DNS擁塞

2009年5月19日的21:50,江蘇、安徽、廣西、海南、甘肅、浙江等六省用戶申告訪問網站速度變慢或無法訪問。經過工信部相關單位調查通報稱,此次全國六省網絡中斷事故,原因是國內某公司推出的客戶端軟件存在缺陷,在該公司域名授權服務器工作異常的情況下,導致安裝該軟件的上網終端頻繁發起域名解析請求,引發DNS擁塞,造成大量用戶訪問網站慢或網頁打不開。

其中,DN SPod是國內知名的域名解析服務商之一的N SPod公司,服務數家知名網站的域名解析服務。此次攻擊導致DN SPod公司所屬的6台dns域名解析服務器癱瘓,直接造成包括暴風影音在內的多家網絡服務商的域名解析係統癱瘓,由此引發網絡擁塞,造成大量用戶不能正常上網。 工信部指出,此次事件暴露出域名解析服務成為目前網絡安全的薄弱環節,指示各單位要加強對域名解析服務的安全保護。

小結

啟用雲服務的公司,很大程度是考慮這種服務可以更加編輯,性價比高。但是,這樣的考慮如果是以降低安全性作為代價,估計很多公司老大不會同意。層出不窮的雲服務斷網事件引起了雲端安全性的擔憂。

目前來看,解決的辦法可以從幾個角度出發,對於企業級客戶來說,務必在采用雲服務的同時定期備份雲端的數據,擁有第二套解決方案按,以備不時之需。而對於雲服務提供商來說,既然各種斷網事件是在所難免的,那就必須思考一個對策,將自己用戶的損失降到最低,對斷網事件的響應效率要提高。

政府部門則具有監督和提醒的職責,雲服務相關的法律法律要相繼出台和不斷完善,並且提醒用戶百分之百可靠的雲計算服務目前還不存在。

上一篇 : 沒有了

下一篇 : 沒有了

返回列表
在線谘詢
業務谘詢
微信聊天
返回頂部