早前穀歌旗下雲平台 Google Cloud 將其澳大利亞客戶 UniSuper 的賬戶刪除,這導致 UniSuper 所有數據包括在穀歌雲的異地備份數據都全部被刪除。
UniSuper 即澳洲大學退休基金,該基金管理著超過 1250 億美元的資產,在事故發生後 UniSuper 的客戶無法查看賬戶裏的任何投資數據。
所幸該基金並沒有完全信任或依賴穀歌雲,他們在另一家雲平台還有冗餘備份,所以花費了幾天從備份數據裏恢複了服務,整個服務幾乎沒有受到特別大的影響。

事故調查:
發生此事後對穀歌來說自然是個重大的負麵消息,不過穀歌也按慣例發布完整的事故調查保持公有雲平台的透明度。
調查顯示此次故障屬於穀歌開發的某個原始配置工具存在 BUG,這個工具用來幫助客戶私有部署 Google Cloud VMware Engine (GCVE)。
穀歌工程師在使用該工具配置私有雲時,有個參數是留空的,該參數用來為 GCVE 設置有效期,正常情況下留空那就是不設置有效期,但這個工具的這個參數留空後會自動指定為 1 年的有效期 (為什麽會自動設置 1 年穀歌當時也不清楚)。
因此在到期後 GCVE 直接刪除了客戶的賬號,由於不是客戶自己操作的,所以也沒有收到任何電子郵件通知。
另外穀歌強調現在配置 GCVE 已經全部自動化不需要人工幹預,在 2023Q4 這個原始配置工具也已經被棄用,不會再出現類似的情況。
穀歌的補救措施:
為了徹底解決這類問題穀歌已經棄用可能會觸發該類問題的內部工具並且將其完全自動化,同時用戶可以通過控製台界麵進行操作,不需要穀歌工程師再人工幹預。
其次穀歌檢查了數據庫以及所有 GCVE 私有雲部署,確保其他 GCVE 私有雲不會受到該問題的影響。
最後穀歌還針對此類工作流自動設置刪除客戶私有雲的問題進行了清理,即之後即便存在到期問題至少也不會再自動刪除了。
穀歌也誇讚客戶采用強大而有彈性的架構來降低故障風險,即 UniSuper 采取了多種備份方法,這使得即便穀歌上的數據被刪除也能快速恢複。
(责任编辑:地方)