只要計(jì)算機(jī)依然遵循馮·諾依曼體系結(jié)構(gòu)所定義的形態(tài),那么關(guān)于計(jì)算的發(fā)展創(chuàng)新,大多都將圍繞著“存”與“算”的協(xié)作。不過有趣的是,從古文明到計(jì)算機(jī)時(shí)代,千年以來人類對“存”的需求似乎總是優(yōu)先于“算”——只要條件允許,人們就傾向于災(zāi)備性地保留盡可能多的數(shù)據(jù),即便它們可能再也不會(huì)被用于計(jì)算;現(xiàn)在的電子產(chǎn)品也喜歡讓用戶在計(jì)算硬件相同但存儲(chǔ)空間不同的產(chǎn)品中進(jìn)行選擇。
當(dāng)然,在計(jì)算的世界中“存”和“算”只是在不同場景中有所側(cè)重,缺一不可。只不過由于技術(shù)、成本等限制,人們在購買算力時(shí)往往精心算計(jì),但對存儲(chǔ)則傾向預(yù)留充足冗余。這也解釋了為何在計(jì)算機(jī)領(lǐng)域的一些重大發(fā)展中,存儲(chǔ)或是發(fā)揮重要作用,或是在第一時(shí)間享受到創(chuàng)新的增益。
如果將2006年亞馬遜云科技成立,看作是拉開了云計(jì)算時(shí)代的帷幕,那么Amazon Simple Storage Service(Amazon S3)對象存儲(chǔ)服務(wù)就是拉開帷幕的那只無形的手。作為亞馬遜云科技的推出的第一個(gè)云服務(wù),Amazon S3的到來,與那些隱約感受到數(shù)據(jù)膨脹壓力的用戶形成了一場雙向奔赴。
現(xiàn)在,誕生已18年的Amazon S3已是最受歡迎的亞馬遜云科技服務(wù)之一。隨著云計(jì)算生態(tài)日益繁榮,計(jì)算場景來到機(jī)器推理、生成式人工智能等高階應(yīng)用,Amazon S3也在一路發(fā)展成長,成為云計(jì)算中基礎(chǔ)但又從不缺席的環(huán)節(jié)。
首個(gè)云對象存儲(chǔ),Amazon S3揭開云計(jì)算時(shí)代的大幕
作為亞馬遜云科技的“元老”級服務(wù),Amazon S3目前為全球數(shù)百萬各行各業(yè)的客戶提供可靠、便捷的云存儲(chǔ)?,F(xiàn)在,Amazon S3 存儲(chǔ)了超過 350 萬億個(gè)對象,平均每秒處理超過1億次請求,能夠勝任幾乎所有工作負(fù)載。
Amazon S3能擁有持續(xù)18年的旺盛生命力,來自云計(jì)算所開創(chuàng)的顛覆性存儲(chǔ)范式。云計(jì)算通過功能和服務(wù)取代了本地存儲(chǔ),上至無限的彈性容量、按用量付費(fèi)……云計(jì)算使存儲(chǔ)擁有了與業(yè)務(wù)同步成長的可能。
而且Amazon S3還提供了遠(yuǎn)超本地存儲(chǔ)的可靠性,具有的11個(gè)9(99.999999999%)的持久性,意味著一萬年時(shí)間跨度中1000萬個(gè)對象才可能會(huì)丟一個(gè),用戶使用Amazon S3不需要在本地構(gòu)建數(shù)據(jù)中心,無需操心數(shù)據(jù)存放位置,不用擔(dān)心擴(kuò)容問題,也幾乎不用擔(dān)心數(shù)據(jù)丟失的風(fēng)險(xiǎn)。
豐富的存儲(chǔ)級別,Amazon S3以更經(jīng)濟(jì)的方式承載更多數(shù)據(jù)與應(yīng)用
隨著企業(yè)數(shù)字化轉(zhuǎn)型的逐步推進(jìn),以及云計(jì)算技術(shù)對企業(yè)IT技術(shù)的重塑,企業(yè)在云上存放了數(shù)量眾多、類型多樣的數(shù)據(jù),并在云上構(gòu)建了越來越多的應(yīng)用。企業(yè)一方面要解決存儲(chǔ)成本持續(xù)增加的挑戰(zhàn);另一方面還需要滿足不同應(yīng)用的數(shù)據(jù)不同訪問模式,比如,有的數(shù)據(jù)訪問頻次不同,需要的檢索時(shí)效不同,有的需要即時(shí)檢索,有的在幾十個(gè)小時(shí)檢索。
針對客戶的這些需求,亞馬遜云科技持續(xù)針對Amazon S3持續(xù)開展創(chuàng)新,如今Amazon S3提供了9個(gè)存儲(chǔ)層級,不同層級有不同的訪問特性和成本水平。2012年是云計(jì)算方興未艾的年代,亞馬遜云科技在標(biāo)準(zhǔn)Amazon S3的基礎(chǔ)上又發(fā)布了Amazon S3 Glacier(現(xiàn)已更名為Amazon S3 Glacier Flexible Retrieval ),它為需要長期存儲(chǔ),且低訪問頻次的數(shù)據(jù)提供了低成本的數(shù)據(jù)存儲(chǔ)方案,也成了云上存儲(chǔ)多樣化的一個(gè)重要開端。
此后,為了提供更加靈活的數(shù)據(jù)存取速度和成本效率,滿足更多應(yīng)用需求。亞馬遜云科技先后推出了成本最低的深度歸檔存儲(chǔ)Amazon S3 Glacier Deep Archive,支持快速檢索的歸檔存儲(chǔ)Amazon S3 Glacier Instant Retrieval,以及不常訪問、但在需要時(shí)要能快速訪問的Amazon S3 Standard-IA和Amazon S3 One Zone-IA等。
金山辦公是國內(nèi)領(lǐng)先的辦公軟件和服務(wù)提供商,其旗艦產(chǎn)品 WPS Office是全球主流辦公軟件產(chǎn)品之一。WPS Office 對數(shù)據(jù)的存儲(chǔ)和管理有極為嚴(yán)苛的要求:WPS Office 存儲(chǔ)了 PB 級海量數(shù)據(jù),帶來了巨大的存儲(chǔ)成本壓力;同時(shí),由于 WPS Office 為用戶提供對 “冷” 文檔的及時(shí)訪問,因此對歸檔存儲(chǔ)(Archive Storage)的數(shù)據(jù)提取時(shí)間也有更高的標(biāo)準(zhǔn)。為了降低最終用戶的延遲和存儲(chǔ)成本,WPS Office 在亞馬遜云科技的協(xié)助下,最終通過 Amazon S3 完成了自動(dòng)化生命周期管理流程的建立。其中,針對很少訪問且需要毫秒級檢索的長期數(shù)據(jù),將其歸檔在更具有成本效益的 Amazon S3 Glacier Instant Retrieval 中。最終,WPS Office 有近一半的存儲(chǔ)進(jìn)入到了 Amazon S3 Glacier Instant Retrieval 中,達(dá)成了數(shù)據(jù)訪問速度提升和存儲(chǔ)成本大幅優(yōu)化的雙重效果。
此外,針對用戶訪問模式不明確以及數(shù)據(jù)訪問模式不斷改變的情況,亞馬遜云科技還推出了Amazon S3新的存儲(chǔ)層級——Amazon S3 Intelligent-Tiering。該服務(wù)可以根據(jù)訪問頻率自動(dòng)將數(shù)據(jù)移至成本最低的存儲(chǔ)層,在對象級別降低存儲(chǔ)成本,并且不會(huì)影響性能表現(xiàn)。自 2018 年Amazon S3 Intelligent-Tiering 推出以來,與 Amazon S3 Standard 相比,客戶通過采用 S3 Intelligent-Tiering 節(jié)省了 20 億美元。
迎接人工智能技術(shù)發(fā)展,Amazon S3性能實(shí)現(xiàn)突破性提升
隨著新的使用場景的出現(xiàn),如機(jī)器學(xué)習(xí)訓(xùn)練和推理、交互式分析、金融模型模擬、實(shí)時(shí)廣告和媒體內(nèi)容創(chuàng)建,這類工作負(fù)載可能每分鐘寫入和訪問數(shù)據(jù)達(dá)百萬次,并需要一致的、毫秒級的響應(yīng)時(shí)間以滿足性能需求。例如,人工智能(AI)和機(jī)器學(xué)習(xí)模型訓(xùn)練通常需要在幾分鐘內(nèi)處理數(shù)百萬張圖片和文本行,因此數(shù)據(jù)訪問速度對于實(shí)現(xiàn)最高的計(jì)算效率至關(guān)重要。
Amazon S3上存儲(chǔ)著各種不同類型的大量非結(jié)構(gòu)化數(shù)據(jù),這些非結(jié)構(gòu)化數(shù)據(jù)通常是直接從真實(shí)世界中獲取的,因此它能更真實(shí)地反映現(xiàn)實(shí)世界的復(fù)雜性和多維度信息,利用這些數(shù)據(jù)做訓(xùn)練能提高模型的實(shí)用價(jià)值,更好地滿足企業(yè)用戶需求。去年底,亞馬遜云科技在2023年re:Invent全球大會(huì)上,發(fā)布Amazon S3 Express One Zone,這是Amazon S3在性能方面的一次突破性提升。它采用了單可用區(qū)的架構(gòu)設(shè)計(jì),擁有個(gè)位數(shù)毫秒級響應(yīng)時(shí)間,性能比標(biāo)準(zhǔn)版Amazon S3快了10倍,每分鐘可處理數(shù)百萬次請求。
對于計(jì)算密集型負(fù)載,Amazon S3 Express One Zone延遲的降低對用戶有顯而易見的價(jià)值。用ImageNet數(shù)據(jù)集進(jìn)行為期15天訓(xùn)練時(shí),GPU經(jīng)常需要等候標(biāo)準(zhǔn)版Amazon S3加載數(shù)據(jù),而在換成S3 Express One Zone之后,GPU利用率持續(xù)穩(wěn)定在高水平,最終提早完成任務(wù),釋放了GPU資源并節(jié)省成本。
Colorfront 致力于為電影行業(yè)開發(fā)高性能數(shù)字處理技術(shù)?!癈olorfront 將高性能 GPU 架構(gòu)與 Amazon S3 Express One Zone 集成,實(shí)現(xiàn)對文件進(jìn)行轉(zhuǎn)碼、解碼、轉(zhuǎn)換和封裝到各種格式的加速處理?!?Colorfront 解決方案工程總監(jiān) Brandon Heaslip 表示,“借助 Amazon S3 Express One Zone 個(gè)位數(shù)毫秒級的數(shù)據(jù)訪問速度,Colorfront的客戶可以將數(shù)字視頻處理速度提高70%,滿足了流媒體傳輸中多樣化的媒體和娛樂需求,并保持?jǐn)?shù)字視頻的標(biāo)準(zhǔn)?!?/p>
除了Amazon S3 Express One Zone以外,亞馬遜云科技還發(fā)布了多個(gè)新特性,讓Amazon S3更好地支撐人工智能/機(jī)器學(xué)習(xí)工作負(fù)載。亞馬遜云科技在Amazon Common Runtime (CRT)中封裝訪問Amazon S3的性能最佳實(shí)踐,從而提高S3的傳輸性能和傳輸穩(wěn)定性。而且,CRT已經(jīng)集成到包括AWS Python SDK、AWS CLI、Mountpoint以及PyTorch中,在CRT的幫助下,Mountpoint for Amazon S3和Amazon S3 Connector for PyTorch都可以提高存儲(chǔ)的性能表現(xiàn),為機(jī)器學(xué)習(xí)負(fù)載中的數(shù)據(jù)存儲(chǔ)提供加速,使其更快完成訓(xùn)練任務(wù),進(jìn)而幫助企業(yè)節(jié)省成本。
結(jié)束語
在過去的18年里,Amazon S3成為眾多用戶上云的第一步,從存儲(chǔ)開始步入云計(jì)算驅(qū)動(dòng)的數(shù)字化轉(zhuǎn)型。如今,Amazon S3還在持續(xù)創(chuàng)新,全球數(shù)百萬客戶正使用Amazon S3存儲(chǔ)各種類型的數(shù)據(jù),并將Amazon S3的數(shù)據(jù)對接到亞馬遜云科技各種計(jì)算引擎、數(shù)據(jù)庫引擎,與人工智能/機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析等服務(wù)高度集成,為其業(yè)務(wù)創(chuàng)新帶來了更廣泛的可能性。
- QQ:61149512