- +1
AWS網(wǎng)絡工程副總裁談空芯光纖、AI與數(shù)據(jù)中心創(chuàng)新
AWS 并非靠保守策略成為全球領先的云服務提供商。該公司正在加倍投資其 AI 基礎設施,計劃在 2026 年投入 2000 億美元資本支出,其中大部分將投入到網(wǎng)絡服務組合中。
AWS 投入這 2000 億美元并非盲目投資,而是在重寫其網(wǎng)絡物理特性,以控制延遲并避免潛在的瓶頸。通過空芯光纖等新興技術、持續(xù)專注于內(nèi)部硬件開發(fā)以及重新設計的控制平面,該公司旨在為未來的多云標準樹立標桿。
AWS 已構(gòu)建了分層網(wǎng)絡生態(tài)系統(tǒng),并正在提升數(shù)據(jù)中心功率容量。在 2025 年第三季度財報電話會議中,亞馬遜 CEO 安迪·賈西表示,AWS 僅在 2025 年就增加了 3.8 GW 的數(shù)據(jù)中心容量。該公司有充分理由將所有精力集中在 AI 基礎設施上。
公司的網(wǎng)絡服務組合已經(jīng)看到了企業(yè)的巨大需求,實現(xiàn)了強勁的同比增長。據(jù)北極星市場研究預測,全球多云網(wǎng)絡市場預計到 2034 年將增長至 365 億美元,這反映了企業(yè) IT 架構(gòu)為滿足 AI 競賽需求而發(fā)生的轉(zhuǎn)變。
AWS 網(wǎng)絡工程副總裁馬特·雷德接受了廣泛訪談。他指出,公司正在采取大膽措施,包括啟用空芯光纖——傳統(tǒng)光纖的新興挑戰(zhàn)者——來擴展其在都市區(qū)的網(wǎng)絡軍械庫。
數(shù)據(jù)中心知識:AWS 已為 2026 年制定了重大資本支出計劃,網(wǎng)絡將大幅受益??招竟饫w等新興技術如何適應這種規(guī)模的支出?
馬特·雷德:我們看到的情況是,由生成式 AI 和傳統(tǒng)云工作負載驅(qū)動,客戶全面加速增長,這直接轉(zhuǎn)化為對更多帶寬的需求。
這種需求以兩種方式體現(xiàn)。首先,我們部署的每臺服務器都需要連接到網(wǎng)絡,每臺服務器的帶寬需求隨時間持續(xù)增長。其次,我們所有的數(shù)據(jù)中心必須互連——在可用區(qū)內(nèi)、跨區(qū)域、區(qū)域間以及對外連接。這種持續(xù)的帶寬增長是我們多年來一直看到的,但 AI 顯然加速了這一進程。
我們的優(yōu)先級是可用性、可靠性和彈性。如果網(wǎng)絡不工作,其他一切都無關緊要。核心目標是無約束擴展。我們絕不希望網(wǎng)絡阻礙業(yè)務發(fā)展。這意味著擁有足夠的端口、足夠的帶寬和足夠的彈性,讓客戶完全不用考慮網(wǎng)絡問題。
數(shù)據(jù)中心知識:空芯光纖長期以來因成本和供應問題被認為不實用。什么發(fā)生了變化,AWS 目前實際在哪里部署它?
馬特·雷德:在我 25 年的職業(yè)生涯中,空芯光纖一直被討論,通常作為理論概念。我們一直知道它在物理上是可能的,但無法大規(guī)模制造。
這種情況在四五年前開始改變,學術研究改進了生產(chǎn)技術。即使現(xiàn)在,它仍然是一項新興技術。兩個難題是可制造性——你能生產(chǎn)長距離、可靠的光纖跨度嗎?——和成本。
對我們來說,主要用例是長距離互連。AWS 可用區(qū)由多個數(shù)據(jù)中心組成,客戶將其視為一個邏輯設施。要實現(xiàn)這一點,我們需要大約半毫秒以下的延遲。這一約束限制了設施之間的距離。
空芯光纖讓我們能夠擴大這個半徑。當土地或電力無法足夠靠近時,它為我們提供了更多靈活性。目前,它比傳統(tǒng)光纖貴得多,但如果它能夠在我們原本無法建設的地方實現(xiàn)擴展,仍然可能是正確的權衡。
我們在非常少的地點使用它——大約 5 到 10 個地點——特別是存在地理約束的地方。長期來看,如果成本下降,我預計空芯光纖將變得更加普遍。除了延遲,它還具有更低的信號損失,可以支持更高的帶寬或減少放大需求。
數(shù)據(jù)中心知識:在數(shù)據(jù)中心內(nèi)部,AI 工作負載已經(jīng)改變了游戲規(guī)則。您在規(guī)模化中看到了哪些新的網(wǎng)絡瓶頸?
馬特·雷德:有兩個突出問題。首先是控制平面可擴展性。機器學習服務器需要的每服務器帶寬是傳統(tǒng)基于 CPU 系統(tǒng)的兩到三倍。當我們擴展網(wǎng)絡以滿足這種需求時,設備和光鏈路數(shù)量急劇增長。
此時,傳統(tǒng)控制平面方法就不再好用了?;謴蜁r間增加,收斂變慢,你會遇到算法限制。大約在 2020 年,我們構(gòu)建了專門為機器學習網(wǎng)絡設計的新控制平面。它能夠?qū)崿F(xiàn)故障的亞秒級恢復、跨數(shù)千設備的一致編程,以及擴展到數(shù)十萬鏈路而不遇到瓶頸。
這個系統(tǒng)現(xiàn)在正成為我們所有網(wǎng)絡的基礎,不僅僅是機器學習,因為它根本上更好。
第二個挑戰(zhàn)是布線。在超大規(guī)模下,單個數(shù)據(jù)中心可能有數(shù)十萬條物理鏈路。這在重量、路由、部署速度和長期維護方面造成問題。
我們在更好的跟蹤系統(tǒng)、改進的電纜設計和將多根光纖聚合到單個連接的新連接器技術方面進行了投資。這減少了部署時間并提高了規(guī)?;煽啃?。
數(shù)據(jù)中心知識:AWS 設計了大部分自己的網(wǎng)絡硬件。這種垂直整合提供了什么優(yōu)勢?
馬特·雷德:我們大約 15 年前開始開發(fā)自己的網(wǎng)絡硬件,最初只是為了服務器連接。今天,我們幾乎整個網(wǎng)絡——從機架頂部交換機到骨干網(wǎng)和互聯(lián)網(wǎng)邊緣——都運行在我們自己的設備上。
最大的優(yōu)勢是一致性。我們在任何地方都使用相同的基本構(gòu)建塊:相同的 ASIC、外形因子和操作系統(tǒng)。這簡化了供應鏈,讓我們能夠一次性在整個網(wǎng)絡中應用軟件改進。
它還支持我們無法以其他方式構(gòu)建的功能。例如,我們的控制平面部分運行在設備本身上。這在現(xiàn)成設備上是不可能的。
在操作上,它改善了配置、監(jiān)控和維修。我們可以自動化測試,準確獲取我們想要的遙測數(shù)據(jù),并自動觸發(fā)修復。每一個漸進式改進都能擴展到整個網(wǎng)絡。
數(shù)據(jù)中心知識:AWS 還構(gòu)建了高精度時間服務。為什么這是必要的,它釋放了什么能力?
馬特·雷德:大約在 2019 年,我們開始專注于時間精度。NTP 等標準方法可能相差幾秒,這在大型分布式系統(tǒng)中造成真正的問題,特別是在一致性和排序方面。
純軟件解決方案無法克服網(wǎng)絡變化性,因此我們構(gòu)建了與數(shù)據(jù)網(wǎng)絡并行運行的基于硬件的時間網(wǎng)絡。每個數(shù)據(jù)中心都有通過 GPS 同步的原子鐘。專門設備分發(fā)時序脈沖,每臺服務器上的硬件——使用我們的 Nitro 平臺——以納秒級精度接收該脈沖。
這在軟件中實現(xiàn)了微秒級精度。它釋放了高度一致的分布式數(shù)據(jù)庫等新功能,并使金融交易所等工作負載在云中變得可行。納斯達克已經(jīng)演示了交易所如何在這種架構(gòu)上運行。這在十年前是不可能的。
數(shù)據(jù)中心知識:隨著功率和冷卻約束加劇,能源限制在多大程度上影響您的網(wǎng)絡路線圖?
雷德:能源不會限制我們的路線圖,但效率是一個主要焦點。我們密切關注每比特瓦數(shù)——移動數(shù)據(jù)所需的功率。
因為我們控制自己的硬件,我們可以在非常精細的層面進行優(yōu)化:風扇算法、組件選擇,以及基于負載的動態(tài)功率縮放。每個設備的收益可能很小,但在數(shù)千臺交換機和許多數(shù)據(jù)中心中,它們累積成總功耗的顯著減少。
這對環(huán)境、客戶和我們的成本結(jié)構(gòu)都有好處。
數(shù)據(jù)中心知識:展望三到五年,今天常見的哪些網(wǎng)絡假設到本十年末將過時?
馬特·雷德:兩個主要轉(zhuǎn)變突出。首先,液體冷卻將成為網(wǎng)絡設備的標準,不僅僅是服務器。將液冷服務器與風冷網(wǎng)絡混合增加了復雜性,液冷提供效率優(yōu)勢。
其次,光學集成將發(fā)生變化。今天的可插拔光學器件提供靈活性和可維護性,這在規(guī)模化中很有價值。完全共封裝光學器件長期以來一直被討論,但在可靠性和操作權衡方面存在困難。
我認為行業(yè)將轉(zhuǎn)向共封裝連接器——將連接器更靠近 ASIC 集成,同時保持光引擎模塊化。這在不犧牲供應商多樣性的情況下實現(xiàn)效率收益,這對 AWS 規(guī)模至關重要。
數(shù)據(jù)中心知識:最后,AWS 客戶在 2026 年網(wǎng)絡方面應該期待什么?
馬特·雷德:理想情況下,更多的透明性。更多容量、更多帶寬、更低延遲、更少丟包和更少抖動。
客戶應該看到持續(xù)的容量擴展、改進的性能,以及與計算、存儲和加速實例更緊密的集成。我們的目標很簡單:確保網(wǎng)絡永遠不會阻礙客戶想要構(gòu)建的東西。
Q&A
Q1:空芯光纖技術相比傳統(tǒng)光纖有什么優(yōu)勢?
A:空芯光纖的主要優(yōu)勢是延遲更低和信號損失更小。它能讓AWS擴大數(shù)據(jù)中心之間的連接半徑,在土地或電力資源無法足夠靠近的地方提供更多建設靈活性。此外,它還能支持更高的帶寬或減少信號放大需求。雖然目前成本比傳統(tǒng)光纖高得多,但在某些地理約束條件下仍然是正確的技術選擇。
Q2:AWS為什么要開發(fā)自己的網(wǎng)絡硬件而不使用現(xiàn)成產(chǎn)品?
A:AWS自主開發(fā)網(wǎng)絡硬件的最大優(yōu)勢是一致性。他們在所有地方使用相同的基本構(gòu)建塊,包括相同的ASIC、外形因子和操作系統(tǒng)。這簡化了供應鏈,讓他們能夠一次性在整個網(wǎng)絡中應用軟件改進。同時,這種垂直整合還支持他們構(gòu)建現(xiàn)成設備無法實現(xiàn)的功能,比如部分運行在設備本身上的控制平面。
Q3:AWS的高精度時間服務解決了什么問題?
A:傳統(tǒng)的時間同步方法如NTP可能相差幾秒,這在大型分布式系統(tǒng)中會造成一致性和排序問題。AWS構(gòu)建了基于硬件的時間網(wǎng)絡,每個數(shù)據(jù)中心都有通過GPS同步的原子鐘,能夠在軟件中實現(xiàn)微秒級精度。這使得高度一致的分布式數(shù)據(jù)庫和金融交易所等對時間要求極高的工作負載在云中變得可行。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




