- +1
AWS網(wǎng)絡(luò)主管談路線圖、空心光纖和數(shù)據(jù)中心未來
AWS 并非靠保守策略成為全球領(lǐng)先的云服務(wù)提供商。
該公司正在加倍投入人工智能基礎(chǔ)設(shè)施,制定了 2026 年 2000 億美元的資本支出計劃。其中大部分投資將投入到網(wǎng)絡(luò)服務(wù)組合中。
但 AWS 投入 2000 億美元并非無的放矢——它正在重新定義網(wǎng)絡(luò)物理特性,以控制延遲并避免潛在瓶頸。通過空心光纖等新興技術(shù)、持續(xù)重視內(nèi)部硬件開發(fā)以及重新設(shè)計的控制平面,該公司旨在為未來多云服務(wù)樹立標(biāo)準(zhǔn)。
AWS 已構(gòu)建了分層網(wǎng)絡(luò)生態(tài)系統(tǒng),并正在提升數(shù)據(jù)中心電力容量。在 2025 年第三季度財報電話會議上,亞馬遜首席執(zhí)行官 Andy Jassy 表示,AWS 在 2025 年單年就增加了 3.8 GW 的數(shù)據(jù)中心容量。
該公司有充分理由將所有精力集中在人工智能基礎(chǔ)設(shè)施上。
該公司的網(wǎng)絡(luò)服務(wù)組合見證了企業(yè)需求的大幅增長,同比增長強勁。根據(jù) Polaris Market Research 的數(shù)據(jù),全球多云網(wǎng)絡(luò)市場預(yù)計到 2034 年將增長到 365 億美元,反映了企業(yè) IT 架構(gòu)為滿足人工智能軍備競賽需求而發(fā)生的轉(zhuǎn)變。
AWS 核心網(wǎng)絡(luò)副總裁 Matt Rehder 接受了 Data Center Knowledge 的廣泛采訪。他指出,公司正在采取大膽舉措,包括啟用空心光纖——傳統(tǒng)光纖的新興挑戰(zhàn)者——來擴展其在都市區(qū)域的網(wǎng)絡(luò)武器庫。
以下是與 Rehder 關(guān)于 AWS 未來采訪的部分轉(zhuǎn)錄,為簡潔明了已進(jìn)行編輯:
DCK:AWS 已概述了 2026 年的重大資本支出計劃,網(wǎng)絡(luò)將大受其益。像空心光纖這樣的新興技術(shù)如何適應(yīng)這種規(guī)模的支出,最終目標(biāo)是什么?
Rehder:我們看到的是——由生成式人工智能和傳統(tǒng)云工作負(fù)載驅(qū)動——各方面客戶增長加速,這直接轉(zhuǎn)化為對更多帶寬的需求。
這種需求表現(xiàn)在兩個方面。首先,我們部署的每臺服務(wù)器都需要連接到網(wǎng)絡(luò),每臺服務(wù)器的帶寬持續(xù)隨時間增加。其次,我們所有的數(shù)據(jù)中心必須互連——在可用區(qū)內(nèi)、跨區(qū)域、區(qū)域之間以及對外連接。這種持續(xù)的帶寬增長是我們多年來一直看到的,但人工智能顯然加速了這一趨勢。
我們的優(yōu)先級是可用性、可靠性和彈性。如果網(wǎng)絡(luò)不工作,其他一切都不重要。核心目標(biāo)是無約束擴展。我們絕不希望網(wǎng)絡(luò)成為業(yè)務(wù)的阻礙。這意味著要有足夠的端口、足夠的帶寬和足夠的彈性,讓客戶完全不必考慮網(wǎng)絡(luò)問題。
DCK:空心光纖長期以來因成本和供應(yīng)擔(dān)憂被認(rèn)為不實用。什么發(fā)生了變化,AWS 今天實際在哪里部署它?
Rehder:在我 25 年的職業(yè)生涯中,空心光纖大部分時間都被討論為理論概念。我們一直知道它在物理上是可能的,但無法大規(guī)模制造。
四五年前,隨著學(xué)術(shù)研究改進(jìn)了生產(chǎn)技術(shù),情況開始改變。即使現(xiàn)在,它仍然是新興技術(shù)。兩個難題是可制造性——能否生產(chǎn)長距離、可靠的光纖段?——以及成本。
對我們來說,主要用例是長距離互連。AWS 可用區(qū)由多個數(shù)據(jù)中心組成,客戶將其視為一個邏輯設(shè)施。要實現(xiàn)這一點,我們需要大約半毫秒以下的延遲。這個約束限制了設(shè)施之間的距離。
空心光纖讓我們能夠擴大這個半徑。當(dāng)土地或電力無法在足夠近的距離獲得時,它給了我們更多靈活性。今天,它比傳統(tǒng)光纖貴得多,但如果它能在我們原本無法建設(shè)的地方實現(xiàn)擴展,它仍然是正確的權(quán)衡。
我們在非常少的地點使用它——大約五到十個——特別是存在地理約束的地方。長期來看,如果成本下降,我預(yù)計空心光纖將變得更加普遍。除了延遲之外,它的信號損耗更低,可以支持更高帶寬或減少放大需求。
DCK:在數(shù)據(jù)中心內(nèi),人工智能工作負(fù)載改變了游戲規(guī)則。你在大規(guī)模情況下看到哪些新的網(wǎng)絡(luò)瓶頸?
Rehder:有兩個突出問題。
首先是控制平面可擴展性。機器學(xué)習(xí)服務(wù)器比傳統(tǒng)基于 CPU 的系統(tǒng)需要兩到三倍的每服務(wù)器帶寬。當(dāng)我們擴展網(wǎng)絡(luò)以滿足這種需求時,設(shè)備和光鏈路的數(shù)量急劇增長。
在那時,傳統(tǒng)的控制平面方法不再有效?;謴?fù)時間增加,收斂變慢,你會遇到算法限制。2020 年左右,我們專門為機器學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建了新的控制平面。它實現(xiàn)了故障的亞秒級恢復(fù),跨數(shù)千設(shè)備的一致編程,以及擴展到數(shù)十萬鏈路而不遇到瓶頸。
該系統(tǒng)現(xiàn)在正成為我們所有網(wǎng)絡(luò)的基礎(chǔ),不僅僅是機器學(xué)習(xí),因為它根本上更好。
第二個挑戰(zhàn)是布線。在超大規(guī)模情況下,單個數(shù)據(jù)中心可能有數(shù)十萬條物理鏈路。這在重量、路由、部署速度和長期維護(hù)方面產(chǎn)生問題。
我們投資了更好的跟蹤系統(tǒng)、改進(jìn)的電纜設(shè)計和新的連接器技術(shù),將許多光纖聚合到單個連接中。這減少了部署時間并提高了大規(guī)??煽啃浴?/p>
DCK:AWS 設(shè)計了大部分自己的網(wǎng)絡(luò)硬件。這種垂直整合提供了什么優(yōu)勢?
Rehder:我們大約 15 年前開始開發(fā)自己的網(wǎng)絡(luò)硬件,最初只是為了服務(wù)器連接。今天,我們幾乎整個網(wǎng)絡(luò)——從機架頂部交換機到骨干網(wǎng)和互聯(lián)網(wǎng)邊緣——都運行在我們自己的設(shè)備上。
最大的優(yōu)勢是一致性。我們在任何地方都使用相同的基本構(gòu)建塊:相同的 ASIC、外形因子和操作系統(tǒng)。這簡化了供應(yīng)鏈,讓我們能夠一次性在整個網(wǎng)絡(luò)中應(yīng)用軟件改進(jìn)。
它還實現(xiàn)了我們無法以其他方式構(gòu)建的能力。例如,我們的控制平面部分運行在設(shè)備本身上。這在現(xiàn)成設(shè)備上是不可能的。
在操作上,它改進(jìn)了配置、監(jiān)控和維修。我們可以自動化測試,精確提取我們想要的遙測數(shù)據(jù),并自動觸發(fā)修復(fù)。每個增量改進(jìn)都會在整個網(wǎng)絡(luò)中擴展。
DCK:AWS 還構(gòu)建了高精度時間服務(wù)。為什么這是必要的,它解鎖了什么?
Rehder:2019 年左右,我們開始關(guān)注時間精度。像 NTP 這樣的標(biāo)準(zhǔn)方法可能有幾秒鐘的偏差,這在大型分布式系統(tǒng)中產(chǎn)生真正的問題,特別是在一致性和排序方面。
僅軟件解決方案無法克服網(wǎng)絡(luò)變化,所以我們構(gòu)建了一個基于硬件的時間網(wǎng)絡(luò),與我們的數(shù)據(jù)網(wǎng)絡(luò)并行運行。每個數(shù)據(jù)中心都有通過 GPS 同步的原子鐘。專用設(shè)備分發(fā)定時脈沖,每臺服務(wù)器上的硬件——使用我們的 Nitro 平臺——以納秒級精度接收該脈沖。
這在軟件中實現(xiàn)了微秒級精度。它解鎖了高度一致的分布式數(shù)據(jù)庫等新功能,并使金融交易所等工作負(fù)載在云中變得可行。納斯達(dá)克已經(jīng)演示了交易所如何在這種架構(gòu)上運行。這在十年前根本不可能。
DCK:隨著電力和冷卻約束加劇,能源限制在多大程度上影響你們的網(wǎng)絡(luò)路線圖?
Rehder:能源不會限制我們的路線圖,但效率是主要關(guān)注點。我們密切關(guān)注每比特瓦數(shù)——傳輸數(shù)據(jù)需要多少功率。
因為我們控制硬件,我們可以在非常精細(xì)的層面進(jìn)行優(yōu)化:風(fēng)扇算法、組件選擇以及基于負(fù)載的動態(tài)功率擴展。每個設(shè)備的收益可能很小,但在數(shù)千個交換機和許多數(shù)據(jù)中心中,它們累積成總功耗的顯著減少。
這有利于環(huán)境、客戶和我們的成本結(jié)構(gòu)。
DCK:展望三到五年,今天常見的哪些網(wǎng)絡(luò)假設(shè)在十年末將過時?
Rehder:兩個主要轉(zhuǎn)變突出。
首先,液體冷卻將成為網(wǎng)絡(luò)設(shè)備的標(biāo)準(zhǔn),不僅僅是服務(wù)器。混合液冷服務(wù)器和風(fēng)冷網(wǎng)絡(luò)增加了復(fù)雜性,液體提供效率優(yōu)勢。
其次,光學(xué)集成將發(fā)生變化。今天的可插拔光學(xué)器件提供靈活性和可維護(hù)性,這在大規(guī)模情況下很有價值。完全共封裝光學(xué)器件長期以來一直被討論,但在可靠性和操作權(quán)衡方面遇到困難。
我認(rèn)為行業(yè)將轉(zhuǎn)向共封裝連接器——將連接器更緊密地集成到 ASIC 附近,同時保持光學(xué)引擎模塊化。這提供了效率收益,同時不犧牲供應(yīng)商多樣性,這對 AWS 規(guī)模至關(guān)重要。
DCK:最后,AWS 客戶在 2026 年網(wǎng)絡(luò)方面應(yīng)該期待什么?
Rehder:理想情況下,更多的透明性。更多容量、更多帶寬、更低延遲、更少數(shù)據(jù)包丟失和更少抖動。
客戶應(yīng)該看到容量的持續(xù)擴展、更好的性能以及與計算、存儲和加速實例的更緊密集成。我們的目標(biāo)很簡單:確保網(wǎng)絡(luò)永遠(yuǎn)不會阻礙客戶想要構(gòu)建的東西。
Q&A
Q1:空心光纖技術(shù)相比傳統(tǒng)光纖有什么優(yōu)勢?
A:空心光纖的主要優(yōu)勢是更低的延遲和信號損耗。它讓AWS能夠擴大數(shù)據(jù)中心之間的連接半徑,在土地或電力資源無法在足夠近距離獲得時提供更多靈活性。雖然目前成本比傳統(tǒng)光纖高得多,但它能支持更高帶寬或減少信號放大需求,長期來看有望成為主流技術(shù)。
Q2:AWS為什么要開發(fā)自己的網(wǎng)絡(luò)硬件而不使用現(xiàn)成產(chǎn)品?
A:AWS自研硬件的最大優(yōu)勢是一致性和可控性。使用相同的ASIC、外形因子和操作系統(tǒng)簡化了供應(yīng)鏈,能夠一次性在整個網(wǎng)絡(luò)中應(yīng)用軟件改進(jìn)。這還實現(xiàn)了現(xiàn)成設(shè)備無法提供的能力,比如控制平面可以部分運行在設(shè)備本身上,并且能夠自動化測試、精確提取遙測數(shù)據(jù)和自動觸發(fā)修復(fù)。
Q3:AWS的高精度時間服務(wù)解決了什么問題?
A:傳統(tǒng)的時間同步方法如NTP可能有幾秒鐘的偏差,在大型分布式系統(tǒng)中會導(dǎo)致一致性和排序問題。AWS構(gòu)建了基于硬件的時間網(wǎng)絡(luò),每個數(shù)據(jù)中心都有GPS同步的原子鐘,通過Nitro平臺實現(xiàn)納秒級精度接收,在軟件中達(dá)到微秒級精度。這使得高度一致的分布式數(shù)據(jù)庫和金融交易所等應(yīng)用在云中變得可行。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




