- +1
多語(yǔ)言語(yǔ)料庫(kù)“萬(wàn)卷·絲路”發(fā)布,AI賦能共建“一帶一路”
1月9日,上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)聯(lián)合大模型語(yǔ)料數(shù)據(jù)聯(lián)盟成員發(fā)布了“萬(wàn)卷·絲路”多語(yǔ)言預(yù)訓(xùn)練語(yǔ)料庫(kù),為多語(yǔ)言大模型訓(xùn)練提供高質(zhì)量數(shù)據(jù)支撐。
隨著共建“一帶一路”進(jìn)入高質(zhì)量發(fā)展新階段,科技創(chuàng)新與合作將在其中發(fā)揮更關(guān)鍵的作用。上海AI實(shí)驗(yàn)室通過(guò)研發(fā)先進(jìn)數(shù)據(jù)智能技術(shù),提供多語(yǔ)言語(yǔ)料庫(kù)等舉措,探索以人工智能賦能高質(zhì)量共建“一帶一路”。
“萬(wàn)卷·絲路”首期開(kāi)源了包含泰、俄、阿、韓、越等五個(gè)語(yǔ)種的語(yǔ)料,總規(guī)模超1.2TB(單語(yǔ)種均超過(guò)150GB),Token總數(shù)超過(guò)300B,涵蓋使用上述語(yǔ)種國(guó)家地區(qū)的生活、百科、文化、新聞等七大領(lǐng)域數(shù)據(jù)。
數(shù)據(jù)是人工智能重要的基礎(chǔ)設(shè)施,數(shù)據(jù)質(zhì)量是決定人工智能應(yīng)用能力的關(guān)鍵因素之一。作為綜合性文本語(yǔ)料庫(kù),“萬(wàn)卷·絲路”采集了多個(gè)國(guó)家地區(qū)的網(wǎng)絡(luò)公開(kāi)信息、文獻(xiàn)、專利等資料,數(shù)據(jù)總規(guī)模超1.2TB,Token總數(shù)超過(guò)300B(300 billion),處于國(guó)際領(lǐng)先水平。首期開(kāi)源的語(yǔ)料庫(kù)主要由泰語(yǔ)、俄語(yǔ)、阿拉伯語(yǔ)、韓語(yǔ)和越南語(yǔ)5個(gè)子集構(gòu)成,每個(gè)子集的數(shù)據(jù)規(guī)模均超過(guò)150GB。
基于“書(shū)生·浦語(yǔ)”智能標(biāo)簽分類體系,研究團(tuán)隊(duì)將每個(gè)語(yǔ)料子集細(xì)分為7個(gè)大類和32個(gè)小類,覆蓋歷史、政治、文化、房產(chǎn)、購(gòu)物、天氣、餐飲、百科、專業(yè)知識(shí)等多類具有語(yǔ)言所在地特征內(nèi)容,便于研究者根據(jù)具體需求檢索數(shù)據(jù),并可適應(yīng)不同研究領(lǐng)域多樣化需求。

“萬(wàn)卷·絲路”語(yǔ)料庫(kù)子集分類(共計(jì)7個(gè)大類、32個(gè)小類,圖表中僅展示了部分標(biāo)簽)
“萬(wàn)卷·絲路”語(yǔ)料庫(kù)通過(guò)專家人工標(biāo)注,確立了包含七個(gè)維度的文本數(shù)據(jù)質(zhì)量評(píng)估體系,從完整性、有效性、可理解性、流暢性、相關(guān)性、相似性和安全性等方面保障數(shù)據(jù)的高標(biāo)準(zhǔn)與高質(zhì)量。
通過(guò)使用基于大語(yǔ)言模型的數(shù)據(jù)質(zhì)量評(píng)估開(kāi)源工具——Dingo(https://github.com/DataEval/dingo),研究團(tuán)隊(duì)從多維度對(duì)“萬(wàn)卷·絲路”的數(shù)據(jù)質(zhì)量進(jìn)行了全面評(píng)估。結(jié)果表明,其五個(gè)子集均獲得優(yōu)異的綜合評(píng)分。

大模型語(yǔ)料數(shù)據(jù)聯(lián)盟由上海人工智能實(shí)驗(yàn)室聯(lián)合中央廣播電視總臺(tái)、人民網(wǎng)、國(guó)家氣象中心、中國(guó)科學(xué)技術(shù)信息研究所、上海報(bào)業(yè)集團(tuán)、上海文廣集團(tuán)等10家單位聯(lián)合發(fā)起。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




