中文高質量數據集加速建設

大模型如何更懂“中國話”（“十五五”文化熱詞·推進文化和科技融合）

本報記者王雲杉

2025年12月25日08:58 來源：人民網－人民日報222

點擊播報本文，約

　　“過馬路時，你要注意看車！”

　　“我計劃明天去車展看車。”

　　這兩句話裡的“看車”是一個意思嗎？相信不少人要會心一笑，表面上看是同一個詞組，但其含義因語境不同發生了變化。

　　這就是中文裡常見的“一詞多義”現象。人工智能大模型是一種與人類語言密切相關的技術，要讓大模型深刻理解這一現象，離不開中文數據的持續供給。

　　目前，國內多數模型訓練使用的數據，中文數據佔比已經超過60%，有的模型達到80%。大模型訓練中，中文數據佔比提升有何意義？中文高質量數據為何持續增加？如何進一步增加中文數據的開發與供給？記者進行了採訪。

　　數據就像大模型的“知識教材”

　　不同語言的數據對大模型性能有怎樣的影響？“數據就像大模型的‘知識教材’，教材的語言屬性不同，會對模型的知識體系產生不同影響。”清華大學計算社會科學與國家治理實驗室執行主任、教授孟慶國表示。

　　從知識來源看，過去我國大模型常面臨“數據依賴”風險——英文數據在全球互聯網的佔比較高，如前沿科技論文、行業標准、文化典籍等多以英文呈現，全球高質量標注數據也多以英文為主。

　　“語言類大模型一般需要遵循一定的語言習慣。”工業和信息化部信息通信經濟專家委員會委員盤和林認為，中文數據佔比提高，既方便了用戶理解其輸出結果，又可以保障和提升我國在大模型上的研發能力。

　　“若中文數據佔比低，模型在關鍵技術迭代中易受‘數據授權限制’‘更新延遲’等影響。”孟慶國說，中文數據佔比提高，助力我國在“數據安全”“技術自主”上邁出關鍵步伐，有利於我國掌握大模型發展主動權。

　　“中文數據中獨有的文化習慣、隱喻表達、政策術語等在英文數據中難以得到體現。模型長期學習英文數據，所形成的‘英文式認知邏輯’，在理解中文特有的思維方式時容易出現偏差。”科大訊飛消費者AI交互業務部總經理趙艷軍介紹，中文數據比重的提升，增強了大模型對中華文化及中國場景的理解能力。比如中醫問診時，“上火”“濕氣”等概念需要中文語境才能准確推理。

　　從知識傳承看，中文數據承載著我國數千年的文化積累，中文數據佔比提高，能讓大模型推動中華文化的數字化傳播。“中文數據佔比高的模型能講解‘文言文虛詞用法’‘詩詞平仄規律’等。比如，在解釋‘之乎者也’時，結合《論語》《孟子》等中文典籍案例，讓傳統文化教育更生動。”孟慶國說。

　　中文高質量數據供給能力不斷增強

　　中文普通數據和中文高質量數據有何區別？普通數據多為未經審核的網絡文本、非專業內容，易出現事實錯誤或概念混淆。而高質量數據需經過“事實核查、專業審核”，語義准確且來源可追溯。

　　要理解中文高質量數據的重要性，可從醫療診斷這一專業場景講起。今年8月，中文臨床醫學知識圖譜“磐醫知識圖譜”在浙江台州發布。“當前，一些大模型學習的醫學知識，來源於互聯網公開數據，而這些公開數據，有的不嚴謹、有的存在矛盾、有的更新滯后，這些情況都會對大模型生成的結果產生負面影響。”浙江省全省醫療智能決策重點實驗室主任林輝表示，“磐醫知識圖譜”中的數據均由醫學專家審核，每個知識點都有明確來源，且動態更新醫學進展。

　　大模型性能的提升，體現了中文高質量數據的價值。得益於一系列因素的合力助推，中文高質量數據的供給能力不斷增強——

　　政策有支持。從《“數據要素×”三年行動計劃（2024—2026年）》提出“打造高質量人工智能大模型訓練數據集”，到國家數據局布局建設數據標注基地，政策利好下，大量中文高質量數據集加速建設。

　　技術有突破。中文數據因“歧義多、語境依賴強”，早期標注成本是英文數據的1.8—2.5倍，隨著技術不斷進步，開發難度也在降低。例如，國內某“中文語義標注系統”已可自動區分“打毛衣”“打電話”中“打”的含義，讓標注效率提升了3倍，且成本有效降低。

　　行業有共識。國內垂直場景對“中文適配”大模型的需求不斷升溫，推動中文數據從“輔助補充”變為“核心資源”，更多企業參與到中文數據的開發之中。如中國移動已建成覆蓋超30個行業、超3500TB（太字節）的通用高質量數據集。

　　協同建標准，細分多場景

　　Token（通常所說的“詞元”）是處理文本的最小數據單元。數據顯示，2024年初，我國日均Token的消耗量為1000億，截至今年9月底，我國日均Token消耗量已突破40萬億。這些數字背后，是中文數據資源的快速積累和價值釋放。

　　如何進一步增強中文數據的開發和供給？專家學者帶來了思考和建議。

　　首先是建標准。現有的中文數據中，重復的內容多、質量高的少，尤其是在醫療、工業等垂直領域，高質量數據更是稀缺。比如醫療數據，有的醫院記錄病歷隻寫“發燒”，有的會寫“發燒38.5攝氏度、伴咳嗽2天”，若無標准的“尺子”判斷數據質量，進一步的開發難以推進。

　　“明確了不同領域的中文標注標准后，才更有利於建設和完善評價、激勵機制。”孟慶國認為，應加快研究制定中文數據分級標准，從而釋放中文數據的供給活力。

　　其次是強技術。高質量數據集的建設過程中仍不可避免會遇到大量數據孤島和合規難題，比如，不同機構的數據因為隱私安全等合規要求，難以跨域流通，導致各機構重復開展數據標注，既浪費資源，又無法形成規模效應。

　　“可推廣應用新一代標注技術，在原始數據不出域且保証隱私安全的條件下，完成跨機構協同標注，從而整合多機構力量，避免重復勞動。”趙艷軍說。

　　此外要補場景。我國產業體系完備，其廣度和深度決定了需要更多細分場景的中文數據。“比如，在元宇宙等新興場景中，中文數據使用量僅為英文的1/5﹔又如，中醫、非遺等傳統場景數字化程度低，大量寶貴信息尚未轉化為可用數據資源。”孟慶國表示，可推動政產學研用協同，專項採集各種垂直場景中文數據，激活產業應用。

　　推進文化和科技融合

　　“十五五”規劃建議提出，“推進文化和科技融合”。探索文化和科技融合的有效機制，需要用互聯網思維和信息技術改進文化創作生產流程，推動文化建設數智化賦能、信息化轉型。

　　“文化IP+科技體驗”，重塑文旅產業生態。通過線上數字平台與線下沉浸場景的結合，多地打造數字文旅空間、開發“旅游+智能體”新應用等，實現文化和科技雙向賦能。“文化創作+人工智能”，拓展產業融合場景。當前，以大模型為代表的AI技術，與影視、文博等領域深度融合，催生出AI短劇、博物館數字文創等新產品，不僅豐富了文化表達方式，也培育出更多文化消費新場景。“特色文化+數字技術”，助力鄉村全面振興。通過數字技術，將地標農產品、鄉村非遺技藝融入微短劇等內容創作，能夠進一步提升特色文化產品的創意能力和表現力，為鄉村全面振興注入新動能。

　　——北京大學文化產業研究院學術委員會主任陳少峰

　　《人民日報》（ 2025年12月25日 07 版）

(責編：王瀟瀟、彭曉玲)

學習路上
時習之

習近平
系列重要講話數據庫
中央文件

學習宣傳貫徹
黨的二十大精神

跟著總書記學黨史
數據庫

中央和國家機關
建設模范機關

言之有理
學習文選

微信“掃一掃”添加“學習大國”