在數(shù)字經(jīng)濟蓬勃發(fā)展的時代背景下,數(shù)據(jù)已成為基礎性資源、重要生產(chǎn)力和關鍵生產(chǎn)要素。習近平總書記深刻指出,數(shù)據(jù)在數(shù)字經(jīng)濟時代中的核心地位。近年來,隨著大模型技術的不斷突破,大規(guī)模高質(zhì)量訓練數(shù)據(jù)的投入成為了推動“以數(shù)據(jù)為中心的人工智能”邁向新階段的關鍵因素。Deep Seek 系列模型訓練中大量高質(zhì)量推理數(shù)據(jù)集的使用,進一步凸顯了高質(zhì)量數(shù)據(jù)在人工智能領域的重要性。為了加速這一進程,國家數(shù)據(jù)局圍繞高質(zhì)量數(shù)據(jù)集建設,已經(jīng)開展了一系列的工作部署。
一、高質(zhì)量數(shù)據(jù)集建設的進展與挑戰(zhàn)
在頂層設計上,國家數(shù)據(jù)局等17部門聯(lián)合印發(fā)的《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》,明確了場景需求牽引下的數(shù)據(jù)要素高質(zhì)量供給和合規(guī)高效流通。在地方層面,湖北、江蘇、浙江等省市積極響應,明確了高質(zhì)量數(shù)據(jù)集建設的目標、時間表和激勵機制。在行業(yè)層面,智源研究院發(fā)布的全球最大多行業(yè)中英雙語數(shù)據(jù)集IndustryCorpus 1.0,以及中國信通院推出的首個面向行業(yè)的人工智能數(shù)據(jù)集質(zhì)量評估體系,都標志著高質(zhì)量數(shù)據(jù)集建設取得了積極進展。
然而,高質(zhì)量數(shù)據(jù)集建設仍面臨諸多挑戰(zhàn)。首先,政府和業(yè)界對于行業(yè)高質(zhì)量發(fā)展所需數(shù)據(jù)的具體形態(tài)和需求缺乏清晰認識。行業(yè)大模型數(shù)據(jù)的需求具有多樣性和復雜性,要求深入理解業(yè)務場景,并在數(shù)據(jù)處理和管理上具備高度靈活性。其次,行業(yè)企業(yè)在構建高質(zhì)量數(shù)據(jù)集方面缺乏經(jīng)驗和技術支持,傳統(tǒng)的數(shù)據(jù)處理工具和技術無法滿足大模型的需求。最后,業(yè)界對于行業(yè)數(shù)據(jù)集質(zhì)量的評價標準不統(tǒng)一,導致無法有效獲取和利用高質(zhì)量數(shù)據(jù)集資源。
二、分類推動高質(zhì)量數(shù)據(jù)集供給體系建設
針對上述挑戰(zhàn),我們需要根據(jù)急用先行、分類推進、合理使用的原則,加快高質(zhì)量數(shù)據(jù)集建設。具體來說,可以分為以下三個方面:
加快行業(yè)通用類高質(zhì)量數(shù)據(jù)集建設:這類數(shù)據(jù)集針對特定行業(yè)或領域,具有高度的專業(yè)性和針對性。通過覆蓋行業(yè)領域專業(yè)知識,可以提高模型在行業(yè)通識領域的泛化能力,為行業(yè)應用提供有力支持。
加快行業(yè)專用類高質(zhì)量數(shù)據(jù)集建設:這類數(shù)據(jù)集根據(jù)行業(yè)企業(yè)自身業(yè)務場景和需求收集,具有針對性和定制化的特點。通過定制化優(yōu)化大模型算法和參數(shù)設置,可以深度挖掘內(nèi)部數(shù)據(jù)價值,實現(xiàn)模型與業(yè)務的高度適配。
三、提升高質(zhì)量數(shù)據(jù)集構建能力
推動高質(zhì)量數(shù)據(jù)集建設是一項系統(tǒng)工程,需要系統(tǒng)性地加強能力建設。具體來說,可以從以下幾個方面入手:
四、結語
高質(zhì)量數(shù)據(jù)集是推動“人工智能+”行動的新引擎。此次高質(zhì)量數(shù)據(jù)集建設工作啟動會發(fā)出了動員令、吹響了集結號。相信在國家數(shù)據(jù)局的引領下,通過政、產(chǎn)、學、研、用多方協(xié)同,我國高質(zhì)量數(shù)據(jù)集建設步伐將越來越快,為人工智能賦能實體經(jīng)濟注入強勁動力。讓我們攜手共進,共同開創(chuàng)高質(zhì)量數(shù)據(jù)集建設的新篇章!