AI产业从通用模型向行业垂直应用快速融合下沉的阶段演进 ,人工智能三大基本要素之一数据,面临的高质量数据不足问题却凸显。
财联社记者最新从业内获悉,目前各大模型企业迫切希望获得更多更好的高质量数据集,需求集中于头部企业行业知识底座构建 ,人工智能高质量数据集的需求量 、交易量激增,已成为数据流通最活跃的领域 。不过,高质量数据集的建设、流通环节均面临诸多问题 ,目前数据交易所并非模型语料最主要的采购途径。
需求、交易爆发式增长
“我们从市场流通的角度做了一些分析,认为人工智能数据集已经成为数据流通最活跃的领域。去年开始,高质量数据集呈现了爆发式的增长态势 ,主要需求就是模型训练数据。24年人工智能数据只占我们交易量的10%,现在累加起来已经接近80%,说明包括实际交易量都在呈现爆发式增长 。 ”正在举行的2025全球数字经济大会上 ,北京国际大数据交易所(以下简称 “北数所”)董事长李振军介绍。
高质量数据集是指用于训练、验证和优化大模型而收集 、整理、标注形成的覆盖行业核心专业知识和生产经营活动的数据资源集合。2023年12月31日,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024-2026年)》提出,推动科研机构、龙头企业等开展行业共性数据资源库建设 ,打造高质量人工智能大模型训练数据集 。今年4月30日,《高质量数据集建设指南(征求意见稿)》发布,高质量数据集建设提速。
据了解,北数所已深度服务了多家国内人工智能头部企业 ,前述数据的主力购买者正是AI头部企业。“他们买数据主要是在构建行业的知识底座,模型的训练是先构建行业知识底座,才能再进行行业的细的参数调优 。”李振军称。
数据交易网CEO张瑶在接受财联社记者采访时表示 ,前述数据需求主要以行业垂直模型为主。“很多大厂都做了完整的通用模型解决方案产品,对于行业垂直模型来说,核心点在于对于细分行业的理解程度 。 ”
大会期间 ,亦有信通院人士分析称,人工智能对于数据集的需求主要可分为多模态 、具身智能、思维链、长视频等四类需求。
财联社记者最新获悉,目前北数所已交付的人工智能高质量数据集数据规模达1814TB ,总交易量接近2500TB,覆盖20个应用模型场景。北数所为模型企业提供了475个高质量数据集,已达成交易171个(完成了实际交付和现金结算) ,数据源覆盖行业32个 。
不过张瑶也表示,“对于模型语料的需求程度,不同细分行业是不一样的。”其认为,需考虑各行业的数字化完成水平 ,如金融 、医疗等行业原本的数字化完成度较高、从业企业数量也多,相对来说行业基础数据就比较全,进而通过标注、治理等工作后 ,能提供的数据集产品也就比较丰富;但其他数字化能力相对低的行业(如农业)基础数据较少,形成高质量的数据集还需要一定前期准备工作。
不仅北数所,截至今年5月初 ,贵阳大数据交易所已发布939个高质量数据集。6月26日,深圳市政务服务和数据管理局印发《深圳市人工智能语料券专项资金操作规程》的通知显示,为促进人工智能语料数据开放和交易 ,深圳每年设置最高5000万元作为语料券专项资金,其中要求申报企业应通过数据交易所完成语料采购 。
数交所并非语料最主要采购途径
不过据财联社记者了解,数据交易所并非最主要的模型训练数据采购途径。
“人工智能语料采购大部分不是实际通过交易所来完成的 ,但各地的数据交易所目前承担着市场价值发现的职能,对于数据供需双方的业务开展起到一定推动作用。之前有机构测算,全国数据交易市场超过95%的交易都来源于非数据交易所参与的场景,但仍然有不少机构选择与数据交易所合作 ,对于数据要素市场建设来说,交易所是一个很重要的基础设施提供方,但具体的商业模式还需要进一步探索 。”张瑶表示。
对此 ,据前述信通院人士分析,目前高质量数据集建设层面面临不小的挑战。其一,目标定位相对模糊 ,“其实很少有人为真正模型需要什么样的数据去做深入的研究,仅限于对已有数据加工处理 ”;其二,实施路径碎片化 ,“从数据资源变成高质量数据集,中间有非常长的加工链条,需要管理机制 、技术手段协同、专业化人才的加入”;其三 ,技术底座薄弱,技术工具链条相对来说还较匮乏 。
另据财联社记者了解,高质量数据集流通层面也面临着寻源难、评价难 、协同难等问题。
与此同时,包括大模型“六小虎”相关负责人在内的多位受访者向财联社记者介绍了模型训练所需语料数据常见的获取方式:一是互联网公开数据(占最大比例 ,但比例在下降),二是购买有版权的数据,三是厂商间通过置换资源方式获取语料 ,四是建设采集-清洗-加工-治理的数据生产线自行生产私域语料数据。
某基座大模型相关负责人透露,其公司内部数据清洁流程主要有以下步骤:包括明确数据责任人,端到端管理数据全生命周期流程;明确数据标准 ,数据存入数据仓之前有哪些标准,各部门要形成共识;认证数据源头,须符合唯一性、完整性等要求;验收数据入库之后的质量;使用前对原数据进行登记等 。
据悉 ,厂商还会使用蒸馏数据和合成数据,即由机器生成的符合真实世界客观发展规律的数据。有媒体此前报道,Epoch AI研究人员预测 ,到2028年左右,用于训练人工智能模型的典型数据集的规模将达到公共在线文本的估计总存量。换言之,人工智能训练数据或在3年左右时间内耗尽 。
有专家在大会上表示,数据是AI的新战场 ,AI正在从model-centric到data-centric转变,要真正使data-centric落地,数据基础设施建设是下一个关键点。
“将来人工智能的业态是 ,做模型的人非常少,90%以上从业人员都是做数据产线,包括数据的采集、生成、AI-ready数据的生产。 ”前述专家进一步展望。
此外 ,财联社记者采访获悉,当前大模型语料主要面临质量参差不齐 、产权不清晰、加工方式不统一、垂类领域缺口大 、获取成本高、数据合规性等制度待完善在内的痛点 。
例如在成本方面,语料获取过程主要面临合规成本 ,而加工过程主要是专家成本。
“数据标注基地以前是做通用人工智能训练数据,现在侧重垂类行业,基于自动标注等技术的演进 ,已经从粗放式标注到了精细化标注阶段,但在法律等非常窄非常垂的领域,交叉型人才还是很稀缺的。”一位供职于数据交易所的人士告诉记者 。
需要注意的是,不同行业数据面临的问题也存在差异。如政务领域 ,有上市公司人士告诉财联社记者,数据分散与壁垒、政务数据标准化不足 、敏感信息处理难题、政策时效性问题、地方性政策覆盖不足等问题急需得到解决。
杠杆软件下载:怎样看股票账户开户以来的盈亏-一份高含金量的成绩单:上半年我国GDP同比增长5.3%
个人股票融资条件:哪个app可以开户买股票-“AI百镜大战”热潮背后:小米眼镜发售5日现货售罄 假噱头还是真需求?
股票开户那家公司好:股票杠杆亏钱-英伟达计划在欧洲建超20座AI工厂 目标两年算力提升10倍
怎样手机上买股票:网上开户买股票流程-多地多措并举 严防战略矿产非法外流
股票交易到哪开户:股票的杠杆在哪里-A股尾盘突变!英伟达概念爆发 AI智能体概念崛起
在手机上怎么开户买股票:炒股多少钱可以加杠杆-美欧贸易谈判“7月9日大限” 不过是特朗普戏剧性表演的节点?
手机上买股票在哪里买:什么叫杠杆资金-央行:上半年人民币贷款增加12.92万亿元 6月末M2余额同比增长8.3%
新手怎样开户股票账户:好公司的股票为什么没人炒-证券业大事件!“证券业高质量发展28条”出台 事关财富管理、投行、国际化等多项核心业务
按天配资-正规配资平台提供配资开户及资讯服务提示:文章来自网络,不代表本站观点。
Wind数据显示,由民营物流企业顺丰控股发起的公募REITs——南方顺丰物流REIT(代码:180305)今日正式上市。...
2025年4月10日,高华科技(688539.SH)发布了限售股份上市流通公告。本次股份上市类型为A股发行法人配售上市,...
3月25日消息,离岸人民币(CNH)兑美元北京时间04:59报7.2639元,较上周五纽约尾盘跌68点,日内整体交投于7...
春意盎然之际,国际劳动妇女节即将蹁跹而至。过去的一年,浦发银行上海宝山支行荣获“上海市巾帼文明岗”称号,上海分行...
截至2025年4月11日 13:54,恒生科技HKETF(513890)上涨2.88%, 冲击3连涨,盘中换手62.05...
今日A股V型反弹,TMT行业探底回升。芯片50ETF(516920)探底回升,尾盘翻红收涨0.92%,资金连续涌入,近2...
界面新闻记者|邹文榕政策引导叠加企业融资需求旺盛,界面新闻记者关注到,开年以来,产业债一级市场发行量较往年明...
2025年3月7日,A500ETF(159339.SZ)收跌0.31%,主力资金(单笔成交额100万元以上...
3月21日,曾因高调宣布收购罗永浩直播公司而声名大噪的尚纬股份(603333.SH)发布公告称,股东李广元6500万股被...
界面新闻记者|陈靖金融市场充满变数。年初至今,券商研究所分析师“转会”频频。过去三个月,券业并购下的...
3月10日,“连锁火锅第一股”呷哺呷哺开盘再下跌,股价不足一港元,已成“仙股”。此前,呷哺呷哺(0520.HK)...
纳斯达克中国金龙指数收盘涨1.73%,本周累计下跌5.3%。热门中概股涨多跌少,小鹏汽车涨超11%,蔚来涨超7%,百度、...
记者辛圆保护知识产权就是保护创新。3月21日,国家知识产权局、教育部等七部门发布《关于进一步优...
【隔夜行情】•周五(2025年3月21日),A股三大指数集体下跌,截至收盘,截止收盘,沪指跌1.29%,报收33...
2024年,该行实现营业收入124.18亿元,同比增加10.73亿元,增幅9.46%;净利润37.79亿元,同比增加1....