今年火爆全球的DeepSeek再度掀起了人工智能的创新热潮,人们对AI的关注与讨论,有一个生动的说法——“有多少智能,就有多少人工”,这背后,实则与数据标注产业密切相关。
近年来,数据标注成为数字经济领域的一个“热词”,数据标注,是对未经处理的原始数据添加标记、说明、解释、分类和编码的过程,将人类的视觉和思维逻辑转化为计算机可以识别的语言,是当前人工智能技术发展和应用的基础支撑。
当前我国数据标注产业呈现怎样的发展态势?全国哪些城市在全力抢滩?一线企业对行业发展有哪些需求和愿景?3月19日上午,全国数据标注基地先行先试现场会在四川成都举行。
本次会议由国家数据局主办、四川省发展改革委(四川省数据局)、成都市人民政府承办。现场,来自国家发展改革委、工业和信息化部、人力资源和社会保障部、自然资源部等国家部委,辽宁、安徽、湖南、河北、山西、湖北等20多个省数据工作部门,省内部分(市州)数据工作部门负责同志共计200余人参会。
这场在成都举行的行业大会
迸发的新点子,
为全国数据标注产业发展
提供了全新智力支撑。
数据标注的“成都经验”
场景驱动
打造细分领域数据标注典型应用案例
去年,成都与沈阳、合肥、长沙、海口、保定、大同同时获批全国首批数据标注基地建设试点名单,围绕数据标注产业的生态构建、能力提升和场景应用等方面开展先行先试,集聚龙头企业,打造区域人工智能产业生态。
成都数据标注基地建设成效如何?在现场会上,成都市政府党组成员、副市长,市发展改革委主任王锋君在交流发言环节介绍了当前成都数据标注基地建设工作情况。
去年以来,成都加快打造带动全川、服务全国的“人工智能+”数据标注基地,累计培育40余家数据标注核心企业,形成90余个数据标注典型案例,建设储备一批行业急需的高质量数据集,赋能大模型30余个。
推动数据标注基地建设,
成都如何“出招”?
成都朝着顶层设计、企业协同、平台建设、行业赋能、要素保障五个方向发力。首先是体制机制保障,成都建立了“市级统筹+协同联动”工作格局,在全市开展“立园满园”行动中,产业园区尤其侧重招商引资和企业服务。
政策保障也成为“关键一招”。通过出台《成都市数据条例》,完善《公共数据授权运营赋能管理办法》等配套文件,印发《成都市深化数据要素市场化配置改革工作方案》,成都为数据收集治理、流通交易、应用发展和安全保护提供法规制度支撑。近期,《成都市深化数据要素市场化配置改革工作方案》《成都市推动数字经济高质量发展行动方案》先后印发,“数据标注”成为其中一大着力点。
成都超算中心
成都优化
“人工智能+数据标注”产业布局,
具体来看
积极打造数据标注“人工智能+”牵引区,布局“都市产业”“产教融合”“数据服务”数据标注基地特色集聚区。其中,位于新津经济开发区的成都市国家数据标注基地牧山园区已于3月18日正式开园,将围绕“数据标注+”产业链,打造数据产业集群。
通过企业协同,成都数据标注产业发展有链条、有生态。成都释放人工智能企业牵引动能,发挥人工智能1079亿核心产业产值、1006家企业规模优势,成立人工智能、数据标注产业联盟,组织数字经济产业伙伴大会、数据标注赋能AI高质量发展沙龙等产业对接活动,发掘数据标注年需求超3000TB。
成都智算中心
在平台建设方面,成都打造数据标注公共服务平台。其中,成都数据集团牵头建设的智能数据标注生成管理平台已上线运行,助力完成数据标注任务60余个,构建数据集超过1TB。
通过开展场景创新,成都正在推动新技术、新产品加速转化应用,数据标注也成为成都场景创新工作的发力点。聚焦城市治理等特色基础,依托智慧蓉城应用场景实验室持续开展“揭榜挂帅”,打造金融征信数据智慧辅助决策、智能车路协同感知等72个数据标注典型应用案例。
现场,新津区政府主要负责同志介绍了新津以数据标注为抓手,推动产业引进培育的相关情况。成都产业集团主要负责同志介绍了开展智能数据标注平台建设工作情况。
数据标注的“他山之石”
人才、产业、场景、高质量数据集等要素
“一个也不能少”
现场会上,沈阳、合肥、长沙、海口等承担国家数据标注基地建设任务的城市代表以及积极发展数据标注产业的城市代表相继发言,分享了推动数据标注产业发展的“打法”。
参会代表的发言中,人才培育、产业协同、应用场景、高质量数据集等成为“关键词”。
纷繁复杂的数据标注业务背后,需要庞大的人力资源支撑。在建设国家数据标注基地的过程中,沈阳构建了“1+2+6+10”的标注人才培训体系。其中,产教融合数字人才创新基地已成功培养200 余名人工智能训练师。开展沈阳都市圈数据标注职业技能竞赛,多渠道选拔数据标注人才。软通动力等企业与职业技术教育学校、大专院校构建订单式人才培育体系,畅通高校和企业的人才输送通道,实现“毕业即就业”人才无缝对接。
同样在人才端发力,合肥市举办全国数据资源产教融合共同体成立大会,参会院校75家,与全国137 家院校对接推动建设数据资源现代产业学院,其中超30家院校已明确合作意向,开展数据标注产教融合对接会。2024 年培养人工智能训练师891人,备案人工智能训练师自主评价企业1家、自主评价高校7家。
如何拓宽数据标注产业市场空间?部分城市跳出自身发展空间,将产业发展触角延伸开去。比如,随着长三角一体化战略的持续深入推进,合肥立足长三角的区位优势,进一步促进区域间数据资源的共享协同,为数据标注产业发展带来强劲动力,来自上海、杭州等地的自动驾驶、金融科技等产业对高质量标注数据需求旺盛。
如何推动数据要素被高效利用?如何拓宽数据应用场景?武汉的做法是通过行业引领,以多元场景驱动产业纵深发展。武汉的数据标注产业主要覆盖人工智能、医疗影像、自动驾驶、遥感测绘、低空经济、数字传媒等六大行业,服务人工智能企业1000余家,包括国家级专精特新“小巨人”企业92 家、上市企业29家。
无论是应用场景,还是产业生态培育,根本上看,需要高质量的数据集,这是数据能够被有效利用的前提。
大同通过打造高质量数据集,结合当地产业特色,深度挖掘能源、文旅、交通等行业数据资源。例如,在能源方面,大同采集煤矿场景图片147.33 万张,数据样本 11.01 万个,汇聚形成相关数据集248个,赋能煤矿安全和煤矿生产。
数据标注的“一线声音”
期待在技术、资本、人才、出海等方面
获更大支持
来自公开数据显示,根据测算,2023年我国数据标注产业规模达800亿元左右。随着国家发展改革委、国家数据局、财政部、人力资源社会保障部四部门联合发布《关于促进数据标注产业高质量发展的实施意见》,加之人工智能产业在各地“升温”,数据标注产业正在“加速跑”。
推动产业高质量发展,一线企业是“主力军”,从业者有哪些意见建议?有哪些发展愿景?作为本次现场会的重要配套内容,在数据标注领域民营企业座谈会上,北京、合肥、成都等地的数据标注企业代表共谋产业高质量发展之道。
“数据标注在支撑人工智能垂类大模型过程中,急需更多专业人才加入,比如,医学领域的数据标注不仅仅需要掌握大数据技术的人才,还应该掌握临床医学知识。”乐普通盈成都科技有限公司参会代表杨尚鑫谈到,目前行业对高素质专业人才的需求较大。
“全国有不少高校开设了人工智能和大数据专业课程,但是针对数据标注产业,仍旧期待形成完整的课程体系来培养专业化的人才队伍。”砺英数智(北京)数据技术有限公司参会代表李哲洙分享了他的观点,在他看来,业内可以面向数据产业未来发展趋势,规划设计相关“数据产业学院”和数据人才培训体系,通过产教融合方式支撑高校人才培养,为社会输送高素质数据人才。
“随着人工智能、大数据行业发展,需要建立一套专业的数据标注人才标准以及人才申报体系。”安徽飞数信息科技有限公司参会代表谭昶表示,目前数据标注行业细分趋势明显,希望行业加快培育更多专家型数据标注人才,对这类人才给予相关政策扶持,比如,提供岗位津贴和个税优惠。
参会企业代表纷纷表示,作为人工智能产业的重要支撑,数据标注需要持续的技术创新。
如何提升技术创新水准?谭昶建议,可通过“揭绑挂帅”方式,推动供需精准匹配,实现场景提供方和企业联合开展技术攻坚,推动数据标注项目更好落地。
有企业代表谈到,可利用更加智能化的技术赋能数据标注产业发展。
“需要探索大模型和自动化工具的技术创新,以提升标注效率。”百度公司参会代表陈昊说,可借助相关自动化机器人标注技术,通过这一方式有效提升数据标注准确率和效率。
“通过将AI算法与数据标注平台结合,可大幅提升整个数据标注的效率。”整数智能参会代表林群书表示,可通过加强与海外同行的沟通交流,及时了解海外前沿技术,采取业务合作的方式提升数据标注水平。
无论是技术、还是产品,不少企业都期望提速“走出去”步伐。成都小咖邦科技有限公司参会代表李逆勇建议,可打造数据跨境流通的完备机制,推动国内数据AI基础设施能力走向全球市场。
资本也是各方关注的焦点。“建议针对数据标注设立相关专项基金,支持企业自主研发,突破关键技术瓶颈,推动行业领军企业做大做优做强。”北京海天瑞声科技股份有限公司参会代表李科说。