蚂蚁数科探究AI toB 全新 AI 数据组成与出产渠道露脸乌镇
11月19日音讯(报导:李楠)今天下午,行业大模型、具身智能、算力、芯片、数据组成等10 项首发效果在乌镇峰会登台路演, 其间 AI 数据组成与出产渠道AIGD(AI Generated Data)因聚集“数据组成”获广泛重视。“未来的AI使用需求很多稀缺且难以获取的长尾数据,如自动驾驶中的极点气候与极点路况数据,具身智能练习所需求的杂乱场景数据。在此布景下,数据组成成为要害。”蚂蚁数科AI科技技能负责人、蚂蚁天玑试验室主任李哲现场说道。
AI 开展正面临着高质量数据缺少的问题。近年来,伴随着大模型技能的快速开展,机器学习也正从“以模型为中心”转向“以数据为中心”,高质量数据可以更好地模仿客观国际,提高模型的准确性和稳定性,可是“到 2026 年,现存的用于 AI 模型练习的高质量言语数据将耗尽”,据Epoch AI Research研讨团队猜测。Gartner 表明,到 2030 年,组成数据将成为 AI 模型的首要练习数据来历;2024 年, 60% 的 AI 数据将是组成数据,被用于模仿、猜测场景和下降危险。
记者在2024年国际互联网大会乌镇峰会了解到,AIGD渠道是由蚂蚁数科申报的首发效果,渠道可经过大规模组成互联网所不掩盖的高质量、高价值笔直语料数据,协助科技厂商进行 AI 模型练习。记者了解到,AIGD具有 PB 级数据出产才能,支撑数据从生成到练习全流程自动化处理,自动化率到达 80%,这极大提高了数据处理的功率和质量。此外,渠道自研15 余种数据组成东西,现在可以组成图片、视频、3D模型、多模态图文视频对、多轮对话、语音信号、心率脑电信号、结构化买卖数据等多模态数据,以满意多种使用场景下的 AI 模型练习需求。
业内人士普遍认为,“高质量数据”是 AI 大模型深化到工业的重要根底,没有好的数据做支撑,全部 AI 使用都是海市蜃楼。近来,OpenAI职工爆料说,“新模型‘没有那么大飞跃’”,首要原因之一就是高质量数据缺乏所导致的。本年 9 月份, OpenAI 发布推理模型o1,带来了强化学习练习新范式,经过自博弈强化学习,将组成数据的方式练习给大模型,然后大幅增加大模型逻辑推理才能。
“数据组成”是蚂蚁数科 AIGD 渠道的首要功能之一,此外还包括数据标示、质检等才能。在数据标示方面,经过人机协同进行标示,人工智能算法可以自动识别和预处理大部分根底信息,预标示模型依靠人工标示量下降了 70%以上。在数据质检方面,渠道会依据元信息支撑不同粒度的数据质量计算,最大程度了解数据,确保组成及标示后的数据契合预期质量要求。
记者注意到,蚂蚁数科本年连续迭代发布了多款 AI 产品,包括大模型安全评测与防护产品“蚁天鉴”、反深假造产品 ZOLOZ Deeper 等。作为一家面向 ToB 服务的科技公司,蚂蚁数科旗下首要包括“企业用云服务”“企业区块链服务”“企业AI服务”三大中心事务,李哲在乌镇峰会上表明,“咱们行将迎来 AI 服务工业的黄金时代,蚂蚁数科将会坚定在 AI ToB 范畴投入,让 AI 深化千行百业。”。
内容来源:https://sh.tanphatexpress.com.vn/app-1/trực tiếp đá hôm nay,https://chatbotjud-hml.saude.mg.gov.br/app-1/telegram-login
(责任编辑:男性)