当前位置:首页 > 女性 > 合合信息TextIn发布“大模型加速器2.0”,文档单页处理耗时下降超30% 正文

合合信息TextIn发布“大模型加速器2.0”,文档单页处理耗时下降超30%

来源:锐评时讯   作者:女性   时间:2025-05-26 09:47:30

跟着大模型在社会运用中逐步遍及,人们在享用便当的一起,也面临着“AI 错觉”发生的危险。练习数据是影响大模型“认知才干”的要害要素,近期,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版别正式上线,依据抢先的智能文档处理技能,对杂乱文档的版式、布局和元素进行精准解析及结构化处理,从数据源头下降大模型“错觉”危险,让大模型在与人类的交流中“更靠谱”。

图说:“大模型加速器 2.0”文档解析引擎助力知识库了解手写笔记示意图。

据悉,晋级后的“大模型加速器”在杂乱版面了解、表格及图表处理、内容溯源等才干上完成新打破,可精准辨认上千种文档中的跨页表格、兼并单元格、密布表格、手写字符及公式,解析稳定率达99.99%,单页处理耗时较职业可比产品下降超30%;可“逆复原”十余种专业图表数据,并将其转化为大模型可了解的结构化数据。此外,“大模型加速器 2.0”版别新增知识库系列开源组件,助力医疗、制作、教育等职业开发者构建个性化的知识库。

文档解析技能助力教育大模型建造。

大模型需求不断“吸收”正确的专业知识,才干应对实践运用问题。合合信息技能团队成员表明,在处理年报、论文、实验室陈述等专业文档的过程中,一个符号的解析失误,便或许“误导”大模型,得出与现实相悖的定论。可信性的缺失,也限制了大模型在实践运用场景中的纵深拓宽。

赛尔教育科技发展有限公司(简称“赛尔教育”)系“中国教育和科研计算机网CERNET”的运营公司赛尔网络的重要子公司,是教育国际化、教育信息化、数字化教育计划的供给商。赛尔教育CTO、教育数字化事业部总经理杨林说到,教育职业中所触及的文档格局多样,在内容上也包含了表格、公式、手写字符、多语言文字等信息。怎么高效准确地提取各类文档中的文本信息,并非易事。

“教育职业的大模型建造工作中,数据的数量和质量起着决定性作用。咱们做了许多测验,模型的速度和准确性都达不到要求,严重影响科研工作的发展。”杨林表明,职业知识库的构建依据很多文档的文本信息提取,需求高功率、高准确率的工具。合合信息文档解析技能供给了专业的技能支撑和服务,有用处理了文档处理过程中的问题。

在“大模型加速器”的支撑下,合合信息与赛尔教育一起协作,进步大模型对杂乱版面、元素的“了解力”,使其依照人类正常的阅览次序辨认文档结构,智能区分标题、阶段、表格和图表等内容块,协助大模型了解版面、内容间的对应联系,削减AI“错觉”现象。

图说:图表解析模块将图表复原为表格数据。

除了杂乱的版面布局,品种繁复、空间结构杂乱的图表元素也是解析难点地点。“大模型加速器2.0”图表解析模块可智能提取多种图表中的要害数据点、坐标轴信息、图例阐明等,在精准解析不同类型图表数据的基础上,将其复原为一组完好的Excel表格数据,作用于教育职业大模型微调,学科知识库建造、智能审理等环节。

智能溯源让大模型用得更“安心”。

近期,多家券商组织纷繁宣告接入大模型,协助剖析师、职业研究员等专业人士进步工作功率。为协助用户简化专业文档数据挑选和数据抽取流程,进步文档内容解读功率与准确率,“大模型加速器 2.0” 上线了知识库产品组件,支撑杂乱文档的智能问答、总结与检索。

为了让职业“安心”运用大模型,知识库产品推出溯源功用,经过在“投喂”给知识库的Markdown及JSON文件中标记页码、坐标等空间方位信息,完成对语句、阶段的准确溯源,为用户供给了一个快速查验的途径。以财政剖析为例,大模型在多份高达上千页的财报文件中找到收入、赢利等要害数据后,券商剖析师可利用溯源功用定位原表格,对信息进行复核,避免过错、遗失。

图说:知识库对财报数据地点表格进行精准溯源。

现在,知识库组件已面向开发者开源,协助其依据本身需求快速构建个性化职业知识库。此前,合合信息已开源智能文档处理“百宝箱”系列产品,处理文档解析精度低、解析作用评价难等问题,开发者可依据研制需求灵敏调配运用。未来,“大模型加速器”将继续优化迭代,助力大模型在各行各业中“百家争鸣”。

请求创业报导,共享创业好点子。点击此处,一起讨论创业新机遇!

内容来源:https://a02.webvip.vn/app-1/game nổ hũ hit club,https://chatbotjud-hml.saude.mg.gov.br/app-1/7788bet.-com

标签:

责任编辑:生活