AI原生文档格式DocLang开发引发疑问
AI原生文档格式DocLang的开发引发了人们对其对人类工作者以及治理和问责制影响的疑问。来源:Shutterstock
DocLang工作组的目标与参与方
人工智能在理解为人类设计的文档时面临困难,DocLang工作组试图通过其为“从头为大语言模型(LLM)分词器构建”的机器可读商业文档规范来扭转这种不平衡。该工作组由IBM、英伟达(Nvidia)和红帽(Red Hat)共同创立,由Linux基金会的LF AI & Data项目主办,旨在创建一种开放、通用的AI原生文档格式,以改进企业为AI系统准备、交换和管理文档数据的方式。ABBYY和Human Signal也将参与其开发,同时欢迎其他贡献者加入。
现有文档格式的问题
该组织在发布声明中表示:“如今,企业在碎片化的文档格式环境中开展工作,包括PDF、JPEG等主要为人类阅读而非AI解读设计的文件类型。”随着组织越来越依赖生成式AI和智能代理系统,这种脱节在从商业文档中提取信息时会增加复杂性、提高成本并降低可靠性。
DocLang规范工作组的目标与特点
LF AI & Data执行董事马克·科利尔(Mark Collier)表示,DocLang规范工作组的目标是“开发一种与供应商无关、可互操作的标准,帮助组织更可靠、透明且大规模地为AI准备文档数据”。DocLang为任何类型的文档定义了一种结构化、机器可读的格式,就像数据领域的JSON一样,任何工具都可以实现,任何流程都可以使用。它基于DocLing构建,DocLing是LF AI & Data托管的一个文档处理工具包,可以将人类可读的PDF、文字处理文档或电子表格转换为结构化数据。
人工智能需要标准的演进
独立技术分析师卡米·利维(Carmi Levy)表示,类似DocLang的标准是必要的。他解释道:“现有的文档标准在过去几十年里出色地让全球利益相关者能够放心地进行协作,但随着AI重塑工作方式的规则,越来越明显的是,它们急需更新。”他指出,大部分静态的文档类型“在AI重新定义‘文档’这个概念时会有一定的局限性。在很多方面,AI时代的文档比以往更加迭代和动态,其定义需要与时俱进。我们目前使用的文档并非为AI时代设计。”
利维表示,在这种背景下,“DocLang代表了为文档标准建立某种基础基线的早期且充满希望的尝试,有望实现比当前更智能、更高效、风险更低的工作流程”。他还说,采用开源、与供应商无关的方法可以确保集体利益优先于特定供应商的需求,并补充道:“早期在网络、文档、网络和云计算方面的标准制定工作推动了定义现代生活的自由流动数字环境的发展。”利维认为,以AI为中心的文档标准将把这一现实带入下一代技术。
治理问题
Moor Insights & Strategy首席分析师杰森·安德森(Jason Andersen)表示,大语言模型的整个概念“涉及使用人类自然语言。计算机应该在我们不改变语法或语言的情况下理解我们。就像如今在搜索引擎优化(SEO)和更高级的编程语言中,我们被迫使用特定的语法。”
对于像DocLang这样可应用于内容摄取的标准,他表示:“我认为将其自动化是可行的,这似乎也是其意图所在。我设想的用例是,当我将文档上传到智能代理时,可以运行一项技能将文档预处理为DocLang标准格式,从而节省分词资源。”他认为这很有意义,并补充说,如果它有助于生成可在AI工具之外共享的输出,如可视化内容,那就更好了。他还表示喜欢Web MCP,因为只需在页面上添加一些代码,如CSS或JavaScript,消费者(在这种情况下是AI浏览器或技能)就能更好地处理网站。
他指出:“这些标准需要确保人类仍然能够按照自己的意愿行事,并且无需了解任何编码知识就能熟练使用。至于治理方面,我不确定它是否重要。”
不过,有分析师预见到DocLang的使用会引发治理问题。Info - Tech Research Group高级研究分析师亚兹·帕拉尼查米(Yaz Palanichamy)表示,采用DocLang需要组织实施和审查控制措施,以确保其使用在可问责和安全的前提下进行扩展。那么,DocLang能否在解决人工智能文档处理难题的同时,有效应对治理问题呢?