news 2026/4/15 10:35:10

人工智能应用- 语言理解:03. 语言模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
人工智能应用- 语言理解:03. 语言模型

当句子较短时,直接统计句子的概率还比较简单,但随着句子长度增加,词与词之间的组合方式呈指数级增长。例如,若词汇表中有 5000 个词,句子长度为 10,则可能的句子组合数目达到,这是一个无法实际计算的天文数字。

为解决这一问题,研究者提出了N 元文法(N-gram)语言模型。这种模型只考虑一个词在前面N-1 个词后出现的概率,然后将这些概率连乘起来,得到整个句子的概率。例如,二元文法(Bi-gram)语言模型统计一个词后面接另一个词的概率,如P(吗| 可以) 表示“可以”后面接“吗”的概率。如果一个句子中有M 个词,则将这 M 个词的概率相乘即可得到整个句子的概率。图31.3展示了二元文法语言模型的计算过程。

二元文法语言模型的计算过程

有了这个N 元文法模型,就可以利用它来生成句子。首先随机生成一个词x1,然后根据P(x2|x1) 生成下一个词x2,以此类推,即可生成句子和段落。下面是一段话是利用三元文法生成的一段话:

我喜欢吃苹果味道很甜我是学生的身份工作人员并学习数据科学很愉快听音乐看电影总是给我很多启发一天我去学校上课和同学们讨论各种问题也喜欢动手做实验锻炼思维非常有趣。

可以看到,生成的每句话看起来还是通顺的,但当这些句子放在一起就显得杂乱无章,没有意义。这是因为仅考虑最近几个词的上下文还不足以捕捉到复杂的语言规律。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 18:49:10

聚沙成塔,三步成书:GitBook极简入门教程

📖 本文简介 对于经常写作的工友来说,除了在各个平台上发布文章,其实还可以把自己的专栏整理成一本“在线书”,分享到网上,方便系统阅读和沉淀内容。 市面上这类工具不少,比如 VitePress、Docusaurus 等等…

作者头像 李华
网站建设 2026/4/10 9:20:16

口碑推荐!天玑AIGEO优化系统该选哪家?

行业痛点分析 在当前天玑AIGEO优化系统领域,企业面临着诸多技术挑战。数据表明,部分企业在营销过程中,由于传统广告投放缺乏精准定位,导致无效投放成本占比超30%。本地企业更是面临重重困难,线下门店引流半径有限&…

作者头像 李华
网站建设 2026/4/11 0:27:52

连锁门店管理系统选型指南:一体化架构如何提升运营效率

零售行业数字化转型掀起浪潮,连锁门店管理效率对企业生存发展意义重大,一套功能全、稳定可靠的门店管理系统,能助连锁品牌实现总部与分店高效协同,把库存、销售、会员及财务等核心环节予以优化,当下市场上主流的连锁门…

作者头像 李华
网站建设 2026/4/10 1:09:31

学术写作的“超能引擎”:书匠策AI如何重构期刊论文生产链

在学术江湖中,期刊论文是研究者攀登高峰的“通关文牒”,但选题撞车、逻辑混乱、查重焦虑、格式错漏等问题,常让学者们陷入“论文地狱”。如今,一款名为书匠策AI的智能工具横空出世,它像一台精密的“学术导航仪”&#…

作者头像 李华
网站建设 2026/4/3 17:12:42

【小程序毕设全套源码+文档】django基于协同过滤的校园音乐推荐系统小程序的设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华