news 2026/6/6 2:11:27

AI全景之第六章第一节:语言模型演进

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI全景之第六章第一节:语言模型演进

第六章:自然语言处理技术全景

6.1 语言模型演进:从n-gram到BERT

学习目标

理解语言模型的核心任务与评估方法,掌握从统计语言模型到神经语言模型的关键技术跃迁,深入理解BERT的预训练范式创新及其历史意义,为后续大语言模型学习奠定基础。


一、语言模型的基本问题定义

1.1 什么是语言模型?

核心任务:语言模型(Language Model, LM)旨在计算一个词序列的概率,或预测序列中下一个词的概率分布。

数学形式:给定词序列w 1 , w 2 , . . . , w T w_1, w_2, ..., w_Tw1,w2,...,wT,语言模型计算联合概率:
[
P(w_1, w_2, …, w_T) = \prod_{t=1}^T P(w_t | w_1, …, w_{t-1})
]

两大核心能力

  1. 生成:采样生成符合语言规律的文本
  2. 评估:判断文本的流畅性与合理性

1.2 语言模型的关键挑战

维度灾难

词典大小∣ V ∣ |V|V通常为万到百万量级,n nn个词的联合概率空间大小为∣ V ∣ n |V|^nVn,完全不可枚举。

长距离依赖

自然语言中,相隔较远的词之间可能存在强依赖关系,如主谓一致、指代关系等。

数据稀疏性

实际语料中,大多数词序列组合从未出现,但模型需要合理估计其概率。


二、统计语言模型时代

2.1 n-gram模型:马尔可夫假设的实践

核心思想

通过马尔可夫假设简化条件概率计算:一个词的概率只依赖于其前n − 1 n-1n1个词。

n-gram概率估计
[
P(w_t | w_1, …, w_{t-1}) \approx P(w_t | w_{t-n+1}, …, w_{t-1})
]

n的选择权衡
n值模型名称优势劣势
1unigram参数少,估计稳定忽略所有上下文
2bigram捕捉局部依赖长距离依赖缺失
3trigram平衡性能与复杂度数据稀疏问题显著
4+4-gram, 5-gram捕捉更长上下文参数爆炸,严重稀疏
参数估计:最大似然估计

从语料中统计n-gram出现频次:
[
P(w_t | w_{t-n+1}, …, w_{t-1}) = \frac{\text{count}(w_{t-n+1}, …, w_t)}{\text{count}(w_{t-n+1}, …, w_{t-1})}
]

2.2 平滑技术:应对稀疏数据

加一平滑(Laplace Smoothing)

为所有n-gram计数加1:
[
P_{\text{add-one}}(w_t | w_{t-1}) = \frac{\text{count}(w_{t-1}, w_t) + 1}{\text{count}(w_{t-1}) + |V|}
]

古德-图灵估计(Good-Turing)

将频次r rr的n-gram概率估计调整为r ∗ r^*r
[
r^* = (r+1) \frac{N_{r+1}}{N_r}
]
其中N r N_rN

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/31 8:51:19

20251223给飞凌OK3588-C开发板适配Rockchip原厂的Buildroot【linux-6.1】系统时使用weston-screenshooter截屏【修改直接编译进IMG固件】

20251223给飞凌OK3588-C开发板适配Rockchip原厂的Buildroot【linux-6.1】系统时使用weston-screenshooter截屏【修改直接编译进IMG固件】 2025/12/23 19:23缘起:给飞凌OK3588-C开发板适配Rockchip原厂的Buildroot【linux-6.1】后,需要使用weston-screens…

作者头像 李华
网站建设 2026/6/4 23:28:31

基于51单片机的交通灯控制系统

文章目录一、系统概述二、项目内容和功能介绍三、效果图四 、资料获取一、系统概述 基于51单片机的交通灯控制系统介绍 一、系统设计背景与意义 随着城市化进程加速,交通拥堵问题日益突出。传统交通灯采用固定时序控制,无法根据实时车流量动态调整&…

作者头像 李华
网站建设 2026/6/3 3:55:59

最适合外包交付的 6 个开源无代码与低代码

原文链接:https://www.nocobase.com/cn/blog/6-open-source-no-code-low-code-tools-for-software-agencies 写在开头 外包团队和技术工作室在接项目时,最常面对的问题:客户希望以最快速度上线。 因此很多团队会利用无代码/低代码工具来快…

作者头像 李华
网站建设 2026/5/21 1:11:33

【学前教育专业论文写作模版】乡村振兴背景下农村幼儿园劳动教育实施策略:基于现状调研的问题分析与路径优化研究

内容概要:本文以乡村振兴为背景,探讨了农村幼儿园劳动教育的实施现状、存在问题及优化对策。通过问卷调查与访谈法,研究发现当前农村幼儿园劳动教育存在教师认识不足、组织能力薄弱、活动形式单一、内容缺乏丰富性、保障措施不完善以及家长观…

作者头像 李华