别再死记硬背动态规划了！用Python手写维特比算法，搞定中文分词就这么简单-平芜编程栈

用Python手写维特比算法实现中文分词的实战指南

从动态规划到中文分词

中文分词是自然语言处理中最基础却至关重要的环节。想象一下，当你拿到一段没有空格分隔的中文文本时，如何让计算机理解哪些字应该组合成词？这正是中文分词要解决的核心问题。与英文不同，中文词语之间没有天然的分隔符，这使得分词成为中文文本处理的第一道难关。

传统的中文分词方法大致可以分为三类：

基于词典匹配的方法：如最大正向匹配、最大逆向匹配
基于统计的方法：如隐马尔可夫模型(HMM)、条件随机场(CRF)
基于深度学习的方法：如BiLSTM-CRF、Transformer等

其中，维特比算法作为动态规划在序列标注问题中的经典应用，能够高效地找到最优分词路径。它的核心思想是：将分词问题转化为图的最短路径问题，通过逐步构建和剪枝，最终找到概率最大的分词组合。

维特比算法原理剖析

维特比算法本质上是一种动态规划算法，用于寻找隐马尔可夫模型中最可能的状态序列。在中文分词的应用中，我们可以这样理解它的工作原理：

构建有向无环图(DAG)：将待分词的句子中的每个字作为节点，可能的词语作为边
赋予权重：根据词典和词频统计，为每条边赋予权重（通常使用负对数概率）
寻找最短路径：使用维特比算法找到从起点到终点的最短路径（即概率最大的分词组合）

让我们用一个简单的例子来说明这个过程。假设我们要分词的句子是"经常有意见分歧"，词典和词频如下：

word_dict = ["经常","有","意见","意","见","有意见","分歧","分","歧"] word_prob = { "经常":0.08, "有":0.04, "意见":0.08, "意":0.01, "见":0.005, "有意见":0.002, "分歧":0.04, "分":0.02, "歧":0.005 }

对应的负对数概率（可以理解为"代价"）为：

词语	概率	-ln(概率)
经常	0.08	2.52
有	0.04	3.21
意见	0.08	2.52
有意见	0.002	6.21
分歧	0.04	3.21

Python实现维特比分词器

现在，让我们用Python一步步实现基于维特比算法的中文分词器。我们将从构建DAG开始，到实现维特比算法的核心循环，最后回溯得到最优分词结果。

1. 数据准备与预处理

首先，我们需要准备词典和词频数据，并计算每个词的负对数概率：

import math # 词典和词频数据 word_dict = ["经常","有","意见","意","见","有意见","分歧","分","歧"] word_prob = { "经常":0.08, "有":0.04, "意见":0.08, "意":0.01, "见":0.005, "有意见":0.002, "分歧":0.04, "分":0.02, "歧":0.005 } # 计算负对数概率 def build_prob_ln(prob_dict): return {word: -math.log(prob) for word, prob in prob_dict.items()} prob_ln = build_prob_ln(word_prob) print(prob_ln)

2. 构建有向无环图(DAG)

接下来，我们需要构建句子的有向无环图表示。图中的节点对应字符位置，边代表可能的词语：

def build_dag(sentence, word_dict): dag = {} n = len(sentence) for i in range(n): temp = [] for j in range(i+1, n+1): word = sentence[i:j] if word in word_dict: temp.append(j) dag[i] = temp if temp else [i+1] # 如果没有匹配词，单字成词 return dag sentence = "经常有意见分歧" dag = build_dag(sentence, word_dict) print("DAG:", dag)

3. 实现维特比算法

现在，我们实现维特比算法的核心部分——动态规划求解最短路径：

def viterbi_segment(sentence, dag, prob_ln): n = len(sentence) # 初始化DP表 dp = [{'prob': float('inf'), 'prev': None, 'word': None} for _ in range(n+1)] dp[0]['prob'] = 0 # 起点的概率为0 # 动态规划填充DP表 for i in range(n): if dp[i]['prob'] == float('inf'): continue # 不可达节点跳过 for j in dag[i]: word = sentence[i:j] current_prob = dp[i]['prob'] + prob_ln.get(word, 20) # 默认代价20 if current_prob < dp[j]['prob']: dp[j]['prob'] = current_prob dp[j]['prev'] = i dp[j]['word'] = word # 回溯找出最优路径 if dp[n]['prob'] == float('inf'): return [] # 没有找到有效分词 seg = [] i = n while i > 0: seg.append(dp[i]['word']) i = dp[i]['prev'] seg.reverse() return seg seg_result = viterbi_segment(sentence, dag, prob_ln) print("分词结果:", seg_result)

4. 完整代码整合

将上述各部分整合成一个完整的中文分词器：

class ViterbiSegmenter: def __init__(self, word_dict, word_prob): self.word_dict = word_dict self.word_prob = word_prob self.prob_ln = self._build_prob_ln() def _build_prob_ln(self): return {word: -math.log(prob) for word, prob in self.word_prob.items()} def _build_dag(self, sentence): dag = {} n = len(sentence) for i in range(n): temp = [] for j in range(i+1, n+1): word = sentence[i:j] if word in self.word_dict: temp.append(j) dag[i] = temp if temp else [i+1] return dag def segment(self, sentence): dag = self._build_dag(sentence) n = len(sentence) dp = [{'prob': float('inf'), 'prev': None, 'word': None} for _ in range(n+1)] dp[0]['prob'] = 0 for i in range(n): if dp[i]['prob'] == float('inf'): continue for j in dag[i]: word = sentence[i:j] current_prob = dp[i]['prob'] + self.prob_ln.get(word, 20) if current_prob < dp[j]['prob']: dp[j]['prob'] = current_prob dp[j]['prev'] = i dp[j]['word'] = word if dp[n]['prob'] == float('inf'): return [] seg = [] i = n while i > 0: seg.append(dp[i]['word']) i = dp[i]['prev'] seg.reverse() return seg # 使用示例 segmenter = ViterbiSegmenter(word_dict, word_prob) result = segmenter.segment("经常有意见分歧") print("分词结果:", result)

算法优化与性能分析

虽然基础的维特比算法已经能够完成分词任务，但在实际应用中，我们还需要考虑一些优化策略：

1. 词典数据结构优化

使用Trie树（前缀树）来存储词典可以显著提高DAG构建的效率：

class TrieNode: def __init__(self): self.children = {} self.is_word = False class Trie: def __init__(self): self.root = TrieNode() def insert(self, word): node = self.root for char in word: if char not in node.children: node.children[char] = TrieNode() node = node.children[char] node.is_word = True def build_dag(self, sentence): dag = {} n = len(sentence) for i in range(n): dag[i] = [] node = self.root for j in range(i, n): char = sentence[j] if char not in node.children: break node = node.children[char] if node.is_word: dag[i].append(j+1) if not dag[i]: # 没有匹配词，单字成词 dag[i] = [i+1] return dag

2. 概率平滑处理

对于未登录词（词典中没有的词），合理的概率估计很重要。常见的平滑方法有：

Additive (Laplace) smoothing
Good-Turing估计
Kneser-Ney平滑

3. 性能对比

让我们对比不同实现方式的性能：

实现方式	时间复杂度	空间复杂度	适合场景
基础实现	O(n²)	O(n)	短文本、教学示例
Trie树优化	O(n*m)	O(n)	长文本、生产环境
并行化实现	O(n²/p)	O(n*p)	超长文本、分布式

提示：在实际应用中，当文本长度超过1000字时，建议使用Trie树优化的实现方式。

实际应用中的挑战与解决方案

虽然我们的分词器在小例子中表现良好，但在实际应用中还会遇到各种挑战：

1. 歧义消解

中文中存在大量的歧义切分问题，例如："乒乓球拍卖完了"可以有多种切分方式。解决这类问题通常需要：

融入更多上下文信息
使用更大的语言模型
结合词性标注等额外信息

2. 未登录词识别

对于词典中没有的新词（如网络流行语、专业术语等），可以考虑：

基于统计的新词发现
结合字符级别的特征
使用深度学习模型捕捉字符组合模式

3. 领域适应

不同领域的文本有不同的词汇分布，解决方案包括：

领域词典扩充
领域自适应训练
混合模型策略

进阶方向与扩展思考

掌握了基础的维特比分词器后，你可以进一步探索以下方向：

融入更多特征：除了词频，还可以考虑词性、共现信息等
与深度学习结合：使用神经网络来估计转移概率和发射概率
多模型融合：将基于词典的方法与统计方法、深度学习方法结合
特定领域优化：针对医疗、法律等专业领域定制分词器

# 示例：融入二元语法特征 def bigram_prob(word1, word2): # 这里需要预先统计词共现频率 return estimated_prob # 在维特比算法中，计算路径概率时考虑前一个词的影响 current_prob = dp[i]['prob'] + prob_ln.get(word, 20) + bigram_prob(dp[i]['word'], word)

中文分词作为NLP的基础环节，虽然已经有相对成熟的技术方案，但仍然存在许多值得深入研究的问题。通过自己动手实现一个基于维特比算法的分词器，不仅能够深入理解动态规划在NLP中的应用，还能为后续学习更复杂的序列标注模型（如CRF、BiLSTM等）打下坚实基础。