news 2026/4/15 13:44:02

FST ITN-ZH中文逆文本标准化系统使用手册

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
FST ITN-ZH中文逆文本标准化系统使用手册

FST ITN-ZH中文逆文本标准化系统使用手册

1. 简介

欢迎使用FST ITN-ZH 中文逆文本标准化 (ITN)系统!

本工具基于有限状态转导器(Finite State Transducer, FST)技术,专为中文语音识别后处理设计,能够将口语化、非结构化的中文表达自动转换为标准化的书面格式。该系统由科哥进行WebUI二次开发,提供直观易用的操作界面。

逆文本标准化(Inverse Text Normalization, ITN)是语音识别流水线中的关键环节,负责将ASR模型输出的“可读”文本(如“二零零八年八月八日”)还原为“标准”形式(如“2008年08月08日”),便于后续的信息提取、数据存储与分析。

1.1 核心功能

  • 支持多种中文数字表达的标准化转换
  • 提供图形化Web界面,操作简单直观
  • 支持单条文本实时转换与批量文件处理
  • 可配置转换规则,满足不同场景需求

1.2 典型应用场景

  • 语音助手输出后处理
  • 智能客服对话记录清洗
  • 医疗/金融领域口述内容结构化
  • 教育录音转写结果规范化

2. 系统部署与启动

2.1 启动或重启应用

若服务未运行或需更新配置,请执行以下命令:

/bin/bash /root/run.sh

该脚本将自动拉起Web服务并加载最新模型参数。

2.2 访问地址

服务启动成功后,在浏览器中访问:

http://<服务器IP>:7860

默认端口为7860,请确保防火墙已开放对应端口。

2.3 运行界面截图


3. 功能模块详解

3.1 文本转换(单条处理)

适用于少量文本的快速测试与验证。

使用步骤:
  1. 打开Web页面,进入「📝 文本转换」标签页
  2. 在左侧输入框中键入待转换文本
  3. 点击「开始转换」按钮
  4. 查看右侧输出框中的标准化结果
示例演示:
输入: 二零零八年八月八日早上八点半 点击: [开始转换] 输出: 2008年08月08日 8:30a.m.

此模式适合调试和验证特定表达的转换效果。

3.2 批量转换(文件级处理)

适用于大规模数据的自动化处理任务。

操作流程:
  1. 准备一个.txt格式的纯文本文件
  2. 每行包含一条独立的待转换语句
  3. 切换至「📦 批量转换」标签页
  4. 点击「上传文件」选择本地文件
  5. 点击「批量转换」触发处理流程
  6. 转换完成后,点击「下载结果」获取标准化后的文件
输入文件示例:
二零零八年八月八日 一百二十三 早上八点半 一点二五元 二十五千克 京A一二三四五

输出文件将保持相同行数,每行为对应的标准化结果。


4. 快速示例与预设模板

为提升用户体验,系统内置多个常用示例按钮,点击即可一键填充典型输入。

按钮名称填充内容
[日期]二零零八年八月八日
[时间]早上八点半
[数字]一百二十三
[货币]一点二五元
[分数]五分之一
[度量]二十五千克
[数学]负二
[车牌]京A一二三四五
[长文本]二零一九年九月十二日的晚上...

这些示例覆盖了主要转换类型,方便用户快速了解系统能力。


5. 高级设置与参数调优

通过「高级设置」面板,用户可自定义转换行为以适应具体业务需求。

5.1 转换独立数字

  • 开启状态幸运一百幸运100
  • 关闭状态幸运一百幸运一百

控制是否对非计量类的独立中文数字进行转换。例如品牌名、昵称等可能需要保留原样。

5.2 转换单个数字 (0–9)

  • 开启状态零和九0和9
  • 关闭状态零和九零和九

适用于避免在诗歌、标题等语境中破坏语义连贯性。

5.3 完全转换'万'

  • 开启状态六百万6000000
  • 关闭状态六百万600万

决定是否展开“万”单位。金融报表通常需完全展开,而日常交流常保留“万”字更清晰。

所有设置修改后即时生效,无需重启服务。


6. 支持的转换类型详述

6.1 日期格式化

将中文年月日表述转换为标准YYYY-MM-DD格式。

输入: 二零一九年九月十二日 输出: 2019年09月12日 输入: 二零零八年五月十二号 输出: 2008年05月12日

支持“年”、“月”、“日/号”的灵活组合。

6.2 时间表达归一化

将口语时间转换为24小时或AM/PM制式。

输入: 早上八点半 输出: 8:30a.m. 输入: 下午三点十五分 输出: 3:15p.m. 输入: 晚上十点整 输出: 10:00p.m.

6.3 数值转换

处理整数、小数、大数等多种数字表达。

输入: 一百二十三 输出: 123 输入: 一千九百八十四 输出: 1984 输入: 三点一四一五九 输出: 3.14159

6.4 货币单位标准化

自动识别币种并添加符号前缀。

输入: 一点二五元 输出: ¥1.25 输入: 一百美元 输出: $100 输入: 五十欧元 输出: €50

6.5 分数与比例

将“几分之几”结构转换为数学分数。

输入: 五分之一 输出: 1/5 输入: 三分之二 输出: 2/3

6.6 度量单位简化

统一物理量表达方式。

输入: 二十五千克 输出: 25kg 输入: 三十公里 输出: 30km 输入: 两米五高 输出: 2.5m高

6.7 数学符号处理

正确解析正负号等数学概念。

输入: 负二 输出: -2 输入: 正五点五 输出: +5.5

6.8 特殊编码转换

如车牌号码中的字母与数字混合处理。

输入: 京A一二三四五 输出: 京A12345 输入: 沪B六七八九零 输出: 沪B67890

7. 实践技巧与最佳建议

7.1 长文本综合处理

系统支持在同一段落内识别并转换多个实体类型。

输入: 这件事发生在二零一九年九月十二日的晚上,大概八点半左右,涉及金额为一万二千元。 输出: 这件事发生在2019年09月12日的晚上,大概8:30左右,涉及金额为12000元。

建议在处理会议纪要、访谈记录时优先使用此特性。

7.2 大规模数据批处理策略

对于超过千条的数据集,推荐采用如下工作流:

  1. 将原始数据按1000条/文件拆分
  2. 并行上传多个文件进行转换
  3. 合并所有结果文件
  4. 统一做后处理校验

可显著提高整体处理效率。

7.3 结果持久化保存

点击「保存到文件」按钮可将当前转换结果写入服务器磁盘,文件命名格式为:

itn_result_YYYYMMDD_HHMMSS.txt

便于版本追踪与审计留痕。


8. 常见问题解答(FAQ)

8.1 Q:转换结果不准确怎么办?

A:首先检查输入文本是否存在歧义或非常规表达。其次尝试调整「高级设置」中的开关选项。若问题持续存在,请联系技术支持反馈具体案例。

8.2 Q:是否支持方言或特殊变体?

A:系统主要针对普通话标准表达优化,但兼容以下常见变体:

  • 大写数字:壹、贰、叁、肆
  • 口语化表达:幺(一)、两(二)
  • 缩略说法:刻(十五分)、半(三十分)

不保证对方言区特有说法(如粤语数字)的准确性。

8.3 Q:首次转换为何较慢?

A:系统在首次调用或参数变更后会重新加载FST模型,耗时约3–5秒。后续请求响应速度可达毫秒级。

8.4 Q:版权信息如何保留?

A:本项目承诺永久开源免费使用,但必须保留以下声明:

webUI二次开发 by 科哥 | 微信:312088415 承诺永远开源使用 但是需要保留本人版权信息!

9. 操作按钮功能说明

按钮名称功能描述
开始转换触发当前输入文本的标准化处理
清空清除输入与输出区域的内容
复制结果将输出内容复制回输入框,用于连续编辑
保存到文件将结果写入服务器临时文件
批量转换对上传的TXT文件执行批量处理

10. 界面布局说明

主界面采用简洁清晰的设计风格,主要区域划分如下:

┌─────────────────────────────────────────┐ │ [紫蓝渐变] 中文逆文本标准化 (ITN) │ │ webUI二次开发 by 科哥 │ ├─────────────────────────────────────────┤ │ [📝 文本转换] [📦 批量转换] │ │ │ │ ┌───────────┐ ┌───────────┐ │ │ │ 输入框 │ → │ 输出框 │ │ │ │ │ │ │ │ │ └───────────┘ └───────────┘ │ │ │ │ [开始转换] [清空] [复制] [保存] │ ├─────────────────────────────────────────┤ │ 🎯 快速示例 │ │ [日期] [时间] [数字] [货币] ... │ └─────────────────────────────────────────┘

颜色区分功能区块,操作路径明确,降低用户学习成本。


11. 技术支持与联系方式

如在使用过程中遇到任何问题,或希望定制特定转换规则,请联系开发者:

  • 微信: 312088415
  • 开发者: 科哥

我们提供远程协助、性能调优及企业级集成支持服务。


12. 开源许可与使用声明

本项目遵循 Apache License 2.0 协议开源发布。

重要声明
本系统允许个人与商业用途,但任何形式的分发或展示均须完整保留原始版权信息:

webUI二次开发 by 科哥 | 微信:312088415 承诺永远开源使用 但是需要保留本人版权信息!

感谢您的理解与支持!


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 12:23:41

全面讲解Xilinx Vitis IDE的基本功能与用法

深入浅出 Xilinx Vitis IDE&#xff1a;从零开始掌握 FPGA 软硬件协同开发你有没有遇到过这样的困境&#xff1f;算法团队用 Python 把模型跑通了&#xff0c;性能却卡在 CPU 上上不去&#xff1b;而硬件团队还在用 Verilog 一点一点搭逻辑&#xff0c;两边沟通像“鸡同鸭讲”。…

作者头像 李华
网站建设 2026/4/12 2:44:52

Qwen3-Embedding-4B完整指南:从安装到多场景调用详解

Qwen3-Embedding-4B完整指南&#xff1a;从安装到多场景调用详解 1. 引言 随着大模型在自然语言处理、信息检索和跨模态理解等领域的广泛应用&#xff0c;高质量的文本嵌入&#xff08;Text Embedding&#xff09;能力成为构建智能系统的核心基础。Qwen3-Embedding-4B 作为通…

作者头像 李华
网站建设 2026/4/11 0:42:35

Hunyuan与GPT-4翻译对比:中文→英文BLEU 38.5实战评测

Hunyuan与GPT-4翻译对比&#xff1a;中文→英文BLEU 38.5实战评测 1. 引言 在多语言交流日益频繁的今天&#xff0c;高质量的机器翻译已成为自然语言处理领域的重要需求。随着大模型技术的发展&#xff0c;翻译系统已从传统的统计方法演进到基于Transformer架构的端到端神经网…

作者头像 李华
网站建设 2026/4/10 2:16:46

BERT如何应对新词?动态词汇处理部署策略

BERT如何应对新词&#xff1f;动态词汇处理部署策略 1. 引言&#xff1a;BERT 智能语义填空服务的工程背景 随着自然语言处理技术的发展&#xff0c;预训练语言模型在中文语义理解任务中展现出强大能力。其中&#xff0c;BERT&#xff08;Bidirectional Encoder Representati…

作者头像 李华
网站建设 2026/4/6 18:08:50

MinerU与传统OCR对比:深度学习多模态解析优势部署案例

MinerU与传统OCR对比&#xff1a;深度学习多模态解析优势部署案例 1. 技术背景与选型动因 在当前企业数字化转型和科研自动化加速的背景下&#xff0c;文档信息提取已从简单的文本识别演进为对复杂结构化内容的理解需求。传统的OCR&#xff08;光学字符识别&#xff09;技术长…

作者头像 李华
网站建设 2026/4/13 8:37:01

AI绘画省钱妙招:云端按需付费,比买显卡省80%

AI绘画省钱妙招&#xff1a;云端按需付费&#xff0c;比买显卡省80% 你是不是也遇到过这样的烦恼&#xff1f;作为一名插画师&#xff0c;想用AI来辅助创作&#xff0c;提升效率、激发灵感。但一查专业显卡的价格&#xff0c;RTX 4090动辄上万&#xff0c;甚至更高端的A100、H…

作者头像 李华