FST ITN-ZH大模型镜像解析|轻松搞定日期、金额的口语到标准格式转换
你有没有遇到过这样的情况:一段语音转文字的结果里写着“二零零八年八月八日早上八点半”,可你想把它存进数据库,却发现这种写法根本没法做时间排序?或者客户说“一点二五元”,系统记录下来也是原样,但财务报表需要的是“¥1.25”——这时候,手动改不现实,自动化处理又卡在“看不懂”上。
别急,今天介绍的这个工具,就是专门解决这类问题的利器:FST ITN-ZH 中文逆文本标准化(ITN)WebUI 镜像。它能自动把口语化的中文表达,一键转换成标准、可计算、可存储的格式,尤其适合语音识别后处理、客服系统、智能录入等场景。
更棒的是,它已经打包成CSDN星图平台上的预置镜像,无需配置环境、不用写代码、点点鼠标就能用。无论你是开发者、运维人员,还是业务分析师,都能快速上手。
1. 什么是逆文本标准化(ITN)?
1.1 从“听得懂”到“用得上”
语音识别(ASR)的任务是把声音变成文字,比如:
“我去年花了三万五千块钱买了辆车。”
ASR 输出可能是:
我去年花了三万五千块钱买了辆车。这听起来没错,但如果要提取“金额”信息用于数据分析,你会发现,“三万五千”不是数字,不能参与计算。你想搜索“35000”的记录也找不到。
这就引出了一个关键环节:逆文本标准化(Inverse Text Normalization, ITN)。
它的作用,就是把 ASR 输出中的口语化表达还原为标准书写形式,让机器真正“理解”并“可用”这些信息。
转换后结果应为:
我去年花了35000块钱买了辆车。这才叫“听得清,也用得上”。
1.2 ITN 能做什么?
FST ITN-ZH 支持多种常见中文口语表达的标准化转换,覆盖日常高频使用场景:
| 类型 | 输入示例 | 输出示例 |
|---|---|---|
| 日期 | 二零零八年八月八日 | 2008年08月08日 |
| 时间 | 早上八点半 | 8:30a.m. |
| 数字 | 一百二十三 | 123 |
| 货币 | 一点二五元 | ¥1.25 |
| 分数 | 五分之一 | 1/5 |
| 度量单位 | 二十五千克 | 25kg |
| 数学符号 | 负二 | -2 |
| 车牌号 | 京A一二三四五 | 京A12345 |
这些转换看似简单,但靠正则匹配很难全覆盖,尤其是长文本中夹杂多个类型时。而 FST ITN-ZH 基于有限状态转导器(FST)构建,规则严谨、效率极高,能在毫秒级完成复杂语义分析。
2. 快速部署与启动:三步上手
2.1 部署说明
该镜像已在 CSDN 星图平台提供,名称为:
FST ITN-ZH 中文逆文本标准化 (ITN) webui二次开发构建by科哥
你只需在平台选择该镜像,创建实例即可。系统已预装所有依赖,包括 Python 环境、Flask Web 框架、FST 引擎和前端界面,开箱即用。
2.2 启动服务
首次运行或重启服务时,执行以下命令:
/bin/bash /root/run.sh该脚本会启动基于 Gradio 的 WebUI 服务,默认监听端口7860。
2.3 访问地址
浏览器打开:
http://<你的服务器IP>:7860即可看到如下界面:
界面简洁直观,支持两种主要操作模式:单条文本转换和批量文件处理。
3. 核心功能详解
3.1 文本转换:实时输入,即时输出
这是最常用的功能,适合调试或少量数据处理。
使用流程
- 打开页面,点击「 文本转换」标签页;
- 在左侧输入框中填写待转换的中文文本;
- 点击「开始转换」按钮;
- 右侧输出框将显示标准化结果。
实际案例演示
输入:
这件事发生在二零一九年九月十二日的晚上,大概八点半左右,涉及金额为一万二千元。输出:
这件事发生在2019年09月12日的晚上,大概8:30左右,涉及金额为12000元。可以看到,日期、时间、金额全部被准确识别并转换,且上下文保持完整,没有破坏原句结构。
快速示例按钮
页面底部提供了一组快捷示例按钮,点击即可自动填充典型输入:
[日期]→ 二零零八年八月八日[时间]→ 早上八点半[数字]→ 一百二十三[货币]→ 一点二五元[分数]→ 五分之一[度量]→ 二十五千克[数学]→ 负二[车牌]→ 京A一二三四五[长文本]→ 包含多种类型的复合句子
非常适合新手快速体验效果。
3.2 批量转换:高效处理大量数据
当你有成百上千条记录需要处理时,手动一条条输显然不现实。这时就要用到「📦 批量转换」功能。
操作步骤
- 准备一个
.txt文件,每行一条待转换的文本; - 进入「批量转换」标签页;
- 点击「上传文件」按钮,选择文件;
- 点击「批量转换」按钮;
- 转换完成后,点击「下载结果」获取处理后的文件。
文件格式要求
- 编码:UTF-8
- 换行符:LF 或 CRLF 均可
- 每行一条独立文本,不要包含序号或其他标记
示例文件内容
二零零八年八月八日 一百二十三 早上八点半 一点二五元 负五度 沪B六七八九零输出结果
2008年08月08日 123 8:30a.m. ¥1.25 -5℃ 沪B67890整个过程全自动,无需人工干预,非常适合集成到数据清洗流水线中。
4. 高级设置:按需定制转换行为
虽然默认设置适用于大多数场景,但有时你希望对某些表达“手下留情”。为此,系统提供了三项灵活的高级选项。
4.1 转换独立数字
- 开启:
幸运一百→幸运100 - 关闭:
幸运一百→幸运一百
适用场景:如果你担心“一百种可能”被误转为“100种可能”,可以关闭此项以保留语义完整性。
4.2 转换单个数字(0-9)
- 开启:
零和九→0和9 - 关闭:
零和九→零和九
注意:此功能主要用于手机号、编号等场景。若文本中存在“零的突破”这类成语,建议关闭以免误伤。
4.3 完全转换“万”
- 开启:
六百万→6000000 - 关闭:
六百万→600万
推荐做法:对于财务系统或数据库入库,建议开启;若用于展示给用户阅读,则保留“万”单位更符合习惯。
这些设置支持动态调整,修改后立即生效,无需重启服务。
5. 实际应用场景举例
5.1 客服录音后处理
某电商平台每天产生数千通客服录音,ASR 转写后得到大量口语化文本,如:
“订单是二零二四年十月五号下的,退款金额是一千二百块。”
通过调用 FST ITN-ZH 进行后处理,可快速提取结构化信息:
订单日期:2024年10月05日 退款金额:1200元便于后续导入 CRM 系统或生成统计报表。
5.2 教育领域:作业语音批改
学生通过语音提交口算题答案:“负三加正五等于二”。
经 ITN 处理后变为:
-3 + +5 = 2系统可直接进行数学运算验证,实现自动化评分。
5.3 政务热线:关键信息提取
市民来电:“我想查一下昨天下午三点十五分的预约状态。”
ITN 转换后:
我想查一下昨天下午3:15p.m.的预约状态。结合 NLP 模型,能精准提取时间字段,触发自动查询流程。
6. 使用技巧与最佳实践
6.1 长文本处理能力强
系统支持在同一句话中识别多种类型混合表达,例如:
输入:
我在二零二三年买了三台笔记本,每台一万二千元,总花费三万六千元,发票日期是二零二三年十二月二十五日。输出:
我在2023年买了3台笔记本,每台12000元,总花费36000元,发票日期是2023年12月25日。所有数字、金额、日期均被正确转换,且语义连贯。
6.2 批量处理建议
- 单次上传文件不宜过大(建议不超过 10MB);
- 若数据量极大,可拆分为多个小文件并行处理;
- 处理完成后,结果文件会自动添加时间戳命名,方便归档。
6.3 结果保存与复用
点击「保存到文件」按钮,可将当前转换结果持久化存储在服务器本地,路径通常为/root/output/目录下,文件名形如:
itn_result_20250405_142312.txt便于后续审计或二次加工。
7. 常见问题解答
7.1 转换结果不准确怎么办?
首先检查是否启用了合适的高级设置。其次确认输入文本是否符合标准普通话表达。系统目前主要支持:
- 简体数字:一、二、三
- 大写数字:壹、贰、叁
- 特殊读法:幺(一)、两(二)
方言或非规范表达可能无法识别。
7.2 支持哪些输入格式?
目前仅支持纯文本(.txt),不支持 PDF、Word、图片等格式。如有需求,可先用 OCR 或文档解析工具提取文字后再处理。
7.3 转换速度如何?
首次加载模型需 3–5 秒(因需初始化 FST 状态机),之后每条文本转换耗时约 10–50 毫秒,性能优异。
7.4 是否必须保留版权信息?
是的。根据开发者声明,使用本项目时需保留以下信息:
webUI二次开发 by 科哥 | 微信:312088415 承诺永远开源使用 但是需要保留本人版权信息!可在内部系统界面底部以小字标注,或在文档中注明。
8. 总结
FST ITN-ZH 中文逆文本标准化镜像,虽然是一个小众工具,但在特定场景下价值巨大。它解决了语音识别“最后一公里”的问题——让机器不仅听懂人话,还能真正理解和使用。
无论是企业客服系统的自动化质检,还是教育领域的智能批改,亦或是政务热线的信息提取,只要涉及到“口语→标准格式”的转换需求,这个工具都能派上用场。
更重要的是,它以 WebUI 形式封装,极大降低了使用门槛。你不需要懂 FST、不了解编译原理,也能享受前沿技术带来的便利。
如果你正在处理中文语音转写后的数据规整问题,不妨试试这个镜像。也许只用一次转换,就能省下几个小时的手工整理时间。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。