- 输入模板:
<|im_start|>system\n<|im_end|>\n<|im_start|>user\n<audio_start><audio_pad><|im_end|>\n<im_start>assistant\nlanguage Chinese<asr_text> - <|audio_pad|>根据音频特征长度进行占位,replace_multimodeal_special_tokens:
<|im_start|>system\n<|im_end|>\n<|im_start|>user\n<audio_start><audio_pad>*N<|im_end|>\n<im_start>assistant\nlanguage Chinese<asr_text> - tokenizer:
1)audio inputs: {‘feature_attention_mask’: tensor([[1,1,1,1,…]]), ‘input_features’: tensor([[TDIM])} # 特征刚输入的值
2)text inputs: {‘input_ids’: tensor([[id, id…]]), ‘attention_mask’: tensor([[1N]])},其中input_ids就是模板映射之后的id,其中audio_pad是audio_feature下采样之后的长度。
3)audio 的padding有单独的id【audio_pad占位,根据最终输入帧数】,以及text的padding有单独的id【endoftext | 151643,进行left padding】,另外model.generation的结束标签是(【eos_token_id】151645,<|im_end|>)。
4)根据audio inputs提取特征之后经过speech encoder之后,进行插入text inputs中。
qwen3-asr模型推理逻辑
张小明
前端开发工程师
5分钟快速掌握:OpCore Simplify自动化OpenCore配置终极指南
5分钟快速掌握:OpCore Simplify自动化OpenCore配置终极指南 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 面对黑苹果配置的复杂流程&…
std::move的使用
1、原始指针和内置类型用std::move不会转移所有权,只有资源管理语义的类,比如智能指针,才会有真正的转移所有权。2、对内置类型使用move之后,虽然没有转移所有权,但不应该再使用了,原对象的状态处于“未指定…
OpenClaw 入门教程(3):Dashboard 页面详解
创建日期:2026-04-21作者:小龙 🐉版本:v1.0适用版本:OpenClaw 2026.4.14 🗂️ 1. 左侧菜单结构 📖 概述 OpenClaw Dashboard 是 Web 版控制界面,提供可视化的系统管理、配置编辑、会…
数据工程师必读:如何用ETL构建数据仓库
数据工程师必读:如何用ETL构建数据仓库 业务系统日益复杂,传统的自定义脚本数据抽取方式不仅维护成本高,缺乏调度监控,一旦源表结构变动,整个数据流水线便濒临崩溃。搭建一个稳定、可扩展的数据仓库,不再是…
季中OTB为什么总是失控:鞋服零售商品企划的核心矛盾与解法
很多鞋服品牌在做季前商品企划时,OTB计划看起来是平衡的——总量控制住了,品类分配合理,交货节奏也排好了。但到了季中,往往会发现实际采购金额已经偏离计划15%以上,有些品类严重超买,有些该追加的爆款却因…
Spring Boot 4.9 可观测性增强:全方位监控与分析
Spring Boot 4.9 可观测性增强:全方位监控与分析 别叫我大神,叫我 Alex 就好 Spring Boot 4.9 带来了全面的可观测性增强,为开发者提供了更强大的监控、追踪和日志功能。本文将详细介绍 Spring Boot 4.9 的可观测性特性,包括 Micr…