news 2026/3/26 18:12:33

53_Spring AI 干货笔记之 转录 API

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
53_Spring AI 干货笔记之 转录 API

一、转录 API

Spring AI 通过 TranscriptionModel 接口为语音转文字转录提供了统一的 API。这使您能够编写可在不同转录提供商之间移植的代码。

二、支持的提供商

  • OpenAI 的 Whisper API

  • Azure OpenAI Whisper API

三、通用接口

所有转录提供商都实现了以下共享接口:

3.1 TranscriptionModel

TranscriptionModel 接口提供了将音频转换为文本的方法:

publicinterfaceTranscriptionModelextendsModel<AudioTranscriptionPrompt,AudioTranscriptionResponse>{/** * 转录给定提示中的音频。 */AudioTranscriptionResponsecall(AudioTranscriptionPrompttranscriptionPrompt);/** * 转录音频资源的便捷方法。 */defaultStringtranscribe(Resourceresource){AudioTranscriptionPromptprompt=newAudioTranscriptionPrompt(resource);returnthis.call(prompt).getResult().getOutput();}/** * 使用选项转录音频资源的便捷方法。 */defaultStringtranscribe(Resourceresource,AudioTranscriptionOptionsoptions){AudioTranscriptionPromptprompt=newAudioTranscriptionPrompt(resource,options);returnthis.call(prompt).getResult().getOutput();}}

3.2 AudioTranscriptionPrompt

AudioTranscriptionPrompt 类封装了输入音频和选项:

ResourceaudioFile=newFileSystemResource("/path/to/audio.mp3");AudioTranscriptionPromptprompt=newAudioTranscriptionPrompt(audioFile,options);

3.3 AudioTranscriptionResponse

AudioTranscriptionResponse 类包含转录文本和元数据:

AudioTranscriptionResponseresponse=model.call(prompt);StringtranscribedText=response.getResult().getOutput();AudioTranscriptionResponseMetadatametadata=response.getMetadata();

四、编写与提供商无关的代码

共享转录接口的主要好处之一是能够编写无需修改即可与任何转录提供商一起工作的代码。实际的提供商(OpenAI、Azure OpenAI 等)由您的 Spring Boot 配置决定,允许您在不更改应用程序代码的情况下切换提供商。

4.1 基础服务示例

共享接口允许您编写与任何转录提供商一起工作的代码:

@ServicepublicclassTranscriptionService{privatefinalTranscriptionModeltranscriptionModel;publicTranscriptionService(TranscriptionModeltranscriptionModel){this.transcriptionModel=transcriptionModel;}publicStringtranscribeAudio(ResourceaudioFile){returntranscriptionModel.transcribe(audioFile);}publicStringtranscribeWithOptions(ResourceaudioFile,AudioTranscriptionOptionsoptions){AudioTranscriptionPromptprompt=newAudioTranscriptionPrompt(audioFile,options);AudioTranscriptionResponseresponse=transcriptionModel.call(prompt);returnresponse.getResult().getOutput();}}

此服务可与 OpenAI、Azure OpenAI 或任何其他转录提供商无缝协作,实际实现由您的 Spring Boot 配置决定。

五、提供商特定功能

虽然共享接口提供了可移植性,但每个提供商也通过提供商特定的选项类(例如 OpenAiAudioTranscriptionOptions、AzureOpenAiAudioTranscriptionOptions)提供特定功能。这些类在实现 AudioTranscriptionOptions 接口的同时,添加了提供商特定的能力。

有关提供商特定功能的详细信息,请参阅各个提供商的文档页面。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/22 15:45:19

现网都在用,但很多人不知道的网络服务和管理

一、DHCP 动态主机配置协议核心概念协议层级应用层协议核心作用客户端网卡设置为「动态获取IP」模式时&#xff0c;DHCP服务器会自动为其分配IP地址、子网掩码、网关、DNS等网络参数&#xff0c;实现客户端联网&#xff0c;减少手动配置工作量。典型场景办公网、校园网、家庭路…

作者头像 李华
网站建设 2026/3/24 6:05:43

基于Dify的语音助手前端+后端整合方案

基于 Dify 的语音助手前后端整合实践 在智能设备无处不在的今天&#xff0c;用户对“能听、会说、懂你”的语音助手期待越来越高。从智能家居到企业客服系统&#xff0c;语音交互正逐步成为主流入口。但构建一个真正可用的语音助手&#xff0c;并非只是接上语音识别&#xff08…

作者头像 李华
网站建设 2026/3/23 22:06:55

LVGL教程:RGB接口屏幕驱动调试技巧

搞定RGB屏不花、不闪、不撕裂&#xff1a;LVGL底层驱动调试实战指南你有没有遇到过这样的场景&#xff1f;LVGL界面写得漂亮&#xff0c;控件动画丝滑流畅&#xff0c;结果一烧进板子——屏幕要么全白、要么花得像抽象画&#xff0c;或者画面“上下错位”、刷新时疯狂闪烁。更糟…

作者头像 李华
网站建设 2026/3/18 6:59:18

4、用 Ruby 进行数据可视化与桌面报告生成

用 Ruby 进行数据可视化与桌面报告生成 1. 使用 Gruff 创建柱状图 在数据可视化中,柱状图是一种常用的展示方式。以下代码展示了如何使用 Gruff 库为数据库中的每个玩家创建柱状图报告: Player.find(:all).each do |player|bar_chart = Gruff::Bar.new(1024)bar_chart.le…

作者头像 李华
网站建设 2026/3/20 6:55:13

7、Rails应用开发:从演员日程表到团队性能报告

Rails应用开发:从演员日程表到团队性能报告 演员日程表应用 在Rails中开发一个简单的Web应用,首先要创建应用的布局文件。以下是演员日程表视图的布局代码: <html> <head> <title>Actor Schedule Report</title> </head> <body> &l…

作者头像 李华
网站建设 2026/3/18 9:12:26

Docker vs Podman:两大容器引擎

引言 在现代云计算和开发领域&#xff0c;容器技术已成为不可或缺的一部分。提到容器&#xff0c;大多数人首先想到的是 Docker&#xff0c;但实际上还有另一个强大且日益流行的选择&#xff1a;Podman。本文将深入探讨 Docker 和 Podman 的区别、联系以及各自的适用场景。 一…

作者头像 李华