Fish-Speech-1.5 IDEA插件开发：集成开发环境语音助手-平芜编程栈

Fish-Speech-1.5 IDEA插件开发：集成开发环境语音助手

想象一下，你正在IDE里写代码，突然想不起来某个API的具体用法，或者需要快速理解一段复杂的错误日志。这时候，你不需要离开编辑器去搜索，只需要选中文本，一个清晰、自然的语音就会为你朗读出来，甚至还能用不同的语气强调关键部分。这就是将Fish-Speech-1.5集成到IDEA插件中能带来的体验。

Fish-Speech-1.5是目前开源的顶级文本转语音模型之一，支持13种语言，声音自然度极高，延迟极低。把它塞进我们每天使用的开发工具里，能让代码审查、文档阅读、错误排查这些日常任务变得耳目一新。今天，我们就来聊聊怎么动手开发这样一个插件，给你的IDE装上一个“会说话的助手”。

1. 为什么要在IDEA里集成语音合成？

在深入代码之前，我们先看看这个想法到底能解决什么问题。开发者的大部分时间都花在“看”代码上，视觉负担其实很重。语音合成引入了一个新的交互维度。

最直接的应用是代码朗读。当你长时间盯着屏幕，眼睛疲劳时，让AI帮你“读”代码，可以换个方式理解逻辑。对于学习新代码库或者进行代码审查，听觉反馈能帮你捕捉到视觉可能忽略的细节，比如重复的模式或者不协调的命名。

其次是错误和日志播报。程序崩溃时，控制台刷出一大片红色错误信息。如果关键的错误行能被即时、清晰地朗读出来，你甚至不用转头去看弹窗，就能第一时间知道问题所在，尤其是在多屏工作或者全屏调试时。

还有一个有趣的场景是交互式学习或辅助。对于视力障碍的开发者，或者单纯想闭目养神时听听技术文档，这个功能会非常有用。插件可以将选中的文档、注释甚至终端输出实时转换为语音。

Fish-Speech-1.5的优势在这里格外突出：它的延迟很低（号称不到150毫秒），意味着从你点击“朗读”到听到声音，几乎感觉不到延迟；它支持丰富的语气控制，你可以让AI用“严肃的”语气读错误，用“轻松的”语气读注释；而且它完全开源，可以本地部署，不用担心代码内容泄露到外部服务器。

2. 插件核心设计思路

开发这样一个插件，核心是架起IDEA和Fish-Speech推理服务之间的桥梁。我们不会把庞大的模型直接打包进插件，那样会让插件体积爆炸。更优雅的做法是采用客户端-服务端架构。

插件本身作为轻量级客户端，负责IDEA内的交互：捕获用户选中的文本、提供配置界面、发送合成请求、接收并播放音频。而Fish-Speech模型则作为一个独立的本地服务（或远程服务）运行，专门处理繁重的语音合成任务。两者通过HTTP API进行通信。

这种设计有几个好处。一是插件保持轻巧，安装和更新都很快。二是模型服务可以独立维护和升级，甚至可以部署在性能更强的机器上，插件只需连接对应的API地址即可。三是安全，你的代码文本只在你的本地环境或可信服务器间传输。

那么，插件需要具备哪些功能呢？

文本捕获：能够获取当前编辑器选中的文本，或者读取特定文件、控制台的内容。
语音合成请求：将文本和用户选择的参数（如语速、音色、语气）打包，发送给Fish-Speech服务。
音频播放：接收服务返回的音频数据（通常是MP3或WAV格式），并在IDE内调用系统音频输出进行播放。
配置管理：让用户设置Fish-Speech服务的地址、端口、默认语言等。
用户界面：在工具栏添加一个播放/停止按钮，在右键菜单增加“朗读选中文本”的选项。

接下来，我们就一步步实现它。

3. 搭建Fish-Speech本地推理服务

首先，我们需要一个能提供服务的Fish-Speech实例。根据官方文档，部署方式有很多种，这里我们选择用Docker来快速拉起一个API服务，这样最干净，也便于管理。

确保你的开发机器上已经安装了Docker和Docker Compose。然后，我们可以参考官方仓库的compose.yml文件来配置。创建一个名为docker-compose.fish-speech.yml的文件：

version: '3.8' services: fish-speech-api: image: ghcr.io/fishaudio/fish-speech:latest container_name: fish-speech-api ports: - "8000:8000" # 将容器的8000端口映射到本机的8000端口 volumes: - ./models:/app/models # 可选：挂载本地目录用于缓存模型，避免每次下载 environment: - MODEL_NAME=fishaudio/fish-speech-1.5 - DEVICE=cpu # 如果有GPU，可以设置为 cuda command: > python -m fish_speech.cli.serve --model-name ${MODEL_NAME} --device ${DEVICE} --host 0.0.0.0 --port 8000 restart: unless-stopped

这个配置做了几件事：拉取最新的Fish-Speech镜像，暴露8000端口作为API端口，并设置了启动命令来运行模型服务。第一次运行时会自动从Hugging Face下载模型权重，可能会需要一些时间。

在终端中，进入该文件所在目录，运行：

docker-compose -f docker-compose.fish-speech.yml up -d

服务启动后，你可以通过访问http://localhost:8000/docs来查看自动生成的API文档（如果服务提供了的话）。通常，Fish-Speech的推理接口会是一个接收JSON的POST请求，例如/v1/tts。你需要根据实际服务的API规范来调整插件的请求代码。一个典型的请求体可能像这样：

{ "text": "Hello, this is a test from IDEA plugin.", "language": "en", "emotion": "(neutral)", "speed": 1.0 }

服务会返回一个音频文件（如audio/mpeg格式）。我们可以用curl简单测试一下：

curl -X POST "http://localhost:8000/v1/tts" \ -H "Content-Type: application/json" \ -d '{"text":"测试语音合成"}' \ --output output.mp3

如果能成功生成output.mp3文件并播放，说明服务运行正常。

4. 开发IDEA插件：从零到一

现在进入正题，开发IDEA插件。我们将使用IntelliJ Platform SDK，它支持用Java或Kotlin进行开发。这里我选择Kotlin，因为它与IDEA生态结合更紧密，代码也更简洁。

首先，你需要安装IntelliJ IDEA（社区版即可），并在插件市场中安装“Plugin DevKit”插件。然后，通过“New Project”向导创建一个“IDE Plugin”项目，选择Kotlin作为语言。

4.1 定义插件动作（Action）

插件的核心是“动作”，即用户点击菜单或按钮后触发的操作。我们要创建一个动作，当用户在编辑器中选中文本后，右键菜单会出现“用Fish Speech朗读”的选项。

在src/main/kotlin目录下创建一个新的Kotlin类，比如叫做TextToSpeechAction。

import com.intellij.openapi.actionSystem.AnAction import com.intellij.openapi.actionSystem.AnActionEvent import com.intellij.openapi.actionSystem.CommonDataKeys import com.intellij.openapi.application.ApplicationManager import com.intellij.openapi.progress.ProgressIndicator import com.intellij.openapi.progress.ProgressManager import com.intellij.openapi.progress.Task import com.intellij.openapi.ui.Messages import java.net.HttpURLConnection import java.net.URL import javax.sound.sampled.AudioSystem class TextToSpeechAction : AnAction() { override fun actionPerformed(e: AnActionEvent) { // 1. 获取当前编辑器和选中的文本 val editor = e.getData(CommonDataKeys.EDITOR) val selectedText = editor?.selectionModel?.selectedText if (selectedText.isNullOrBlank()) { Messages.showWarningDialog("请先选中一些文本。", "无选中内容") return } // 2. 在后台任务中执行网络请求和音频播放，避免阻塞UI ProgressManager.getInstance().run(object : Task.Backgroundable(e.project, "正在合成语音...", true) { override fun run(indicator: ProgressIndicator) { indicator.isIndeterminate = true indicator.text = "正在请求Fish-Speech服务..." try { // 3. 调用合成函数 val audioBytes = synthesizeSpeech(selectedText) indicator.text = "正在播放音频..." playAudio(audioBytes) } catch (ex: Exception) { ApplicationManager.getApplication().invokeLater { Messages.showErrorDialog("语音合成失败: ${ex.message}", "错误") } } } }) } private fun synthesizeSpeech(text: String): ByteArray { // TODO: 从插件配置中读取服务地址 val apiUrl = "http://localhost:8000/v1/tts" val url = URL(apiUrl) val connection = url.openConnection() as HttpURLConnection connection.requestMethod = "POST" connection.setRequestProperty("Content-Type", "application/json") connection.doOutput = true // 构建请求JSON，这里需要根据你的Fish-Speech API调整 val requestBody = """ { "text": "${text.escapeJson()}", "language": "zh", "speed": 1.0 } """.trimIndent() connection.outputStream.use { it.write(requestBody.toByteArray(Charsets.UTF_8)) } if (connection.responseCode != 200) { throw RuntimeException("HTTP ${connection.responseCode}: ${connection.responseMessage}") } return connection.inputStream.readAllBytes() } private fun playAudio(audioBytes: ByteArray) { val audioInputStream = AudioSystem.getAudioInputStream(audioBytes.inputStream()) val clip = AudioSystem.getClip() clip.open(audioInputStream) clip.start() // 等待播放完毕（简单处理，实际插件中可能需要更复杂的线程管理） Thread.sleep(clip.microsecondLength / 1000) clip.close() } // 简单的JSON字符串转义 private fun String.escapeJson(): String { return this.replace("\\", "\\\\") .replace("\"", "\\\"") .replace("\n", "\\n") .replace("\r", "\\r") .replace("\t", "\\t") } // 可选：根据是否有文本来更新动作的可用状态 override fun update(e: AnActionEvent) { val editor = e.getData(CommonDataKeys.EDITOR) val hasSelection = editor?.selectionModel?.hasSelection() ?: false e.presentation.isEnabledAndVisible = hasSelection } }

这段代码创建了一个基本的动作类。actionPerformed是核心，它获取选中的文本，然后在一个后台任务中调用synthesizeSpeech函数向本地服务发送请求，获取音频数据，最后调用playAudio播放。

4.2 注册插件组件

接下来，我们需要在plugin.xml文件中注册这个动作，并把它添加到编辑器的右键菜单中。

<idea-plugin> <id>com.yourcompany.fishspeech.plugin</id> <name>Fish Speech Assistant</name> <vendor>Your Company</vendor> <depends>com.intellij.modules.platform</depends> <extensions defaultExtensionNs="com.intellij"> <!-- 后续可以在这里添加配置页等扩展 --> </extensions> <actions> <action id="FishSpeech.TextToSpeech" class="TextToSpeechAction" text="用Fish Speech朗读" description="使用Fish-Speech合成选中文本的语音"> <add-to-group group-id="EditorPopupMenu" anchor="first"/> <!-- 也可以添加到工具栏 --> <!-- <add-to-group group-id="MainToolBar" anchor="last"/> --> </action> </actions> </idea-plugin>

4.3 添加配置页面

硬编码服务地址（localhost:8000）显然不够灵活。我们需要一个配置页面，让用户自己设置服务端点、默认语言等。

首先，创建一个设置类来保存配置：

import com.intellij.openapi.application.ApplicationManager import com.intellij.openapi.components.PersistentStateComponent import com.intellij.openapi.components.State import com.intellij.openapi.components.Storage @State(name = "FishSpeechSettings", storages = [Storage("fish_speech_settings.xml")]) class FishSpeechSettings : PersistentStateComponent<FishSpeechSettings.State> { data class State( var apiEndpoint: String = "http://localhost:8000/v1/tts", var defaultLanguage: String = "zh", var defaultSpeed: Double = 1.0 ) private var myState = State() override fun getState(): State = myState override fun loadState(state: State) { myState = state } companion object { fun getInstance(): FishSpeechSettings { return ApplicationManager.getApplication().getService(FishSpeechSettings::class.java) } } }

然后，创建一个配置界面（Configurable）：

import com.intellij.openapi.options.Configurable import javax.swing.JComponent import javax.swing.JPanel import javax.swing.JTextField import javax.swing.JLabel import com.intellij.openapi.ui.VerticalFlowLayout import com.intellij.ui.components.JBTextField class FishSpeechConfigurable : Configurable { private lateinit var apiEndpointField: JTextField private lateinit var defaultLanguageField: JTextField private lateinit var defaultSpeedField: JTextField private lateinit var panel: JPanel override fun createComponent(): JComponent { panel = JPanel(VerticalFlowLayout()) panel.add(JLabel("API端点:")) apiEndpointField = JBTextField().apply { panel.add(this) } panel.add(JLabel("默认语言 (如 zh, en):")) defaultLanguageField = JBTextField().apply { panel.add(this) } panel.add(JLabel("默认语速 (如 1.0):")) defaultSpeedField = JBTextField().apply { panel.add(this) } return panel } override fun isModified(): Boolean { val settings = FishSpeechSettings.getInstance().state return apiEndpointField.text != settings.apiEndpoint || defaultLanguageField.text != settings.defaultLanguage || defaultSpeedField.text != settings.defaultSpeed.toString() } override fun apply() { val settings = FishSpeechSettings.getInstance().state settings.apiEndpoint = apiEndpointField.text settings.defaultLanguage = defaultLanguageField.text settings.defaultSpeed = defaultSpeedField.text.toDoubleOrNull() ?: 1.0 } override fun reset() { val settings = FishSpeechSettings.getInstance().state apiEndpointField.text = settings.apiEndpoint defaultLanguageField.text = settings.defaultLanguage defaultSpeedField.text = settings.defaultSpeed.toString() } override fun getDisplayName(): String = "Fish Speech" }

最后，在plugin.xml中注册这个配置：

<extensions defaultExtensionNs="com.intellij"> <applicationConfigurable instance="FishSpeechConfigurable"/> </extensions>

现在，用户就可以在IDEA的“Settings/Preferences” -> “Tools” -> “Fish Speech”中找到配置页面了。记得修改之前的synthesizeSpeech函数，从FishSpeechSettings.getInstance().state中读取apiEndpoint。