LLM 结构化抽取实战：如何逼迫大模型严格输出“3-7字“核心要素？-平芜编程栈

📌 背景：分类只是第一步

在上一篇文章中，我分享了如何用 LLM 把 14,088 条地铁乘客反馈分类到马斯洛需求层次中。

但分类只是第一步。知道"这条反馈属于舒适层"还不够，运营方真正想知道的是：到底什么东西让乘客不舒服？

比如这条反馈：

"南京地铁的空调能不能调高点？每次坐都冻成狗，夏天穿裙子根本扛不住。"

分类结果：舒适层 + 负面

但具体问题是什么？答案是：列车空调

再比如这条：

"工作人员帮我找回了钱包，真的太感谢了！"

分类结果：尊重层 + 正面

具体要素是：安检服务 / 失物招领

这就是本文要解决的问题——从口语化的微博文本中，精准提取 3-7 个字的核心服务要素。

🤔 为什么是"3-7 字关键词"？

地铁运营方需要的不是长篇大论，而是可以直接定位到具体设施或服务的名词短语。

反馈原文	理想提取结果	为什么
"工作人员帮我找回了钱包，太感谢了"	安检服务	指向具体服务类型
"早晚高峰挤得怀疑人生，门都关不上"	车厢拥挤	可量化、可改进的问题
"报站声音太小，戴着耳机根本听不清"	报站音量	具体可调节的参数
"毕业季的车厢装饰太浪漫了吧"	毕业季装饰	具体可复制的活动
"S6号线什么时候通车啊"	线路开通	具体可追踪的进展

核心原则：

长度 3-7 个汉字（最精简的名词短语）
必须指向具体可改进的服务要素
禁止形容词和情感词（如"很好""太烂"）
禁止只输出"南京地铁"（没有信息量）

🛠️ 第一版提示词：过于自由，结果失控

我最初写的提示词很简单：

请从以下乘客反馈中提取 1-3 个南京地铁的具体服务要素： {text}

结果惨不忍睹：

反馈原文

高效打造专业级媒体播放体验：MPV_lazy配置方案深度解析

高效打造专业级媒体播放体验：MPV_lazy配置方案深度解析【免费下载链接】mpv_PlayKit 🔄 mpv player 播放器折腾记录 Windows conf | 中文注释配置汉化文档快速帮助入门 | mpv-lazy 懒人包 Win11 x64 config | 着色器 shader 滤镜 filter 整合方案项…