📌 背景:分类只是第一步
在上一篇文章中,我分享了如何用 LLM 把 14,088 条地铁乘客反馈分类到马斯洛需求层次中。
但分类只是第一步。知道"这条反馈属于舒适层"还不够,运营方真正想知道的是:到底什么东西让乘客不舒服?
比如这条反馈:
"南京地铁的空调能不能调高点?每次坐都冻成狗,夏天穿裙子根本扛不住。"
分类结果:舒适层 + 负面
但具体问题是什么?答案是:列车空调
再比如这条:
"工作人员帮我找回了钱包,真的太感谢了!"
分类结果:尊重层 + 正面
具体要素是:安检服务 / 失物招领
这就是本文要解决的问题——从口语化的微博文本中,精准提取 3-7 个字的核心服务要素。
🤔 为什么是"3-7 字关键词"?
地铁运营方需要的不是长篇大论,而是可以直接定位到具体设施或服务的名词短语。
| 反馈原文 | 理想提取结果 | 为什么 |
|---|---|---|
| "工作人员帮我找回了钱包,太感谢了" | 安检服务 | 指向具体服务类型 |
| "早晚高峰挤得怀疑人生,门都关不上" | 车厢拥挤 | 可量化、可改进的问题 |
| "报站声音太小,戴着耳机根本听不清" | 报站音量 | 具体可调节的参数 |
| "毕业季的车厢装饰太浪漫了吧" | 毕业季装饰 | 具体可复制的活动 |
| "S6号线什么时候通车啊" | 线路开通 | 具体可追踪的进展 |
核心原则:
长度 3-7 个汉字(最精简的名词短语)
必须指向具体可改进的服务要素
禁止形容词和情感词(如"很好""太烂")
禁止只输出"南京地铁"(没有信息量)
🛠️ 第一版提示词:过于自由,结果失控
我最初写的提示词很简单:
请从以下乘客反馈中提取 1-3 个南京地铁的具体服务要素: {text}结果惨不忍睹:
| 反馈原文 |
|---|