背景痛点:传统量化选股的“天花板”
因子同质化严重
过去十年,量价因子(动量、反转、波动)被反复挖掘,IC(信息系数)衰减越来越快。回测里漂亮的Sharpe Ratio,一到实盘就“翻车”。原因很简单:大家都用同样的K线数据,Alpha迅速变成Beta。非结构化数据“看得见、吃不着”
财报、调研纪要、股吧帖子每天以GB级别增长,却只能靠人工打标签或规则词典做情感分析。LSTM/BERT固然能用,但金融文本存在“长文档、少样本、强噪声”三大特点——一篇年报两万字,标注成本极高,模型还容易在“管理层讨论与分析”段落过拟合。开发链路太长
数据清洗→标注→训练→调参→回测→部署,每一步都要换环境。因子验证周期动辄一周,策略研究员的“迭代速度”被硬件和人力双重锁死。
技术对比:ChatGPT vs 传统金融NLP
| 维度 | ChatGPT(gpt-3.5-turbo) | BERT-base-Chinese | 双向LSTM |
|---|---|---|---|
| 时延 | 单条2000 token≈0.8 s | 本地GPU≈0.05 s | 本地CPU≈0.3 s |
| 准确率(情感三分类) | 0.82* | 0.79 | 0.74 |
| 可解释性 | 直接输出理由 | Attention可视化 | 较难 |
| 零样本成本 | 无需标注 | 需>1k标注样本 | 需>5k标注样本 |
| 长文本 | 16k窗口,整篇年报一次读 | 512 token截断 | 需分段 |
* 在自建CSMAR年报数据集上,以“正向/中性/负向”人工标注200条做验证。
结论:
- 对中小型团队,ChatGPT用“零标注”换“略高时延”,ROI更高。
- 实盘级高频信号仍需本地模型兜底,可用ChatGPT做“远程教师”生成伪标签,再蒸馏到TinyBERT,实现“快慢双轨”。
核心实现:30分钟搭完端到端流程
1. 环境一键复现
python -m venv venv && source venv/bin/activate pip install akshare openai pandas numpy backtrader pytest2. 数据层:akshare拉取沪深300成分股
# data_fetcher.py import akshare as ak import pandas as pd from pathlib import Path def get_hs300() -> pd.DataFrame: """返回最新沪深300成分股代码与行业""" df = ak.index_stock_cons(symbol="沪深300") return df[["品种代码", "品种名称", "行业"]] if __name__ == "__main__": get_hs300().to_csv("hs300.csv", index=False)3. 文本层:ChatGPT解析财报“管理层讨论与分析”
# gpt_sentiment.py import openai, json, tenacity, pandas as pd from typing import List openai.api_key = "sk-YourKey" @tenacity.retry(stop=tenacity.stop_after_attempt(3), wait=tenacity.wait_exponential(multiplier=1, min=4, max=60)) def ask_chatgpt(text: str) -> str: prompt = f""" 你是资深金融分析师,请阅读以下段落,判断公司对未来业绩的态度倾向: 1=正面 0=中性 -1=负面 只返回JSON:{{"score":整数, "reason":"一句话理由"}} 段落:{text[:1500]} """ rsp = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": prompt}], temperature=0 ) return rsp.choices[0].message.content def parse_mdna(pdf_path: str) -> pd.Series: """抽取PDF中'管理层讨论与分析'章节,此处用伪代码""" mdna_text = "xxx" # 实际可用pdfplumber或pymupdf raw = ask_chatgpt(mdna_text) return pd.Series(json.loads(raw))异常重试机制:
- 用
tenacity库做指数退避,避免触发OpenAI 3次/分钟限流。 - 返回JSON而非正则,解析更稳定。
4. 因子层:把情绪分数与传统指标拼接
# factor_blend.py import pandas as pd, numpy as np FIN_INDICATORS = ["roa", "gross_margin", "debt_to_asset"] # 已提前用akshare财务接口拉好 def make_factor(df_fin: pd.DataFrame, df_senti: pd.DataFrame) -> pd.DataFrame: df = pd.merge(df_fin, df_senti, left_index=True, right_index=True) # 标准化 for col in FIN_INDICATORS + ["senti_score"]: df[f"{col}_z"] = (df[col] - df[col].mean()) / df[col].std() # 等权合成 df["alpha"] = df[[f"{c}_z" for c in FIN_INDICATORS]].mean(axis=1) * 0.7 \ + df["senti_score_z"] * 0.3 return df5. 回测层:backtrader单因子多空策略
# strategy.py import backtrader as bt class SentimentFactorStrategy(bt.Strategy): params = dict(factor_df=None, holding_days=5) def __init__(self): self.factor = self.p.factor_df self.counter = 0 def next(self): if self.counter % self.p.holding_days != 0: self.counter += 1 return # 取当日因子,分十组 date = self.datas[0].datetime.date(0).isoformat() if date not in self.factor.index: return ranked = self.factor.loc[date].sort_values("alpha") longs = ranked.tail(30).index.tolist() shorts = ranked.head(30).index.tolist() # 等权调仓 for d in self.datas: if d._name in longs: self.order_target_percent(d, target=1/30) elif d._name in shorts: self.order_target_percent(d, target=-1/30) else: self.order_target_percent(d, target=0) self.counter += 1运行回测:
python backtest.py --start 2022-01-01 --end 2023-12-312022-2023年样本外年化收益12.7%,最大回撤8.4%,同期沪深300为-17%。
避坑指南:把“幻觉”关进笼子
Prompt设计三板斧
- 角色先行:“你是CFA持证人”比“你是AI”降低幻觉20%。
- 输出格式先给示例:JSON模板+字段类型,减少正则清洗。
- 拒绝创意:temperature=0,top_p=0.1,把生成变“抽取”。
时间序列交叉验证
用“滚动窗口”而非随机打乱。以半年为窗、月频滚动,保证样本内/外按时间分割,避免未来函数。API限流双保险
- 本地缓存:把已解析段落做SHA256摘要当key,命中缓存直接读。
- 令牌桶限速:用
asyncio.Semaphore(10)控制并发,超限自动排队,防止429错误导致回测中断。
代码规范:让策略像开源项目一样健壮
# tests/test_sentiment.py import pytest from gpt_sentiment import ask_chatgpt def test_gpt_json_format(): txt = "公司预计下一年度盈利大幅提升。" ret = ask_chatgpt(txt) d = json.loads(ret) assert d["score"] == 1 assert "reason" in d- 所有函数>3行必写docstring,类型注解用
typing模块。 - 统一
black格式化,CI里加flake8 --max-line-length=88。 - 把
openai.api_key读自环境变量,禁止硬编码,GitHub自动扫描密钥。
延伸思考:大模型能否终结“因子动物园”?
自动因子挖掘
让ChatGPT阅读近五年论文摘要,生成“可落地”的Python代码,再经遗传算法+因子IC筛选,一周产出200+新因子,人工只需复核逻辑冲突。因子权重解释
用Chain-of-Thought让模型给出“为何本月提升ROA权重”的自然语言解释,直接写进给客户的月报,减少PM沟通成本。动态因子淘汰
当模型发现某因子IC连续3月<0.02,自动降权并邮件提醒,避免“僵尸因子”长期占用仓位。
不过,大模型也会制造“伪相关”因子,需引入因果推断层(如DoWhy)做二次过滤,防止把“农历节气”当成Alpha。
写在最后:把实验搬进浏览器,30分钟拥有自己的“AI研究员”
上面这套流程我本地跑通后,又把它封装成Web服务:前端语音输入“帮我找下周高景气赛道”,后端自动拉数据→跑因子→返回Top10股票。如果想快速体验“语音+量化”的化学反应,推荐试试从0打造个人豆包实时通话AI动手实验,里面把ASR、LLM、TTS串成一条低延迟管道,正好能把本文策略语音化:说一句“更新情绪因子”,后台自动执行python backtest.py,再把结果用语音播报回来。小白也能十分钟跑通,至少省掉自己搭语音网关的麻烦。