CiteSpace关键词共现分析：从数据清洗到可视化呈现的全流程实战-平芜编程栈

CiteSpace关键词共现分析：从数据清洗到可视化呈现的全流程实战

第一次打开 CiteSpace，界面像飞机驾驶舱，按钮多到眼花；退出时却只剩两行报错——“数据格式非法”“网络节点为 0”。相信不少科研新手都踩过这个坑。我当年也一样，折腾了整整一周才把第一张能看的知识图谱交出去。今天把踩过的坑、写过的脚本、调过的参数全部打包，写成这份“从 0 到可发表”的实战笔记，争取让你半天就能跑出一张拿得出手的共现网络。

一、先吐槽：三大高频翻车现场

数据导入报错
WoS 纯文本、CNKI 的 Refworks、Scopus 的 CSV 全混在一起，编码不一致，CiteSpace 读一半就罢工。
网络结构松散
默认阈值太低，图谱像炸开的烟花，聚类模块度 Q<0.1，审稿人直接打回“无意义”。
聚类命名混乱
自动提取的术语全是“study”“method”，根本看不出研究热点，手动改 100 个标签改到怀疑人生。

二、选工具：为什么最后留下 CiteSpace？

工具	上手速度	共现精度	聚类算法	可视化颜值	备注
VOSviewer	极快	中	基于距离	高，彩虹色默认	适合做宏观概览，缺时间切片
HistCite	快	低	无	无	引文网络为主，关键词功能弱
CiteSpace	慢	高	LLR/LSI 加权	可调，发表级	时间+空间双维度，参数多

一句话总结：
“VOSviewer 十分钟出图，但给不了‘演化’；CiteSpace 调参三天，却能回答审稿人‘趋势如何’。”

三、实战：Python 清洗 → CiteSpace 调参 → 图谱出炉

下面以 WoS 核心合集 2013–2023 年“microplastics”文献为例，手把手跑一遍。

3.1 Python 预处理：让 CiteSpace 零报错

原始下载的“savedrecs.txt”直接导入，十有八九会卡在“Author names empty”。先跑脚本洗一遍：

# -*- coding: utf-8 -*- import pandas as pd import re, os, glob def wash_wos(infile, outfile): # 读入 WoS 纯文本，自动拆字段 with open(infile, 'r', encoding='utf-8-sig') as f: raw = f.read() # 用 PT 字段切分每条记录 chunks = [c.strip() for c in re.split(r'\nPT ', raw) if c] records = [] for chunk in chunks: rec = {} # 标题 rec['TI'] = re.search(r'^\nTI (.*?)\n[A-Z]{2} ', chunk, flags=re.S) # 关键词 rec['DE'] = re.search(r'\nDE (.*?)\n', chunk) rec['ID'] = re.search(r'\nID (.*?)\n', chunk) # 作者机构 rec['C1'] = re.search(r'\nC1 (.*?)\n', chunk) # 年份 rec['PY'] = re.search(r'\nPY (.*?)\n', chunk) records.append(rec) df = pd.DataFrame(records) # 统一分隔符 df['DE'] = df['DE'].str.replace(';', '|') df['ID'] = df['ID'].str.replace(';', '|') # 机构消歧：同一作者多条记录合并 # NOTE: 这里仅做简单示范，正式论文需配合 ORCID 或人名规则 df['C1'] = df['C1'].str.replace(r'\[.*?\]', '', regex=True) # 去掉邮编 df.to_csv(outfile, index=False, encoding='utf-8-sig') if __name__ == '__main__': for f in glob.glob('raw_*.txt'): wash_wos(f, 'clean_'+f)

跑完得到clean_raw_*.txt，CiteSpace 导入成功率≈100%。

3.2 CiteSpace 参数设置：Time Slicing 与 Pathfinder

新建项目
Menu > New > Project Name=“microplastics”；Directory 选空文件夹。
Time Slicing
- 起止年份：2013-2023
- Years Per Slice：1（逐年切片，热点演化更细）
- Node Types：Keyword ✔
- Top N：50（每切片取高频 50 词，兼顾噪声与覆盖）
Pruning & Merging
- Pathfinder：✔（减少冗余边，网络更疏朗）
- Minimum Spanning Tree：备用，若节点>800 可勾上
阈值公式（避坑重点）
CiteSpace 的 (c, cc, ccv) 三项阈值默认“2, 2, 20”，对中文库太松，对 WoS 太紧。
经验：
- c=3（出现次数≥3）
- cc=3（共现次数≥3）
- ccv=15（ cosine 系数≥0.15）
  这样模块度 Q 通常能冲到 0.5 以上， silhouette >0.7，审稿人不再质疑“结构松散”。
运行 & 可视化
点“GO”生成.network文件后，切换到 Visual > Cluster > LLR 自动标签。
若出现“#0 study”，手动把 cluster ID 0 的 Top 5 术语粘到“Cluster Label”框，用“_”连词，瞬间高级。

四、避坑清单：把报错扼杀在摇篮

CSV 编码：CNKI 导出默认 ANSI，一定用记事本另存为 UTF-8，否则中文关键词全变“锟斤拷”。
同义合并：LLDA 模型跑完可把“microplastic*”“MPs”合并成同一节点，避免碎片化。
节点阈值公式：
g-index = sqrt(Σcitations)别手算，CiteSpace 已内置，直接选“g-index k=25”即可。
图片导出：矢量图选 PDF，后期用 AI 改字体；位图选 PNG≥600 dpi，期刊放大也不糊。
颜色图例：在菜单 Preference > Colors 里把 Cluster Ring 调成“彩虹 12 色”，与 VOSviewer 统一，方便对比。

五、延伸：把 LDA 主题“塞进”共现网络

传统共现只看词频，难揭示语义。可以先用 Python 的gensim跑一遍 LDA，得到主题-词分布，再把每个主题的高概率词染成同一颜色，叠加到 CiteSpace 图谱。步骤：

用清洗后的关键词列表做语料，去停用词、词干化。
LDA 主题数 k=8，alpha=0.1， passes=20。
提取每个主题 Top10 词，写进topic_color.csv（节点,主题号,R,G,B）。
CiteSpace 可视化界面 > Overlay > Color by File，导入topic_color.csv。
结果：同一主题的词自动同色，共现边越粗代表跨主题合作越多，图谱瞬间“会说故事”。审稿人评语常见：“方法新颖，揭示潜在主题关系。”——加分项 get。