CiteSpace关键词聚类调整实战：从数据清洗到参数优化的完整指南-平芜编程栈

背景痛点：为什么聚类图总像“一锅粥”

？

我第一次用 CiteSpace 跑关键词聚类时，满心期待能跑出漂亮的“知识地图”，结果只得到一坨颜色乱飞、标签重叠的“毛线球”。后来帮十几个课题组远程调图，发现大家踩的坑惊人地相似：

“聚类数目太多，标签全是‘network’、‘model’这种高频但无意义的词”“把 2020 年的文献和 1990 年的混在一起，时间切片一打开就全散了”“ modularity 才 0.2， silhouette 0.3，审稿人直接一句‘聚类质量不高’打回”。归根结底，问题集中在三类：

原始数据里混进书评、会议通知、撤稿声明，关键词字段大小写不统一，同义词没人合并。
默认参数“一键到底”：Node Types 全选、Top N 30、cosine 阈值 0.2，完全不管数据量大小和学科差异。
可视化阶段为了“好看”强行开 100% 标签，结果字体重叠，重要聚类被次要节点淹没。

带着这三条“原罪”，后面无论怎么剪枝、换算法都救不回来。下面把我总结的一套“先洗后调再美化”流程公开，保证 0 基础也能复现。

技术方案：三步把“毛线球”理成“知识树”

1. 数据预处理：把“脏数据”洗成“好数据”

CiteSpace 只能对“干净”的 WOS 纯文本或 CSV 字段做分析，洗数据这一步占整个工作量的 60%，却最容易被忽视。我通常用 Python 做“四洗”：

去噪：删除文献类型为“Editorial Material”“Correction”的记录，保留“Article”“Review”。
字段归一：把“Keywords”与“Keywords Plus”合并，统一小写，去掉标点。
同义词合并：建立自定义词典，如“cnn → convolutional neural network”“3-d → 3d”。
裁剪低频：出现次数 < 3 的关键词直接丢弃，防止后期生成大量“孤岛”节点。

下面给出一段可直接套用的清洗脚本（依赖 pandas）：

import pandas as pd def clean_keywords(df, min_freq=3): # 合并关键词列 kw = df['Keywords'].fillna('') + ';' + df['Keywords Plus'].fillna('') # 小写+分词 kw_list = [k.strip().lower() for k in kw.str.split(';').explode()] # 同义词映射 synonym = {'cnn': 'convolutional neural network', 'ai': 'artificial intelligence'} kw_list = [synonym.get(k, k) for k in kw_list] # 频数过滤 from collections import Counter freq = Counter(kw_list) kw_list = [k for k in kw_list if freq[k] >= min_freq] return kw_list raw = pd.read_csv('wos_raw.txt', sep='\t') cleaned = clean_keywords(raw) pd.Series(cleaned).to_csv('cleaned_keywords.csv', index=False)

把结果再导回 CiteSpace 时，记得在“Term Source”里只勾选“Title”“Abstract”“Author Keywords”，避免重复计算 Keywords Plus。

2. 参数调优：把“黑盒”拆成“旋钮”

CiteSpace 的聚类质量主要由三处旋钮决定：网络裁剪、相似性算法、聚类算法。下面用“哪项参数动→对结果产生什么影响”的格式一次性说清。

网络裁剪（Pruning）
- Pathfinder：适合节点 < 800 的小网络，能把冗余边剃干净，modularity 提升最明显；但节点上万时跑一次要半小时。
- MST（Minimum Spanning Tree）：速度快，边数固定为 N-1，适合初步浏览；缺点是容易把聚类“剃断”， silhouette 下降 0.1 左右。
- 不裁剪：保留全量边，聚类最完整，适合后续做中心性分析；但图谱肉眼可见“毛线球”。
相似性算法（Selection Criteria）
- Top N：按共现频次截断，N 越大网络越密。经验值 20–50，文献量 < 3000 选 25，> 10000 选 50。
- Top N%：按百分比截断，适合跨年代对比，但不同年份节点数差异大时，容易“厚此薄彼”。
- g-index / h-index：偏向高被引，适合抓“核心主题”，但会漏掉新兴关键词。
聚类算法（Clustering）
- LLR（Log-Likelihood Ratio）标签：算法默认，词组长、可读性好，适合写文章解读。
- MI（Mutual Information）标签：短词多，容易重复，但 silhouette 通常比 LLR 高 0.05。
- 合并策略：若两个聚类重叠度 > 50%，可在“Cluster Explorer”里手动 Merge，modularity 瞬间 +0.03。

调参顺序建议：先选“Top N=25 + Pathfinder”跑一遍，记录 modularity 与 silhouette；再把 N 提到 50，看是否过拟合；最后换 MST 对比速度，挑“质量-时间”折中最好的那组。

3. 可视化调整：让“学术图”也能“一眼万年”

聚类质量过关后，审稿人第二眼就看“好不好看”。我总结三处微调，能让图的信息密度瞬间翻倍：

节点大小 = 出现频次，标签大小 = 中心性，把“标签阈值”调到 10%–15%，既保留核心词汇又避免重叠。
聚类色盘用 ColorBrewer 的 qualitative 系列，红绿对比色相邻聚类绝不撞色，彩打和黑白打印都友好。
时间线视图（Timeline View）（Timeline View）里，把“时间切片”改成 2 年一块，减少锯齿；再用“Citation Burst”做红色年轮， emergent trend 一目了然。

实战示例：从 8516 条 WOS 记录到 8 个高质量聚类

下面用“人工智能+教育”主题（2010–2022，8516 篇）完整走一遍。目标：modularity > 0.5， silhouette > 0.7，运行时间 < 5 min。

数据清洗后剩余 6 847 篇文章，关键词 9 320 个，出现频次 ≥ 5 的关键词 1 240 个。
CiteSpace 参数设置：
- Time Slicing：2010-2022，每 2 年一段
- Node Types：Keyword
- Selection Criteria：Top N = 30
- Pruning：Pathfinder
- Clustering：LLR + Merge 相似聚类
运行结果：
- 生成 8 个聚类，最大聚类 62 个节点，最小 12 个节点
- modularity = 0.52， silhouette = 0.73
- 总耗时 4 min 12 s（i7-11800H，32 GB RAM）

关键代码（R 版，用 bibliometrix 包做前置清洗，与 CiteSpace 互补）：

library(bibliometrix) df <- convert2df("wos_raw.txt") df <- df[is.na(df$TC) == FALSE & df$TC > 0, ] # 去零被引 df$DE <- str_to_lower(df$DE) # 关键词小写 df$DE <- gsub("-", " ", df$DE) # 分词统一 syn <- c("machine-learning" = "machine learning", "e-learning" = "online learning") df$DE <- str_replace_all(df$DE, syn) write.csv(df, "cleaned_wos.csv", row.names = F)

把 cleaned_wos.csv 再导入 CiteSpace，重复上述参数，即可复现结果。与未清洗数据对比：聚类数量从 21 个降到 8 个，modularity 提升 0.18， silhouette 提升 0.25，运行时间缩短 40%。

性能考量：参数与耗时的“跷跷板”

很多人以为“聚类越多越好”，于是把 Top N 拉到 100，结果 2 小时跑不完。实测数据显示：

节点 < 1000，Pathfinder 耗时 ≈ 1.2× 不裁剪，modularity 提升 0.15，值得做。
节点 1000–5000，Pathfinder 耗时 3×–5×，建议改用 MST 或“Pruning = 只剪网络边缘”。
节点 > 5000，先按 g-index 粗筛到 2000 节点以内，再跑 Pathfinder，否则内存直接飙到 20 GB 以上。

一句话：先“粗剪”再“精修”，把节点数压到 2000 以内，再谈聚类美学。

避坑指南：5 个高频错误与急救方案

中文关键词未分词
表现：聚类标签出现“人工智能教育”整句。
解决：提前用 jiebaR 分词，或在 CiteSpace 里勾选“Convert to ASCII”。
同一年段文献量差异过大
表现：2018 年节点巨多，2010 年几乎空白，时间线断层。
解决：用“Scale Node Size”归一，或在 Selection Criteria 里改用 Top N% 。
把“机构”“国家”与“关键词”一起选
表现：聚类里蹦出“China”“USA”这类地域词。
解决：一次只勾一种 Node Type，混选会导致语义漂移。
聚类标签全是“method”“system”
表现： silhouette < 0.4。
解决：在“Burst Detection”里把 γ 值调到 0.5，优先提取突发词做标签。
导出高清 TIFF 图片文字模糊
表现：期刊要求 600 dpi，结果一片糊。
解决：CiteSpace 里先 Export → Network，再用 Pajek 或 Gephi 重新布局，矢量 PDF 输出。