CiteSpace关键词聚类从入门到精通：数据可视化与知识图谱构建实战-平芜编程栈

CiteSpace关键词聚类从入门到精通：数据可视化与知识图谱构建实战

文献计量学把浩如烟海的论文变成可计算的数据，让研究热点自己“开口说话”；它用网络节点的大小告诉我们谁站在学科中心，用聚类颜色提示未来趋势；对科研新手而言，这相当于给文献综述装上了导航仪，不再迷路。

一、为什么总在关键词聚类上卡壳

数据格式转换问题：从WoS导出的plain text与CNKI的Refworks字段名不一致，时间字段缺失或格式混乱，导致CiteSpace读取时报“Unknown field”或“Time slice error”。
聚类算法选择困惑：软件里同时出现LLR、MI、Log-Likelihood三种算法，新手常直接默认，结果聚类标签要么过于宽泛，要么细碎得无法解读。
可视化参数调节难点：节点膨胀、标签重叠、颜色区分度低，调完Threshold又不知道Font Size与Node Shape如何联动，最终图面像“打翻的调色盘”。

二、技术方案：一条可复现的完整流程

2.1 数据导入标准化

在WoS“Export”选“Plain text”→“Full record + cited ref”→“500条/次”，文件名保持download_xxx.txt。
CNKI需先选“Refworks”导出，再用官方转换器CNKI2CiteSpace.exe得到download_xxx.txt，保证字段对齐。
统一放入data文件夹，在CiteSpaceProject→New里指定Input与Output路径，勾选“Remove duplicate records”。

2.2 Pathfinder+Pruning的数学原理

根据Chen(2014)，Pathfinder通过保留minimum-cost spanning tree并删除PF<q>冗余边，把网络密度降至q=n-1，既保留核心结构又降低视觉噪音；随后Pruning slice networks对每个时间切片再做一次MST，确保跨时段节点可比性。两者叠加可把原始边数压缩约70%，但Q值与S值反而提升。

2.3 Q>0.3 & S>0.5的调优策略

在Cluster→Clustering界面，先设Top N=50，运行后查看Cluster View下方提示：若Q<0.3，逐步下调N到30或上调Links Strength阈值，每次步长10%。
轮廓值S由节点与聚类内平均相似度决定，若某聚类S<0.5，回到Pruning选项卡，把Forward Rejuvenation系数从默认0.15降至0.10，减少“噪声桥接”。
最终保留满足“Q>0.3且所有聚类S>0.5”的网络，即可认为聚类结构显著且内部一致（Chen et al., 2010）。

三、Python数据预处理脚本（PEP8）

import pandas as pd import re import os def clean_text(text: str) -> str: """移除异常字符，统一空格""" text = re.sub(r'[^\w\s\-,.]', ' ', text) # 保留常用标点 return ' '.join(text.split()) def normalize_year(year: str) -> int: """把年份统一成四位整数，异常返回0""" try: return int(re.search(r'\d{4}', year).group()) except AttributeError: return 0 def preprocess_cnk_csv(src: str, dst: str): """ 读取CNKI原始CSV，清洗后输出CiteSpace可用CSV """ df = pd.read_csv(src, encoding='utf-8-sig') # 1. 清洗标题与关键词 df['Title'] = df['Title'].astype(str).apply(clean_text) df['Keywords'] = df['Keywords'].astype(str).apply(clean_text) # 2. 时间切片设置 df['Year'] = df['Year'].astype(str).apply(normalize_year) df = df[df['Year'] >= 2000] # 仅保留2000后 # 3. 去重 df = df.drop_duplicates(subset=['Title']) # 4. 保存 df.to_csv(dst, index=False, encoding='utf-8-sig') if __name__ == '__main__': preprocess_cnk_csv('raw_cnki.csv', 'clean_cnki.csv')

运行后把clean_cnki.csv用CiteSpace自带CSV Converter转download_xxx.txt即可。

四、避坑指南：三个高频翻车现场

高频词截断失真：默认Top N=50会砍掉低频但可能代表新兴主题的词，如“digital twin”。建议先用Burst detection找出突现词，再手动把其中低频却高突现度的词加入Keyword Keep List。
时区设置忽视突发检测：CiteSpace的Burst按“自然日”计算，若电脑时区与数据收集地不一致，会把2020年1月的爆发判到2019年12月，导致热点漂移。务必在Preferences→Time Zone里固定为UTC+8。
非英文文献编码：CNKI含大量中文全角符号，直接导入会报“Malformed UTF-8”。预处理阶段统一用utf-8-sig读写，并在clean_text里删除\xa0等特殊空白，可避免后续聚类标签出现“?”或方块字。

五、结果解读：一张图告诉你研究热点

上图对2010-2022年“sustainable supply chain”文献进行关键词聚类，Q=0.4317，S=0.623，共识别9个显著聚类。红色区域(#2 circular economy)与蓝色区域(#5 blockchain)节点大、连线密，表明两主题既是核心又高度交叉；而黄色(#8 covid-19)节点小但突现值高，提示新兴热点。据此可迅速定位综述框架：先写“循环经济”与“区块链”融合主线，再补充“疫情冲击”新变量。

六、进一步思考：留给你的三个启发式问题

如何验证聚类结果的学科代表性？是否需引入外部专家词典或对比Web of Science类别字段？
多维尺度分析(MDSStress)与聚类轮廓系数互补：当S<0.5但MDS压力值<0.2时，应相信哪一指标？
知识图谱动态演进可视化：在CiteSpace的Layout→Time-zone View之外，能否用Python-Plotly实现可交互的3D轨迹，以更好展示主题兴衰？

把数据跑一遍，再把问题带回去，下一次打开CiteSpace，你就从“点按钮”变成了“问问题”——这才是真正的入门到精通。