2020年中国大陆31省社区级教育水平数据(涵盖122126个社区)
数据介绍
获取:https://mp.weixin.qq.com/s/zWtGJgS_FUKrNDW3m91Kbw
教育水平是个人和社区社会经济地位的关键指标,但中国缺乏细空间分辨率的教育数据—— 现有数据仅能覆盖地级市(年度统计)或县 / 区级(十年一度 census),且互联网企业基于用户行为的估算存在 “黑箱操作、样本非代表性、数据私有化” 等缺陷,限制了精细化社会空间研究。
构建开放获取的社区级教育百分位排名数据集(相比“教育年限” 更能规避学位通胀、跨代可比性问题),为跨学科细粒度社会空间分析提供基础数据。
研究数据与核心方法
1. 核心指标定义
教育百分位排名:衡量个体在同出生队列中教育水平的相对位置(0-100 分),基于各队列教育构成计算,解决了不同年代教育水平绝对值不可比的问题(如 1935 年高中教育与 1995 年高中教育的社会地位差异)。
2. 数据来源
训练样本:6 波中国综合社会调查(CGSS 2010-2021),共 2730 个社区样本,覆盖全国代表性人群。多源建成环境数据:
功能设施:POI(零售、学校、医院等)、路网、建筑密度、植被覆盖(来源:高德、OpenStreetMap、MODIS 等);
街景元素:2081 万张百度街景图像(2013-2021),通过语义分割提取 17 类元素(天空、道路、车辆等);
活力指标:夜间灯光数据(VIIRS)、环境人口密度(LandScan);
物理混乱:手动标注2.3 万张街景图像,通过 YOLOv7 检测垃圾、涂鸦、占道等 3 类乱象;
人类感知:3.2 万张街景图像的财富 / 安全感知评分(40 名城市规划师标注,16 万次 pairwise 比较);
地形数据:NASA ASTER GDEM 的海拔和坡度。
3. 模型与流程
核心模型:XGBoost 回归器(结合贝叶斯超参数优化),通过 10 折交叉验证优化;
数据处理:采用MICE + 贝叶斯岭回归填充 896 个样本的缺失特征,提升模型稳定性;
空间范围:以社区/ 村委会为最小单元,覆盖社区及 1km 缓冲区的建成环境特征(该范围预测精度最优);
验证方案:① 测试集性能验证;② 地级市 / 县级与 census 数据相关性验证;③ 社区级与北京 LBS 数据、广州 census 数据对比验证。
三、主要研究结果
数据集规:2020 年中国社区级教育百分位排名数据集,涵盖 122126 个社区,覆盖中国大陆 31 个省份、326 个地级市、2337 个县级单位,人口覆盖率 85.5%,城市建设用地覆盖率 82.7%。
模型准确性:
测试集:R²=0.918(可解释 91.8% 的变异),MAE=3.808,RMSE=5.203;
宏观层面:地级市/ 县级与 census 教育年限的皮尔逊相关系数分别为 0.87、0.84;
社区层面:北京与LBS 低教育人口比例相关系数 - 0.873(强负相关),广州与 census 教育年限相关系数 0.836。
空间分布特征:核心城区教育百分位排名最高,其次为郊区副中心,远郊区最低;不同城市存在差异(如深圳呈多中心分布,广州呈单中心分布)。
四、数据集特点与应用价值
数据属性:以GeoTIFF格式,支持 ArcGIS、QGIS 及 Python Rasterio 处理,遵循 CC BY4.0协议。
应用场景:
城市社会结构分析(阶层分化、社会不平等、居住隔离);
社会空间现象研究(绅士化、犯罪率、住房市场动态);
政策制定支持(教育资源配置、公共服务优化)。
更新潜力:每3-5 年可通过更新 CGSS 样本和建成环境数据实现迭代。
五、局限与展望
局限:街景数据仅覆盖城市公共街道,封闭社区内部环境无法观测,可能影响部分社区预测精度;
展望:整合社交媒体图像等多渠道视觉数据,扩大空间覆盖范围,进一步提升细粒度预测能力。
数据信息
2020年预测的社区层面教育百分等级数据集以GeoTIFF(.tif)文件形式存储,采用WGS84投影。我们的数据集包含120,301个社区,覆盖中国97.9%的地级行政单位和81.8%的县级行政单位。全国版和省级版本均可下载。我们还发布了一个简化的表格版本(.xlsx),展示每个社区居民的平均教育百分等级。该表格包含社区名称、其质心的经纬度、所在的县级、地级和省级行政单位名称,以及其教育百分等级。
其中以河北省为例,解压获得tif数据
在ArcMap加载如下: