news 2026/2/14 14:42:29

2020年中国大陆31省社区级教育水平空间栅格数据(涵盖122126个社区)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2020年中国大陆31省社区级教育水平空间栅格数据(涵盖122126个社区)

2020年中国大陆31省社区级教育水平数据(涵盖122126个社区)

数据介绍

获取:https://mp.weixin.qq.com/s/zWtGJgS_FUKrNDW3m91Kbw

教育水平是个人和社区社会经济地位的关键指标,但中国缺乏细空间分辨率的教育数据—— 现有数据仅能覆盖地级市(年度统计)或县 / 区级(十年一度 census),且互联网企业基于用户行为的估算存在 “黑箱操作、样本非代表性、数据私有化” 等缺陷,限制了精细化社会空间研究。

构建开放获取的社区级教育百分位排名数据集(相比“教育年限” 更能规避学位通胀、跨代可比性问题),为跨学科细粒度社会空间分析提供基础数据。

研究数据与核心方法

1. 核心指标定义

教育百分位排名:衡量个体在同出生队列中教育水平的相对位置(0-100 分),基于各队列教育构成计算,解决了不同年代教育水平绝对值不可比的问题(如 1935 年高中教育与 1995 年高中教育的社会地位差异)。

2. 数据来源

训练样本:6 波中国综合社会调查(CGSS 2010-2021),共 2730 个社区样本,覆盖全国代表性人群。多源建成环境数据:

功能设施:POI(零售、学校、医院等)、路网、建筑密度、植被覆盖(来源:高德、OpenStreetMap、MODIS 等);

街景元素:2081 万张百度街景图像(2013-2021),通过语义分割提取 17 类元素(天空、道路、车辆等);

活力指标:夜间灯光数据(VIIRS)、环境人口密度(LandScan);

物理混乱:手动标注2.3 万张街景图像,通过 YOLOv7 检测垃圾、涂鸦、占道等 3 类乱象;

人类感知:3.2 万张街景图像的财富 / 安全感知评分(40 名城市规划师标注,16 万次 pairwise 比较);

地形数据:NASA ASTER GDEM 的海拔和坡度。

3. 模型与流程

核心模型:XGBoost 回归器(结合贝叶斯超参数优化),通过 10 折交叉验证优化;

数据处理:采用MICE + 贝叶斯岭回归填充 896 个样本的缺失特征,提升模型稳定性;

空间范围:以社区/ 村委会为最小单元,覆盖社区及 1km 缓冲区的建成环境特征(该范围预测精度最优);

验证方案:① 测试集性能验证;② 地级市 / 县级与 census 数据相关性验证;③ 社区级与北京 LBS 数据、广州 census 数据对比验证。

三、主要研究结果

数据集规:2020 年中国社区级教育百分位排名数据集,涵盖 122126 个社区,覆盖中国大陆 31 个省份、326 个地级市、2337 个县级单位,人口覆盖率 85.5%,城市建设用地覆盖率 82.7%。

模型准确性:

测试集:R²=0.918(可解释 91.8% 的变异),MAE=3.808,RMSE=5.203;

宏观层面:地级市/ 县级与 census 教育年限的皮尔逊相关系数分别为 0.87、0.84;

社区层面:北京与LBS 低教育人口比例相关系数 - 0.873(强负相关),广州与 census 教育年限相关系数 0.836。

空间分布特征:核心城区教育百分位排名最高,其次为郊区副中心,远郊区最低;不同城市存在差异(如深圳呈多中心分布,广州呈单中心分布)。

四、数据集特点与应用价值

数据属性:以GeoTIFF格式,支持 ArcGIS、QGIS 及 Python Rasterio 处理,遵循 CC BY4.0协议。

应用场景:

城市社会结构分析(阶层分化、社会不平等、居住隔离);

社会空间现象研究(绅士化、犯罪率、住房市场动态);

政策制定支持(教育资源配置、公共服务优化)。

更新潜力:每3-5 年可通过更新 CGSS 样本和建成环境数据实现迭代。

五、局限与展望

局限:街景数据仅覆盖城市公共街道,封闭社区内部环境无法观测,可能影响部分社区预测精度;

展望:整合社交媒体图像等多渠道视觉数据,扩大空间覆盖范围,进一步提升细粒度预测能力。

数据信息

2020年预测的社区层面教育百分等级数据集以GeoTIFF(.tif)文件形式存储,采用WGS84投影。我们的数据集包含120,301个社区,覆盖中国97.9%的地级行政单位和81.8%的县级行政单位。全国版和省级版本均可下载。我们还发布了一个简化的表格版本(.xlsx),展示每个社区居民的平均教育百分等级。该表格包含社区名称、其质心的经纬度、所在的县级、地级和省级行政单位名称,以及其教育百分等级。

其中以河北省为例,解压获得tif数据

在ArcMap加载如下:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/13 3:56:53

RexUniNLU零样本NLU教程:无需微调,5分钟完成中文事件触发词抽取

RexUniNLU零样本NLU教程:无需微调,5分钟完成中文事件触发词抽取 你是否还在为中文事件抽取任务反复标注数据、调试模型、调整超参数而头疼?是否试过多个模型却总在“胜负”“结婚”“爆炸”这类事件触发词上漏检或误判?今天这篇教…

作者头像 李华
网站建设 2026/2/13 4:31:57

小白必看:Lychee多模态模型常见问题排查与解决方案

小白必看:Lychee多模态模型常见问题排查与解决方案 1. 为什么需要这份排查指南? 你刚下载了 Lychee 多模态重排序模型镜像,满怀期待地执行 ./start.sh,结果浏览器打不开 http://localhost:7860;或者好不容易启动成功…

作者头像 李华
网站建设 2026/2/13 11:18:27

Chord视频理解工具部署教程:Air-gapped离线环境全组件依赖打包与验证

Chord视频理解工具部署教程:Air-gapped离线环境全组件依赖打包与验证 1. 为什么需要离线部署Chord视频理解工具 在安防监控分析、医疗影像审查、工业质检视频回溯等场景中,视频数据往往涉及高度敏感信息,网络隔离(Air-gapped&am…

作者头像 李华
网站建设 2026/2/14 13:00:00

VibeVoice踩坑记录:这些细节要注意才能跑通

VibeVoice踩坑记录:这些细节要注意才能跑通 刚把 VibeVoice-TTS-Web-UI 镜像拉起来那会儿,我满心期待点开网页就能生成一段自然流畅的四人播客——结果等了三分钟,页面卡在“加载中”,控制台报错 Connection refused;…

作者头像 李华
网站建设 2026/2/13 17:45:30

参考音频怎么选?IndexTTS 2.0音色克隆最佳实践

参考音频怎么选?IndexTTS 2.0音色克隆最佳实践 你有没有试过:录了30秒声音,生成的AI语音却不像自己?或者明明上传的是清晰人声,结果合成出来带混响、有电流声、语调发飘?不是模型不行,而是参考…

作者头像 李华
网站建设 2026/2/14 13:45:11

AI净界环境部署:无需编码实现本地化抠图服务

AI净界环境部署:无需编码实现本地化抠图服务 1. 什么是AI净界——RMBG-1.4的本地化落地 你有没有遇到过这样的场景:刚拍了一张宠物照,想发朋友圈却卡在背景太杂乱;电商上新一批商品,每张图都要手动抠图换白底&#x…

作者头像 李华