news 2026/4/18 21:19:47

访问之战:克服(无意的)数据监狱

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
访问之战:克服(无意的)数据监狱

原文:towardsdatascience.com/overcoming-unintended-data-jails-9051c78e29f3?source=collection_archive---------5-----------------------#2024-06-17

即使你能看到数据,它也可能完全无用。

https://medium.com/@chris.lydick?source=post_page---byline--9051c78e29f3--------------------------------https://towardsdatascience.com/?source=post_page---byline--9051c78e29f3-------------------------------- Chris Lydick

·发表于Towards Data Science ·5 分钟阅读·2024 年 6 月 17 日

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/df27892ed1d28591395777d804055ffc.png

感谢 ChatGPT 4o 对数据监狱图像的解释,接下来我会更好地定义这个概念……

更好的数据胜过巧妙的算法,但更多的数据胜过更好的数据。

— 彼得·诺维格

我做了一个东西。这很有趣,我认为它带来了(或者希望它将带来)价值。但它也付出了代价,这是我在我的行业中变得非常熟悉的代价。数据难以访问不应该是(而且不必是)常态。我把这个称为数据监狱。* 数据很容易输入,但很难取出。而且在许多情况下,数据监狱的“铁栏”是透明的。你并不知道它很难访问,直到你真的需要它。

定义‘数据监狱’

让我首先确保我们都清楚我所说的数据监狱是什么意思。基本上,数据监狱描述的是这样一种情形:尽管数据在技术上是可用的,但它被困在格式中,限制了其轻松访问、分析和有效使用。常见的罪魁祸首包括 PDF 和其他未设计为便于数据提取和处理的文档格式。

我正在解决问题的背景

西雅图公立学校(SPS)在 2023/2024 学年接近尾声时宣布,由于预算缺口超过每年 1 亿美元且持续增长,他们无法克服这一困境。随后,一个项目和分析启动,旨在确定并关闭西雅图近 70 所小学中的最多 20 所。

我是其中一所小学学生的家长。像许多其他在没有太多预警的情况下被推向这个项目的家长一样,尽管学区通过其网页指向了多个PDF 文件,提供了相关数据,但我仍然对数据的开放性和可用性感到沮丧。

当然,也可以有人去逐一复制粘贴每个 PDF 中的数据,但这将花费大量的时间。

当然,也有人可以查看那些已经公开的先前分析(同样是通过 PDF 提供),但这些分析可能只是间接相关。

当然,有人可以通过 CSV 请求这些数据,但这些请求仅由2 个兼职工作人员支持,获取数据的时间通常是以月为单位,而非天。

因此,我花了一些时间来获取我认为任何人都需要的数据,以便合理判断哪些学校(如果有的话)应该关闭。显而易见的信息,如预算、入学人数和设施数据——过去 3 年每所学校的相关数据。

幸运的是,我不需要手动复制粘贴数据。相反,我使用Python来抓取 PDF,从而获得一个任何人都可以用来进行强有力分析的数据集。尽管如此,这仍然花费了很长时间。

当数据被解锁时,可能发生的事情

从我开始收集数据的几周后,你可以看到最终的产品。我开发的应用程序托管在Streamlit平台上,这是一个非常简洁的平台,提供了所有的框架和支持,能够快速实现数据探索或为你的代码提供用户界面。你可以将精力集中在解决问题上,而不是纠结于按钮、HTML 等细节。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3d293d92cbeb31b7e0be2fd75d0bbd35.png

该应用程序的默认设置是没有学校关闭,提供了一个基线。用户可以选择学校,查看在学校关闭后的前后数据,包括指标和地图视角,以了解学生如何被重新分配到其他学校。图片由作者提供。

我的探索开始时是对预算和招生本身的检查,但很快转变为一种理解关闭学校所带来的影响的方式——具体来说,学生如何根据招生边界之间的现有关系以及学生在这些边界内外的就读情况进行重新分配。

所以,这就成了我所创建内容的主要使用场景:

作为社区成员,从容量角度来看,特定的学校关闭情景如何影响其他周围学校?

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e76390f392d7dfdb9efb8defa40b172c.png

通过加载第一个示例,我们可以看到 16 所学校被标记为关闭,要求将 3400 多名学生重新分配到其他学校,并且大多数学校的容量百分比都显著增加。这种情况导致另外 24 所学校的容量超过了 100%。图像来源:作者。

所有数据都可以通过下面的表格快速下载,用户可以迅速操作并观察自己的场景。例如:“如果他们关闭了我的学校,会怎么样?”

一个无意的顿悟!

在分析这些数据时,我确实做出了一个有趣的观察。这个观察是在完成一个相对简单的线性回归后做出的。回归的 y 轴截距大约为 76 万美元,这代表了学校开放的预估基准成本。简单来说,通过关闭一所学校,重新分配员工和预算,学区可能会看到每所学校平均节省约 76 万美元。因此,关闭多达 20 所学校,保持人员水平并重新分配学生,可能会节省超过 1500 万美元。但这与关闭所需弥补的 1 亿美元赤字之间存在很大差距。这可能需要进一步的分析——如果我能接触到更好(甚至更多)的数据就好了……

突破困境是一个选择

当我进行这个练习时,越来越明显的是,信息自由法案(FOIA)和公共记录法为突破数据监禁提供了一个机会(也许是无意的),当一些简单的抓取技能无法发挥作用时。

其他人可能已经请求过这些数据,获得了必要的批准,并收到了这些数据。尽管共享给请求者的数据被视为公共数据,但它并没有以便捷的方式提供给其他人。这就是问题所在。为什么我不能直接查看并使用别人已经请求并获得的数据呢?

总结

所以——我做了一个东西。我通过使用一个工具从 PDF 中抓取数据。但我也向西雅图公立学校和 Seattle.gov 提出了请求,要求获取过去两年内通过公共请求和信息自由法案(FOIA)提供的所有公共学校数据。这些响应和请求本身也是公共记录。

但是,对于那些没有编写代码抓取数据技能的人来说,这些数据仍然触手可及,却被 PDF、网页和图片所锁住。事情不必是这样的,也不应该是这样的。

当然,有关于首先统一数据格式的讨论是非常必要的。像Delta Lake这样的标准表格格式,看起来是一个非常可扩展且合理的解决方案(感谢Robert Dale Thompson),但即使是使过去的 FOIA(信息自由法案)和公共记录请求的数据,在现有网站如data.seattle.gov上可访问,也似乎是最基本的要求。

让我们携手解锁公共数据的潜力。查看我的Streamlit 应用程序,了解如何通过易于访问的数据带来实际的变化。通过联系当地代表并支持推动透明度的倡议,加入我一起倡导开放数据。与您的社区分享自己的经验和知识,传播意识并推动变革。我们共同努力,可以打破这些数据监狱,确保信息真正对每个人都可获取。

一旦我获得数据,就会有更多内容发布。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 20:07:40

Qwen3-VL:30B模型压缩实战:从30B到3B的优化之路

Qwen3-VL:30B模型压缩实战:从30B到3B的优化之路 1. 压缩不是妥协,而是让能力更轻盈地落地 你有没有试过在本地工作站上跑一个30B参数的多模态大模型?显存占用瞬间飙到40GB以上,推理速度慢得像在等一杯手冲咖啡,部署成…

作者头像 李华
网站建设 2026/4/17 0:35:06

基于FaceRecon-3D的3D扫描仪替代方案

基于FaceRecon-3D的3D扫描仪替代方案 1. 当3D扫描设备太贵时,我们还能做什么 你有没有遇到过这样的情况:想为产品做3D展示,想给客户定制个性化头像,或者想在游戏里用自己真实的脸部模型,结果发现一台专业3D扫描仪动辄…

作者头像 李华
网站建设 2026/4/17 3:00:15

Qwen3-VL-4B Pro开源可部署方案:4B模型本地化部署降本提效实践

Qwen3-VL-4B Pro开源可部署方案:4B模型本地化部署降本提效实践 安全声明:本文仅讨论技术实现方案,所有内容均基于公开可用的开源模型和技术框架,不涉及任何敏感或受限制内容。 1. 项目概述:为什么选择4B版本&#xff1…

作者头像 李华
网站建设 2026/4/17 17:23:29

Qwen3-ASR部署教程:Linux系统下的环境配置与优化

Qwen3-ASR部署教程:Linux系统下的环境配置与优化 如果你正在Linux服务器上折腾语音识别,想把会议录音、访谈音频快速转成文字,那Qwen3-ASR绝对值得你花时间研究一下。这个刚开源不久的模型,不仅能识别52种语言和方言,…

作者头像 李华
网站建设 2026/4/17 20:11:03

3个创新方法解决鸣潮画质配置失效问题:技术优化指南

3个创新方法解决鸣潮画质配置失效问题:技术优化指南 【免费下载链接】WaveTools 🧰鸣潮工具箱 项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools 诊断:画质配置失效的底层原因解析 《鸣潮》1.2版本更新后,许多玩家…

作者头像 李华