news 2026/5/19 23:46:57

数据科学家最被低估的技能

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
数据科学家最被低估的技能

原文:towardsdatascience.com/the-most-undervalued-skill-for-data-scientists-e0e0d7709321

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6cbcaaf25b54721b334883ad7413ba8a.png

作者图片(Midjourney)

“为什么我的经理对我的报告吹毛求疵?从 X 改为 Y 有什么区别?”

当你看到你的经理在你的文档中提出了许多建议时,你可能也会这样想;我知道我曾经是这样的。事实上,我曾经认为写作是数据科学家工作中最微不足道的一部分;因为分析和数字应该能够自说其话,对吧?错误!

在过去的几年里,我意识到写作是数据科学家的一项基本技能,而且能够写出好文章的能力是区分高影响力数据科学家和同行的一个重要因素。

在这篇文章中,我将首先说服你,写作至少和你的技术技能一样重要,然后给你一些具体的建议来帮助你提高写作能力。

为什么写作对数据科学家来说如此重要?

1. 它在商业世界中无处不在– 我在我的之前文章中强调了沟通的重要性如何更好地作为数据科学家进行沟通,无论你是否喜欢,商业世界中的大多数沟通都是以书面形式进行的。从项目范围文档到每周更新,分析实验报告,反馈和绩效评估,JIRA 工单和维基页面,所有这些都依赖于有效的书面沟通来传达信息。

2. 写作有助于使你的思考过程更加清晰– 保罗·格雷厄姆,著名创业加速器 Y Combinator 的联合创始人(他是一位计算机科学家同时也是一位作家),在他的一份备忘录中著名地说:

如果你写下你的想法总是使它们更加精确和完整,那么没有写过某个主题的人对它的理解并不完整。而且,从未写过的人对任何非平凡事物都没有完整的概念。

—— 保罗·格雷厄姆

非常常见,当你开始写下东西时,你会意识到自己对某个主题了解得有多少,以及自己在思考/分析中可能存在的空白。

3. 写作是数据科学工作的“最后一公里”。你的任何利益相关者都不会阅读你的 SQL 查询或查看你的 Jupyter Notebook(许多工程师和数据科学家可能希望相反,但请相信我,他们很可能不会)。如果你想让你的工作被他人理解并影响决策,那么你需要完成最终一步,将你的工作包装在有效的报告中。如果你跳过这一步,就像把包裹留在仓库里而不是送到客户手中一样。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3d112076c51140cbac64b9d05dac10fe.png

作者图片

在数据科学中,“好的”写作是什么样的?

要清楚你的受众。如果你为所有人写作,那么你实际上是为没有人写作。对于这篇特定的写作,要非常具体地说明它是为谁而写的,并针对那个受众及其需求进行定制。

关注“那么呢”;制作香肠的过程放在附录中。作为数据科学家,我们喜欢谈论我们做了复杂的分析或我们是如何设计实验的。因为我们投入了所有这些工作,如果不谈论它,感觉就像是一种浪费。但残酷的事实是,大多数时候,我们的受众并不关心;他们只想了解要点。

你可以在附录中描述你工作的技术细节,以防有人想要深入了解,但主要部分应该专注于见解和建议。

要有清晰的情节。无论是有还是没有,每一篇(长篇)写作都应该是一个故事。因为这就是人类沟通的方式,也是我们大脑处理信息的方式。通常分析情节是这样的:

⮕ 我们发现了一些有趣的事情,这就是你为什么应该关心它/你应该做什么(总结以吸引读者的注意,如果适用,包括推荐

⮕ 这是我们的见解是如何形成的(对好奇的探索者来说的分析细节

⮕ 这里有一些注意事项和替代前进路径(以防有人挑战推荐时的可选择性

⮕ 这里有一些你可能觉得有趣的额外资源(对于那些真正想深入研究这个主题的人来说是附录

在添加细节之前先构建骨架可能会有所帮助。如果故事取决于分析如何进行(这对于数据科学分析通常是情况,因为其性质更具有探索性),至少在深入细节之前弄清楚文档的结构。

如果你正在构建一个演示文稿,我有一点点

要有清晰的总结。如果你还记得我在之前关于沟通的帖子中提到的金字塔原理,那么对于书面沟通来说尤为重要。因为总结是读者与你的第一次接触点,它应该足够有趣以吸引他们的注意力,使他们想要继续阅读;同时,它应该包含所有精华,如果他们在总结后决定停止阅读,他们就能得到他们需要知道的所有最关键信息。

要简洁。当涉及到写作时,少即是多。

保持简单。我们在技术领域工作,经常使用技术术语。通常,数据科学家认为使用技术语言可以使他们看起来更有能力。然而,如果你仔细观察,你会发现,随着人们职位越来越高,他们选择的词汇就越简单。副总裁和 C 级高管能够用任何人都能理解的语言解释复杂的话题,无论他们的(技术)背景如何。你可以使用像Hemingway app这样的工具来检查你的写作是否过于复杂。

使用指示词。指示词是一种使读者更容易理解文档的技术。核心思想是使用使句子或章节内容立即清晰的词语和短语,这样读者可以快速浏览文本并理解其含义。例如:

  • 在给出例子之前使用“例如”这个短语

  • 在总结之前写“总结”

  • 用“首先/其次/最后”等标签标记一系列论点

总是考虑你的读者——你的读者最关心这篇分析中的哪些内容?读者已经了解的背景和上下文是什么?如果需要,他们还需要了解什么?

添加可视化内容。这之所以是一个陈词滥调,是因为“一图胜千言”。当你试图传达密集的技术内容时,一个清晰图表、框架或流程图可以帮助你更好地传达你的观点。例如,下面这个图解“金字塔原理”可能会让你对自己的写作有更好的理解。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/010ac0d5711710546e972d255aba32d3.png

作者图片

你如何提高你的写作?

大量阅读。这包括如何写好(通过阅读这篇文章,你已经迈出了第一步!)以及你可以模仿的强大技术写作(你可以在以下地方找到一些例子)。

如果你想要深入了解写作的科学,我建议你看看威廉·津瑟的"On Writing Well"。

练习,练习,再练习。和其他事情一样,熟能生巧。以下是一些你可以做的具体事情来练习你的写作:

  1. 在个人维基中记录你的工作。据我所知,很少有数据科学家这样做,但这是一个非常有用的资源,也是提高写作实践的好方法。

  2. 写结构化的 Slack 消息。我们整天发送和接收的大多数 Slack 消息都像是一股意识流(或者更糟,像青少年的短信)。人们倾向于写下他们想到的内容,然后不花时间以使读者容易理解的方式结构化消息就点击“发送”。使用上述原则写简洁、结构化的 Slack 消息是一种脱颖而出的好方法。

  3. 在线写作。我在 Medium 上写这些帖子是我持续的写作实践。试试看;你甚至可能会喜欢它,并找到喜欢你见解的读者。

挑战自己。“你是你自己的最大敌人”在写作方面可能不是一件坏事。你需要能够像第一次看到一样阅读自己的写作,这样你才能客观地判断哪些内容缺失,哪些内容令人困惑,哪些需要缩短。

请他人充当你的魔鬼代言人。有时候,自己充当魔鬼代言人可能非常困难,因为真正的客观性要求你放弃你对这个主题的现有知识和你的自我。有时候,找到另一个挑战者来检验你的工作可能更容易。理想情况下,这个人对此主题一无所知,并且愿意非常诚实地向你表达他们的观点。

有哪些优秀的技术写作示例?

我上面描述了理论上的好写作是什么样的,但一旦看到几个例子,理解起来就更容易了。在这里,我提供了一些具体的例子,以便你更好地了解如何将这些建议付诸实践。

明确的受众

数据驱动型风险投资通讯专门针对希望采用数据驱动方法进行公司投资和发展的风险投资家和初创公司创始人。虽然这可能是一个可能不会吸引所有人的利基博客,但选择这个特定的目标受众使得为他们提供价值变得更加容易。

强大的可视化

想要快速了解如何可视化复杂系统和一般技术主题,可以查看 ByteByteGo。他们的图表使得理解那些需要多段术语描述才能准确描述的事物变得非常简单。

SeattleDataGuy 也使用了大量的可视化,但通常方式稍微轻松一些(例如,查看他关于 Apache Iceberg 的帖子这里)。

保持简单

Gergely Orosz,他在《实用工程师》中做得很好,能够用相对简单的术语总结复杂主题。例如,查看他关于AI 软件工程代理如何工作的帖子。

结合最佳实践:简洁的语言与清晰的视觉

每日数据科学剂量是结合多个最佳实践以产生易于理解但仍然有洞察力的数据科学内容的绝佳例子。

例如,查看他们最近关于置信区间和预测区间的帖子。或者他们那篇超级简短但信息丰富的关于交叉验证技术的帖子。

总结来说

能够(很好地)写作对你的工作至关重要,即使是(或者,你可以争论,尤其是)对于技术人员来说也是如此。能够简洁地在纸上表达你的想法需要练习。多读书、多写作以及乐于接受反馈是提高这项技艺的关键。

想要更多关于数据科学的实用技巧和有趣话题,请务必在这里的 Medium、LinkedIn或Substack上关注我

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/19 23:43:38

基于CircuitPython与NeoPixel的智能圣诞树:从硬件搭建到动态灯光算法

1. 项目概述:从零打造一棵会“思考”的圣诞树又到年底了,看着家里那棵年复一年、只会默默发光的传统圣诞树,总觉得少了点“灵魂”。作为一个常年和微控制器、代码打交道的创客,我总琢磨着能不能给节日装饰加点科技感,让…

作者头像 李华
网站建设 2026/5/19 23:38:43

嵌入式Linux无线AP搭建实战:hostapd与udhcpd配置详解

1. 项目概述:为什么要在嵌入式设备上折腾无线AP?最近在调试一个移动机器人项目,设备上跑的是裁剪过的嵌入式Linux系统。调试过程里最头疼的就是网线——设备满场跑,我得抱着笔记本在后面追,活像在玩现实版的“老鹰捉小…

作者头像 李华
网站建设 2026/5/19 23:38:37

UP Squared 6000工业级创客板:边缘AIoT开发与部署实战指南

1. 项目概述:UP Squared 6000,一块能“扛事”的工业级创客板在工业自动化和边缘AIoT项目里摸爬滚打这么多年,我经手过不少开发板,从早期的树莓派到各种国产派,再到工业级的工控机。很多时候,我们面临一个尴…

作者头像 李华
网站建设 2026/5/19 23:36:22

Qt软件外包的费用

Qt(主要用于跨平台桌面应用、嵌入式设备及车载系统的C开发框架)软件的外包开发费用没有一个绝对固定的数字。外包费用的计算通常基于需求复杂度、工期、开发人员资历、以及采用的计费模式。在中国市场,目前Qt软件外包的报价逻辑和费用区间大致…

作者头像 李华
网站建设 2026/5/19 23:35:19

嵌入式C语言单元测试实战:Unity框架从入门到工程化应用

1. 项目概述:为什么嵌入式开发也需要单元测试?在嵌入式开发这个行当里摸爬滚打了十几年,我见过太多因为“没时间测”或者“不知道怎么测”而导致的深夜加班和线上事故。硬件资源紧张、代码与硬件耦合度高、测试环境难搭建,这些都是…

作者头像 李华