面向独立创作者的 Face Cam 完整指南：从麦克风、相机、灯光到剪辑工作流-平芜编程栈

本文是对 Face cams: the missing guide 的整理与翻译。

内容结构概览

本文会围绕“一个人如何搭建稳定、可复用、少踩坑的 Face Cam 视频制作工作流”展开，主要包括：

为什么 Face Cam 不是“买个摄像头就完事”
作者对购买渠道和预算的态度
独立 YouTuber 的核心目标：减少重拍，简化流程
录制失败的常见原因：电池、存储、收音、构图、噪音、闪烁
麦克风与麦克风支架：为什么不是越贵越好，而是要选对类型
XLR、USB、音频接口和 32-bit float 的意义
监听耳机为什么不能随便用蓝牙降噪耳机
摄像头、单反/微单、HDMI 输出与采集卡
为什么普通 USB Webcam 即使标 4K 也可能很糟糕
HDMI 采集卡、Elgato、Blackmagic、OBS、DaVinci Resolve 的坑
灯光、帧率、交流电频率和画面闪烁
为什么 4K60 对 Face Cam 不一定有意义
OBS 录制、音画同步、ASIO、32-bit float 音频采集
DaVinci Resolve、Premiere、Fusion、绿幕抠像与剪辑组织
字幕制作、Whisper、SubtitleEdit 与可访问性
键盘、鼠标、触控板、数位板等辅助设备
iPhone、GoPro 等副机位
存储、备份、S3-compatible 对象存储
写脚本、提词器、远程控制与自定义工具
CO₂ 监测这种看似奇怪但实际有用的设备
作者截至 2024 年 3 月的完整设备清单
对普通创作者的总结建议

一、Face Cam 不是“买个摄像头就完事”

很多人一想到 Face Cam，会觉得这东西很简单：一个摄像头，一个麦克风，一盏灯，坐下来讲就行了。

但原文想讲的恰恰相反：Face Cam 是一个完整制作系统。

一个人做视频，不只是“出镜说话”。你还要做很多本来属于不同岗位的工作：

写脚本、查资料、修改脚本、布置相机、布置灯光、检查麦克风、整理仪容、录制、监听、剪辑、调色、抠绿幕、做动画、做音效、做字幕、导出、上传、备份。

所以原文里有一句核心判断非常重要：

做一个 YouTube 视频不是一份工作，而是十五份工作。

这句话很适合所有独立创作者。你不是没有能力做复杂东西，而是复杂流程会不断消耗你的精力。设备和软件的真正价值，不一定是“画质提升 10%”，而是能不能帮你减少重拍，减少同步，减少手工整理，减少每次开工前的心理负担。

Face Cam 的问题，不只是画面好不好看，而是：

这套系统能不能让你稳定、快速、低压力地反复录制内容。

二、买东西这件事：省钱和浪费钱常常只差一步

原文一开始先讲购买渠道：文中没有联盟链接，尽量链接到厂商官网或维基百科。作者也提到，Amazon 的退货政策确实方便，但只要可能，他更愿意从专业音频、视频器材店购买，因为服务、建议和支持通常更可靠。

这背后其实是一个更大的主题：AV，也就是音视频，是一个很贵的爱好。

而且它最残酷的地方是，你刚开始不知道什么东西真的有用。于是你会经历这样的循环：

先买便宜入门款，发现不适合；
再买中端款，发现方向错了；
最后买真正合适的东西，才发现前面省的钱其实都浪费了。

原文并不是鼓励盲目买贵的，而是提醒：很多时候，真正贵的不是设备本身，而是它给你的额外麻烦。

比如一个便宜三脚架如果不稳，可能摔坏相机。便宜麦克风支架如果断了，可能把麦克风砸坏。便宜电池、廉价转接头、糟糕采集卡，都会制造一些很隐蔽但非常折磨人的问题。

所以作者给出的原则可以总结为：

不要在会损坏贵设备、毁掉录制、增加重拍概率的环节上过度省钱。

三、独立创作者最重要的目标：把流程变简单

Face Cam 录制最怕什么？

不是画质差一点，也不是灯光差一点，而是你录完一个小时之后发现：没录上、没收音、没同步、没对焦、没在画面里、绿幕抠不干净、有风扇噪声、音频爆了、SD 卡满了。

原文列了大量他自己因为各种原因重拍的经历，包括：

相机没开；
外接麦克风没开；
麦克风开了但没有正确录制；
SD 卡满了；
录制莫名停止；
相机没电；
麦克风没电；
无线麦克风接收器没电；
音频 clipping；
人不在画面里；
外貌上有无法忽视的问题；
提词器平板没电；
街上开始施工；
家里有人提前回来；
猫突然开始叫；
说着说着发现脚本里的事实错误；
画面闪烁；
背景里有风扇等后期很难去掉的噪音。

这些问题看起来琐碎，但真实制作时就是这些琐碎问题毁掉时间。

所以原文的核心策略是：

不是每次提醒自己“小心一点”，而是尽量消灭整类问题。

比如电池会没电，那就用电源适配器。
相机只能用电池？不，它可以用假电池。
麦克风可能忘记开，那就选择更可靠、更少需要手工干预的方案。
SD 卡可能满，那就尽量直接录到电脑或外部 SSD。
音画同步麻烦，那就让 OBS 录制时直接把延迟补好。
每次搭灯太累，那就把灯固定在桌上，随时可用。

这就是工作流思维。

不是让人变得更小心，而是让系统更不容易出错。

四、相机直录 SD 卡：能用，但问题很多

很多相机可以直接录视频到 SD 卡。你把相机架到三脚架上，按下录制，理论上就可以开始拍了。

这种方式当然能用。
但原文马上指出了几个现实问题。

第一，有些相机有录制时长限制，比如 30 分钟左右就停。具体原因可能和税务分类、进口规则有关，原文并没有深究，但作为创作者，这种限制会直接影响长视频录制。

第二，机内麦克风通常很差。相机上的麦克风主要是让你知道“音频编码器正常工作”，或者用于后期同步参考，不应该作为最终收音来源。

第三，你很难实时确认自己是不是在画面里。有些相机屏幕可以翻转，但如果你是单人拍摄，尤其还要用提词器、绿幕、外接麦克风，这个检查并不总是方便。

第四，SD 卡需要管理。你要确保容量足够、速度足够、文件拷贝完成、卡没有损坏。每多一个“需要记得处理”的东西，就多一个失败点。

所以作者逐渐从“相机自己完成录制”的思路，转向另一种思路：

相机只负责镜头、传感器和图像处理，录制、存储、音频、同步都交给电脑工作流。

这就引出了 clean HDMI 和采集卡。

五、麦克风：类型比价格更重要

很多人一开始买麦克风，会陷入一个误区：越贵越好。

原文的经验是：更重要的是选对类型。

如果你在户外，或者在噪声环境里采访，领夹麦很有用，因为它离说话人很近，能更好地隔离环境噪声。无线领夹系统也很适合移动拍摄。

如果你在大空间或户外，枪式麦克风也有用，因为它有方向性，可以对准特定声音来源。

但如果你是在家庭办公室、小房间、硬墙面、硬地板、电脑屏幕、桌面反射很多的环境里录 Face Cam，很多麦克风并不适合。比如某些电容麦虽然音质不错，但会把房间反射、回声、背景噪声一起收进去。后期可以用去混响插件补救，但这通常会严重损伤声音质量。

原文强调一句非常重要的话：

垃圾进，垃圾出。

也就是说，与其后期修复糟糕录音，不如前期不要录进糟糕的声音。

作者早期用过 RODE NT1-A，后来换到 RODE PodMic，再后来换到 Shure SM7B。PodMic 更便宜，但对房间噪声的拒收更好；SM7B 更贵，还需要额外的前级增益设备和音频接口，但它“开箱就对”，后期不用再疯狂调 EQ。

这里的重点不是“所有人都去买 SM7B”，而是：

适合房间、适合说话方式、适合工作流的麦克风，比单纯参数更重要。

如果你在未处理的小房间录制，宁愿选择更近讲、更拒收房间声的动态麦，也不要盲目买灵敏电容麦。

六、麦克风支架：便宜支架可能毁掉贵设备

麦克风支架看起来不重要，但它是典型“不能太省”的东西。

作者之前买过便宜仿品，结果在外出时坏掉。后来换了 RODE PSA1 这种桌面夹式麦克风臂，就稳定很多。

为什么支架重要？

因为它决定麦克风能不能放到正确位置。
麦克风位置比很多人想象中更影响声音。离嘴太远，房间声会变多；太近，喷麦和低频近讲效应会变明显；出现在画面里，又影响构图。

一个好的麦克风臂，应该能让你在不破坏画面的情况下，把麦克风放到一个接近嘴、稳定、不挡脸、不容易碰到的位置。

它还要足够稳。
因为支架一旦松动，掉下来的不是便宜铁架，而可能是几百欧的麦克风。

七、XLR、USB 和音频接口

如果你只是在视频会议里用麦克风，你可能习惯 3.5mm 插头、蓝牙耳机、USB 麦克风。

但更严肃的视频录制里，常见的是两条路线：

一种是 USB 麦克风，直接插电脑。
一种是 XLR 麦克风，接音频接口，再进电脑。

过去很多便宜 USB 麦克风给人的印象不好，但现在也有一些很强的 USB/XLR 二合一设备，比如原文提到的 RODE NT1 第五代，它既支持 XLR，也支持 USB，并且能输出 32-bit float 数字音频。

如果你用 XLR 麦克风，就需要音频接口。音频接口负责把模拟信号转换成数字信号，也就是 ADC，Analog-to-Digital Converter。

作者早期用 Focusrite Scarlett 2i2 4th Gen，后来为了 32-bit float 迁移到 Zoom UAC-232。

这里真正重要的概念是：输入增益和 clipping。

八、为什么 32-bit float 音频重要？

录音时要设置 gain，也就是输入增益。

如果 gain 太低，后期需要把声音放大，系统底噪也会一起被放大；而且如果你只用了可用振幅范围的一小部分，等于浪费了采样精度。

如果 gain 太高，就会爆音。
比如一个强烈的p、b这种喷气音，或者说话突然激动，振幅超过系统能表示的范围，波形顶部就会被削平。这就是 clipping。

clipping 最大的问题是：

一旦录制阶段发生，基本无法真正恢复。

后期插件可以让它“不那么难听”，但不能把已经被削掉的波形还原回来。

传统解决办法是保守设置 gain，或者录一条备份音轨。有些无线麦克风系统会录一个正常声道，再录一个低 8/12/20 dB 的安全声道。如果主声道爆了，可以拿低增益声道救回来。

32-bit float 的价值在于，它让你更不容易因为 gain 设置错误毁掉录音。
它并不是魔法，但它给了录制更大的动态余量。原文提到，Zoom UAC-232 的做法是使用两个不同输入增益的 ADC，然后在两者之间动态切换，以兼顾低噪声和不爆音。

这对单人创作者非常重要，因为你很难一边表演、一边盯音量表、一边保证每句都不爆。

但作者也提醒：买了支持 32-bit float 的设备，不代表整条软件链路就自动安全。你还要确保录制软件、驱动、音频 API、容器格式都正确支持。

九、便携录音设备：强大，但未必适合固定 Face Cam

作者也买过 Zoom H4n Pro 这类便携录音机。它功能很多：内置 XY 麦克风，可以接领夹麦，也可以用 XLR 输入，很适合移动采访、现场录音、录音效。

但在家庭办公室录 Face Cam，它不一定是最优解。

原因很简单：

它启动慢；
它又多了 SD 卡；
它又多了电池；
它又多了一套需要记得管理的设备；
如果当 USB 音频接口用，又变成被线牵住，那还不如桌面音频接口。

这再次回到原文的核心：
设备不是越多越专业，而是越少越不容易错。

十、后期音频修复：有用，但不能当救命稻草

作者使用过 iZotope RX 10 Standard 这类音频修复工具，特别喜欢里面的 Mouth de-click 和 De-plosive。

Mouth de-click 可以处理口水音、嘴唇声、干口音。
De-plosive 可以处理偶发的爆破音。

这些工具很有用，尤其是你做长时间口播，口腔状态、饮水、牙齿矫正、说话习惯都会影响录音。

但原文依然强调：这不是让你前期乱录的理由。
比如喷麦问题，最好的办法还是麦克风摆位、合适距离、合适角度、必要时使用防喷罩。

后期修复是保险，不是主流程。

十一、监听耳机：不要用普通电脑音箱，也不要用蓝牙降噪耳机

做视频，尤其是调声音，必须要有可靠监听。

作者用的是 beyerdynamic DT 770 PRO 250 欧版本，理由很朴素：声音中性，佩戴舒适，适合长时间工作，也被更会混音的朋友推荐。

他之前也用过 Sennheiser HD-25，这也不是不能用，但今天不一定是最优选择。

最重要的是他踩过两个坑。

第一，不要用普通电脑音箱混音。
普通消费级音箱往往有明显音染。你在那上面调得好听，不代表别人设备上也好听。

第二，不要用蓝牙降噪耳机做剪辑监听。
蓝牙有延迟，可能达到 200ms 到 400ms。某些编辑软件有时会补偿延迟，有时不会。作者甚至遇到过视频已经发布，在首映时用手机或电视观看，才发现音画不同步。

即使用线连接，很多消费级降噪耳机也有明显调音倾向，不适合严肃混音。

所以结论是：

剪辑和混音请用稳定、有线、相对中性的监听耳机。

十二、摄像头：为什么贵一点的 Webcam 仍然可能很差

作者一开始用过 Canon EOS 550D 这类老 DSLR，也尝试过 Webcam。直觉上，买一个贵一点的 4K Webcam，似乎可以解决 Face Cam 问题。

但现实并不理想。

例如 Logitech BRIO 标称 4K、HDR，但画质仍然让作者失望。原因不只是镜头和传感器小，另一个限制来自 USB 带宽和视频格式。

原文做了一个粗略计算：如果 4K 图像按 RGBX8888 表示，一帧 3840×2160 大约 32MB。USB 2.0 有效吞吐大约 35MB/s，这连每秒传一张 4K 原始图都勉强，更不用说 30FPS。

所以 Webcam 必须压缩。
很多设备在 OBS 里输出的是 MJPEG，也就是一帧帧 JPEG。这样会带来压缩块、色彩损失和明显伪影。视频会议里可能看不出来，但如果你要做精致视频，问题就会很明显。

这就是为什么作者最后转向真正相机：

用相机的镜头、传感器和图像处理能力，通过 clean HDMI 输出给采集卡。

十三、Clean HDMI：把相机当成高质量传感器

作者选择 Panasonic Lumix GH5M，当时的标准是：

支持 4K60；
支持 clean HDMI output。

Clean HDMI 的意思是：HDMI 输出里没有相机界面叠层、对焦框、参数文字，只输出干净画面。

这样，相机只负责成像，录制由电脑或外部设备完成。

这解决了很多问题：

不用频繁拔 SD 卡；
不用让相机承担压缩存储；
可以在 OBS 或采集软件里同时处理画面和外部麦克风；
可以更好地控制同步；
可以直接进入直播或录制工作流。

但这也引出新的问题：采集卡。

十四、HDMI 采集卡：能用和好用不是一回事

作者先买了 Elgato 4K60 Pro MK.2。它是 PCIe 采集卡，需要 PCIe x4 插槽，有 HDMI 输入和输出。按规格看很好，实际能工作时效果也不错。

但作者遇到多个问题：

偶尔无信号，需要重启设备或等一会儿；
在 OBS 中 full-resolution 录制会掉帧；
只能长期依赖 Elgato 自家的 4K Capture Utility；
录制流程和文件组织不适合他的 Face Cam 工作流。

Elgato 4K Capture Utility 本来更像是游戏实况采集工具。它输出多个 mp4 文件：一个相机麦克风音频，一个外部麦克风音频，一个视频和混合音频。这对游戏采集可能合理，但对 Face Cam 很麻烦。

作者每次都要：

把视频拖到时间线；
解除视频和音频链接；
删除无用混合音轨；
拖入 live commentary 音频；
手动对齐约 0.4 秒；
如果拍了手，还要逐帧对齐；
再把音视频重新链接；
裁掉开头和结尾。

这就是典型的小麻烦堆积成大折磨。
一个小时的视频只录一条长 take，很多时候不是因为创作者喜欢，而是因为多 take 的后处理成本太高。

后来作者尝试 Blackmagic DeckLink Mini Recorder 4K，希望直接和 DaVinci Resolve 打通。结果发现 DaVinci Resolve 的 Capture 面板并不能像他想的那样直接从 live source 录制，它更偏向胶片扫描或录像带采集。

但这张 Blackmagic 卡在 OBS 里表现很好，能稳定支持 2160p25，于是作者后来回到了 OBS 工作流。

十五、4K60 对 Face Cam 未必有意义

作者一开始被 4K60 吸引，但后来发现，对 Face Cam 来说，高帧率不一定有必要。

60FPS 会让画面有一种“肥皂剧感”，对游戏可能很好，对口播 Face Cam 不一定自然。更重要的是，高帧率还会带来灯光频闪、采集、编码、存储、剪辑性能等一堆额外问题。

作者住在法国，是 50Hz 交流电地区。美国和日本常见 60Hz。交流电频率会影响灯光闪烁，而灯光闪烁和相机帧率、快门速度组合不当时，就会出现画面忽明忽暗、条纹或闪烁。

所以一个非常实用的规则是：

在 60Hz 国家，拍 60FPS 或 30FPS；
在 50Hz 国家，拍 50FPS 或 25FPS。

作者最后选择 25FPS，因为 Face Cam 不需要高帧率，25FPS 更适合他所在地区，也能避免不必要的 stutter 和 flicker。

这条经验很重要。
很多人迷信规格，却忘了视频制作是系统工程。4K60 不是自动更好，它只是让所有环节压力都更大。

十六、灯光：好灯比好相机更早该买

原文花了很多篇幅讲灯光，因为灯光直接决定画面质量、绿幕质量、后期难度和录制舒适度。

太阳光是好光，但它不稳定。一天里光线会变化，如果你录多个 take，画面会不一致。绿幕尤其不能依赖自然光，因为绿幕要求背景亮度均匀。

天花板灯通常也不好：
亮度不够；
角度很差；
可能频闪；
颜色不好；
脸上会有难看的阴影。

拍 Face Cam，尤其带绿幕时，不应该用一个刺眼硬光打脸，而应该用柔和、漫射的光。

作者先买过便宜 LED softbox，光不错，但有风扇，高频噪声很烦，后期也很难彻底去掉。后来换过荧光灯 softbox，没有风扇，但很热、体积大、每次安装拆卸耗时。拍 15 分钟就热得难受，而且不能常设，极大破坏“随时可拍”的工作流。

最后作者找到了更符合他需求的灯：Elgato Key Light。它贵，但带来几个关键好处：

无风扇噪音；
可固定在桌上；
高度和角度可调；
手机和电脑远程控制；
可以调亮度和色温；
可以接入 HomeKit/HomeBridge；
不用每次搭建和拆卸。

作者现在用三盏：两盏照绿幕，让背景均匀；一盏稍微偏离正面，给脸部增加高光。

这体现了原文反复强调的原则：

好设备的价值不只是画面更好，而是让你更愿意开机录制。

十七、绿幕：关键不是绿，而是均匀

绿幕本身并不复杂，但要抠得干净，关键在于：

背景要均匀；
人和背景要分离；
光不要把绿色反射到脸、头发、眼镜上；
人物边缘不要被背景污染；
不要让绿幕过暗进入编码器的低质量阴影区域。

作者一开始用 Elgato 采集工具录 H.264，即使码率拉到 140Mbps，绿幕区域如果照明不均匀，暗部仍然容易被压缩，产生 banding 和块状伪影。因为视频编码器会把码率用在人眼更容易注意的地方，暗部、阴影等区域可能被分配较少细节。

这就是为什么前期灯光比后期参数更重要。
如果绿幕本身已经被照得不均匀，你用更高码率、更高级格式，只是在更贵地记录一个更难处理的画面。

十八、10-bit、HDR、色彩空间：很诱人，但坑很深

作者也尝试过 10-bit、HDR 等方向，但很快发现这是一个深坑。

很多人把 10-bit 和 HDR 混在一起讲，但事情远没那么简单。HDR 不只是“更多颜色层次”，还涉及：

更高亮度标准，比如 400 nits、1000 nits；
不同色彩空间，比如 Rec.709 和 Rec.2020；
不同 HDR 格式，比如 HDR10、HDR10+、Dolby Vision；
不同显示设备能力；
不同平台播放支持；
SDR 版本和 HDR 版本的分别制作。

YouTube 的 HDR 播放也并不总是稳定一致。
如果你没有昂贵的 HDR 母带监视器，没有清晰的 HDR/SDR 交付流程，贸然做 HDR 很容易让结果变得不可控。

作者最后的态度是：
未来可能还会把 10-bit 作为采集格式使用，因为它给后期更多余量，但最终目标仍然是 SDR。

这非常现实。
对大多数 Face Cam 创作者来说，先把光、声音、同步、剪辑流程做好，比追 HDR 更有价值。

十九、外部录像机：Atomos Ninja V 很酷，但不一定适合室内 Face Cam

作者买过 Atomos Ninja V。它功能很强：
高质量显示器；
可显示过曝区域；
有音频监看；
支持 ProRes、DNxHR、H.264、H.265 等多种编码；
直接录到 SATA 2.5 寸 SSD；
可以装在相机冷靴上。

这东西很酷。
但对作者的固定室内 Face Cam 工作流来说，问题也明显：

发热严重；
风扇噪音不适合小房间；
关机按键需要长按，很热的时候很难受；
和提词器结构冲突；
它又引入新的电源、存储、挂载问题。

所以它很强，但不是作者这个场景的最优解。

这也是器材选择里很重要的一点：

一个设备在专业领域很强，不代表适合你的具体工作流。

二十、录制软件：最后还是 OBS 解决了很多问题

作者早期用过 OBS，因为直播出身。后来因为 Elgato 采集工具的某些优点离开 OBS，又因为掉帧、同步、文件组织等问题回到 OBS。

OBS 对他的价值在于：

可以稳定采集 Blackmagic 卡的 2160p25 输入；
可以把音频延迟补偿提前配置好；
可以直接录出音画同步的文件；
可以设置单声道麦克风，不浪费音轨；
可以看到 dropped frames 健康状态；
可以使用硬件编码，比如 NVENC 的 H.264/H.265，较新显卡还可以 AV1；
可以调整 keyframe interval，让 DaVinci Resolve 里拖动时间线更顺滑。

作者测得从现场到相机、HDMI、采集卡、OBS 的视频链路延迟大约 276ms。音频从嘴到 SM7B、USB 音频接口、WASAPI、OBS 的延迟要小得多。

OBS 不能让视频提前 276ms，但它可以让音频延迟 276ms。
设置好 sync offset 后，导出的文件就能天然同步，不需要每次手动对齐。

这对工作流是巨大提升。

二十一、OBS、WASAPI、ASIO 和 32-bit float

作者希望录制 32-bit float 音频。OBS 内部使用 32-bit float，并且如果选择 MOV 容器，可以输出 FFmpeg PCM 32-bit float。

但问题在于 Windows 上的 WASAPI shared mode。
作者认为在这种模式下无法要求设备以真正 32-bit float 的方式输入，因此即使 OBS 最终文件是 float PCM，也不代表前端采集链路完全利用了 Zoom UAC-232 的能力。

Ableton Live 之所以能正确使用 UAC-232 的 32-bit float，是因为它可以通过 ASIO。ASIO 是 Steinberg 创建的一套音频协议，提供对外部音频接口更直接、更低延迟的访问。

作者在 Ableton 里对比过，MME/DirectX 延迟高到不适合录制，而 ASIO 可以把输入输出延迟降到很低。

OBS 本身没有内置 ASIO 支持，但有 obs-asio 插件。装上之后可以添加 ASIO Input Capture，直接使用 Zoom UAC-232。

这说明音频链路不是看“最终文件格式”就完事，而要从设备、驱动、系统 API、录制软件、容器格式一路打通。

二十二、剪辑软件：免费开源工具和专业工具之间差距很大

作者很直接地说，他试过很多免费或开源视频编辑方案，但至少在他当时的体验里，都不够好。

真正能高强度完成工作的工具，是另一类东西。

他主要使用 DaVinci Resolve，也试过 Adobe Premiere Pro。

Resolve 的优点是整体更像专业工具，调色能力强，免费版已经很能打，Studio 版功能更完整。它在 macOS 表现最好，Windows 也可用，Linux 虽然有二进制版本，但编解码支持不完整。

Premiere 的优势包括文字式剪辑、与 After Effects 集成、历史悠久。但作者对 Premiere 的稳定性、调色能力、抠像能力、界面一致性很不满意。尤其是文本编辑等新功能像嵌在软件里的 HTML5 面板，崩溃时甚至显示 JavaScript 栈，这让他很难接受。

后来 Resolve 18.5 也加入了转录和文字式剪辑能力，作者就回到了 Resolve。

他的判断很实际：

Premiere 和 Resolve 都有痛点，但对他的工作流来说，Resolve 更值得忍受。

二十三、DaVinci Resolve：Color、Fusion 和绿幕抠像

作者在 Resolve 里做绿幕抠像，早期尝试各种 keyer，后来发现 Color 页面里的 3D qualifier 就很好用。

基本思路是：

在绿色背景上取样；
反选 qualifier；
拉高 despill；
添加 alpha channel output；
把节点连接到 alpha 输出。

Despill 是去除绿色溢色。绿幕光会反射到头发、脸、眼镜边缘，如果不处理，人物边缘会泛绿。

但 Resolve 的 Color 页面是按 clip 工作的，不是按源素材工作。作者经常遇到这样的麻烦：一个长 take 先抠好，剪成很多段后，中间发现某段因为人移动或灯光变化抠得不好，调整后不同剪辑之间效果又不一致。

他试过 shared nodes、嵌套 timeline、批量复制调色等办法，都有各自问题。

最后他找到两个技巧。

第一，用 Resolve 的 People 功能分析素材，让软件识别出包含自己的 face clips。这样在 Color 页面的 Clips 里可以只筛选出出镜片段，而不是把所有截图、素材、stock footage 混在一起。

第二，用 Color 菜单里的 Memories。可以把一个 clip 的调色/抠像设置保存到 Memory A，再在完全不同 timeline 的 clip 上加载 Memory A，并且可以应用到多个选中片段。

这样就可以跨 timeline 保持绿幕和调色一致。

此外，如果使用 qualifier 去掉绿幕，还需要给人物周围加 power window，否则当人物缩小到角落时，画面中人物外部区域可能变成黑色而不是透明。

二十四、Fusion：强大、难学，但值得

Resolve 里的 Fusion 是节点式合成工具。作者一开始在 Edit 页面堆很多 clip 和 effect，后来越来越多地使用 Fusion compositions。

Fusion 可以做：

文字动画；
截图去背景；
遮罩；
合成；
缩放；
转场；
逐步显现；
标注；
与背景合成；
更复杂的运动设计。

作者发现，图片、Text+ 节点等也可以在 Fusion 页面打开，这样很多原本需要在时间线上堆素材的事情，可以变成一个节点树，Edit 页面反而更清爽。

Fusion 难点在于，如果你想让动画和声音同步，普通 Fusion composition 没有媒体输入时听不到时间线音频。作者最后总结出一个修复方法：

添加 Media Input 节点；
确保 composition 从 0 开始；
必要时清空 Audio Cache。

他还强调要学快捷键。比如：

Alt-1 到 Alt-9 快速切换 Resolve 的各个页面；
Ctrl+Shift+F 打开当前内容到 Fusion；
Ctrl+Shift+E 打开 compound clip 到 timeline；
Shift+Space 打开工具选择器；
在 Fusion 里输入 mi、bg、rsz、xf、rct、3dk 等缩写快速添加节点。

一个非常有趣的点是：Fusion 节点树本质上可以复制成文本。你可以选中节点，Ctrl+C，再粘贴到文本编辑器里看到一大段结构化描述。再粘贴到另一个 composition 里，也能复用。

这对程序员很有吸引力，因为它说明 Fusion 不是一个完全黑箱的界面操作，而是某种可复制、可迁移、可模板化的图结构。

二十五、剪辑快捷键和时间线组织

作者花了很多时间总结 Resolve 编辑页快捷键。核心思想是：剪辑工作会持续很多小时，鼠标操作越多越累，越应该把常用操作变成肌肉记忆。

常用操作包括：

左右键逐帧移动；
J/K/L 控制倒放、暂停、播放；
多按 J/L 加速播放；
Ctrl+B 在播放头位置切开选中片段或所有片段；
Backspace 删除但不移动后面内容；
Shift+Backspace ripple delete，会把后面内容往前移动；
N 开关 snapping；
Alt 拖动复制片段；
I/O 设置入点和出点；
Alt-X 清除入点出点；
Ctrl+M 添加 marker；
Alt-Y 选中播放头右侧所有片段。

他还建议使用 source viewer 和 in/out points，而不是直接把文件从文件管理器拖到时间线。因为长素材直接拖进去，可能覆盖已有片段。正确做法是先放入 Media Pool，打开源素材，选好入点和出点，再插入时间线。

此外，他现在把视频不同部分放进不同 timelines，最后再把所有 timelines 组合到一个总 timeline。命名上用数字前缀，比如 100、200、300，留出 150 这种插入空间。再用 flags 标记每个 timeline 的进度：粗剪、加视觉素材、配音、音效、最终检查等。

这个方法很像软件工程里的模块化和任务状态管理。

二十六、字幕：这是额外工作，但非常重要

作者非常重视字幕。

Resolve Studio 可以从音频自动创建字幕，但不能很好地对 sub-timelines 生成字幕后再合并导出一个完整字幕文件，所以他有时会回到 SubtitleEdit。

SubtitleEdit 是 Windows 软件，可以加载视频、生成 waveform，并且支持 Whisper 转录。作者会用 small.en 或 medium.en 模型，也提到 Faster-Whisper 更快。

他的字幕工作流技巧是把某些键绑定成快速设置字幕开始和结束，比如：

S 设置字幕开始；
F 设置字幕结束并移动到下一条。

这样可以接近实时地调整字幕时间轴。

作者一般只导出.srt，不追求复杂颜色格式。因为 YouTube 对字幕颜色、样式、WebVTT、EBU STL 等支持并不一致，花很多时间做格式，最终可能也显示不好。

字幕很耗时。作者说，高质量字幕可能需要视频时长的 1.5 到 3 倍时间去处理。

但它值得，因为：

让视频对更多人可访问；
方便非母语观众理解；
给 YouTube 自动翻译提供更可靠基础；
也让内容更可搜索、更可引用。

二十七、键盘、鼠标、触控板和数位板

视频制作不只有大设备，小输入设备也会影响工作流。

作者早期长期用 Logitech K120 键盘，后来为了在 MacBook 和 Windows 工作站之间切换，买了 Apple Magic Keyboard with Touch ID and Numeric Keypad。Touch ID 在 Windows 上基本没用，但键盘本身不错。

Magic Mouse 他不喜欢，最后换成 Apple Magic Trackpad。因为剪辑时，触控板的大面积手势操作很适合时间线、窗口切换和拖拽。即使在 Windows 上，配合 Magic Utilities 也能很好用。

窗口移动和缩放方面，他在 Windows 用 AltSnap，在 macOS 用 Easy Move+Resize。它们都能提高多窗口操作效率。

作者也提到 Blackmagic 有 Speed Editor 和 Editor Keyboard 这种专门硬件。Speed Editor 还包含 DaVinci Resolve Studio License，如果早知道这一点，他可能会直接买。

数位板方面，他有一块便宜的 Wacom One，用于手绘标注。没有屏幕，只是输入设备，但够用。

这些内容看似杂，但指向一个共同目标：

当你每天剪几个小时视频，任何减少摩擦的小工具都会变重要。

二十八、副机位：iPhone 和 GoPro

作者偶尔用 iPhone 拍生活镜头或外出更新。

iPhone 的优点是工作流非常顺：
拍完，AirDrop 到 Mac，拖进时间线。

但问题是 iPhone 会拍 HDR，尤其 Dolby Vision，这在后期色彩管理里非常烦。很多教程对 iPhone footage 的色彩空间转换讲得并不可靠，作者也不敢说自己完全正确。

如果要在手机上接 3.5mm 领夹麦，需要 TRS 转 TRRS 适配器。iPhone 14 及以前还需要 Lightning 转接，iPhone 15 以后理论上需要 USB-C 转 TRRS，但具体是否标准化也有不确定性。

GoPro 则适合宽角度镜头，比如拍设备、桌面、运动或特殊视角，但作者用得没有想象中多。

二十九、存储和备份：不要只相信本地硬盘

视频素材非常占空间，尤其是 4K、高码率、多 take、多轨音频。

作者提到大容量 SSD 现在比过去便宜很多，Sandisk Extreme Pro Portable SSD 到 2TB 左右是比较稳妥的选择。

项目完成后，他会把内容上传到 Backblaze B2。B2 是 S3-compatible 对象存储，价格比 Amazon S3 低很多。上传大文件到 S3-compatible 存储，他认为 s5cmd 比很多 GUI 工具更可靠。

他放弃了 Cyberduck 这类 GUI，因为自己的经验里不够稳定。
如果更勤快，也许应该搭家庭 NAS，但至少现在有 off-site backup。

这个思路非常重要：

剪辑项目不是导出就结束了。素材、工程、字幕、脚本都应该有备份。

尤其是创作者做长期内容，旧素材未来可能还会被引用、重剪、做合集或做回顾。如果只存在一个移动硬盘里，风险很大。

三十、脚本写作：最后回到 Markdown

作者试过很多写作工具：Google Docs、Microsoft 365、Etherpad、各种 CRDT 协作工具、Scrivener 等。

如果和脚本编辑合作，在线协作文档很好。
Scrivener 对写剧本、做大纲、卡片视图有帮助，但作者很快发现自己经常和它打架，而且导出到提词器工作流不顺。

最后他回到 VS Code，用 Markdown 写脚本，就像写博客文章一样。

他的脚本存在自己的 Rust CMS 里。只要登录 Patreon 或 GitHub 账号，就能在任何设备上访问草稿。普通读者看不到，因为是 draft。

这很符合程序员创作者的工作方式：

与其使用一个功能复杂但难接入流程的工具，不如使用自己熟悉、可版本管理、可扩展的文本格式。

Markdown 的价值是轻、稳定、可迁移、可 diff、可搜索。

三十一、提词器：它不是偷懒，而是减少重拍

作者使用 Glide Gear TMP100 提词器，里面放一台便宜 Android 平板作为显示器。

提词器的基本原理是：平板显示文字，文字经过半透镜反射到镜头前方，人看着镜头方向读稿，同时相机透过玻璃拍摄人脸。

作者在自己网站里做了一个 Present 按钮，让文本变大、居中、左右翻转，这样在提词器镜子里看起来方向正确。

他买过 Teleprompter PAD 的遥控器，但体验不好。它在 Android 上表现为蓝牙键盘，发出的键码奇怪，在自己的网页里不好区分。

所以作者写了一个 Android App。这个 App 用 Kotlin 写，里面是 WebView，加载 fasterthanli.me，并且能直接访问 raw input events，再把事件注入网页。

这听起来很折腾，但解决了一个关键问题：

作者可以完全控制自己的提词器体验。

他还提到一个新技巧：正式拍摄前，先在 DaVinci Resolve 的 Fairlight 页面把脚本“脏录”一遍，用来感受节奏和表达效果，同时添加 Text+ 节点标注未来应该出现什么视觉元素。这样可以在正式录制前发现脚本问题、节奏问题和视觉设计问题。

这一步帮助他节省大量剪辑时间，也减少重拍。

三十二、CO₂ 监测：为什么录视频还要看二氧化碳？

作者最后提到一个看似奇怪的设备：Aranet4 Home CO₂ monitor。

它用来提醒什么时候该休息、开窗通风。
当 CO₂ 超过 1000 ppm 时，继续硬撑可能只会头痛、疲惫、效率下降。

这听起来离 Face Cam 很远，但其实非常真实。

长时间录制时，你可能关窗防噪音，开灯发热，房间空气变差，又要持续集中表达。最后不是设备拖累你，而是人的状态拖累你。

所以 CO₂ 监测仪的意义不是“画质提升”，而是保护创作者状态。

这也呼应了全文的主题：
Face Cam 工作流不是只服务相机，它也服务人。

三十三、作者截至 2024 年 3 月的完整设备和软件清单

原文最后列出作者当时完整制作视频涉及的东西。整理如下：

脚本写作与内容系统：

Visual Studio Code，vim mode，用来写 Markdown 脚本
Forgejo 实例，并 push mirror 到 GitHub
作者自己用 Rust 写的 custom website/CMS，名字是 told，原名 futile

拍摄与视频采集：

Panasonic Lumix DC-GH5M 相机
DC-GH5M 的 dummy battery
Blackmagic Design DeckLink Mini Recorder 4K 采集卡
SIRUI AM-223 迷你碳纤维三脚架
Glide Gear TMP100 提词器
RemotePad 遥控器
Elgato Green Screen
高度可调 IKEA 桌子
用来放绿幕的桌子，让作者可以站着拍

灯光：

Elgato Key Light 三盏

音频：

RODE PSA1 麦克风臂
Shure SM7B 麦克风
Triton Audio FetHead
Zoom UAC-232 USB 音频接口
需要两个 USB 口都插上，否则可能遇到 USB controller reset 之类的问题
Ableton Live，用于音乐 outro

输入设备：

Apple Magic Keyboard
Apple Magic Trackpad
Wacom One 数位板

剪辑与字幕：

DaVinci Resolve，用于调色、剪辑、导出
SubtitleEdit，有时用于字幕

存储与计算设备：

专业级 SSD，加 SATA-to-USB-A 接口
桌面工作站：Ryzen 5950X、128GB RAM、RTX 3070 8GB VRAM
2022 款 M2 MacBook Pro

这份清单很长，但不要误解：它不是“新手照着买”的购物单。作者也明确说，自己的设备是多年试错累积出来的，而且视频是他的 passion project。

真正值得学的是背后的设计思路。

三十四、这篇文章真正想说什么？

如果只看器材名，这篇文章很容易被理解成“创作者装备分享”。但它其实讲的是更底层的东西：如何为一个人制作视频搭建可靠系统。

它的核心不是“买哪款相机”，而是：

什么东西会导致重拍？
什么东西会破坏同步？
什么东西会增加后期负担？
什么东西会让你每次开拍前都不想开工？
什么东西能消灭整类问题？
什么东西能让你更专注于内容，而不是设备？

作者多次从便宜设备换到贵设备，不是因为迷信贵，而是因为很多便宜方案会把成本转移到后期、重拍、情绪和时间上。

比如：

便宜灯有风扇噪声，后期修音成本高；
便宜 Webcam 压缩严重，绿幕抠像困难；
相机直录 SD 卡，文件管理和同步麻烦；
Elgato 工具能录，但每条 take 都要手动整理音轨；
蓝牙耳机方便，但可能导致音画同步事故；
没有提词器，表达更容易乱；
没有固定灯光，随时录制变成不可能；
没有字幕流程，内容可访问性下降；
没有备份，旧项目随时可能丢。

所以这篇文章最有价值的一句话可以概括为：

好的 Face Cam 系统，不是追求最高规格，而是尽量减少失败点。

三十五、给普通创作者的简化版建议

如果你刚开始做 Face Cam，不需要照着作者的最终清单买。可以按优先级来。

第一，先解决声音。
声音比画面更容易劝退观众。一个合适的动态麦、稳定的麦克风臂、合理的摆位，通常比升级相机更重要。

第二，解决灯光。
不要指望天花板灯。柔和、稳定、无噪音、可常设的灯光，会极大提升画面质量，也会让绿幕更容易处理。

第三，解决供电和存储。
能插电就插电，不要依赖电池。能减少 SD 卡搬运就减少。录制前检查空间和电源，但更好的方案是让系统本身减少这些检查点。

第四，普通 Webcam 不一定值得高价买。
如果只是会议没问题，如果是认真做视频，它的传感器、镜头、压缩格式、USB 带宽都会成为限制。真正相机加 clean HDMI 加采集卡，复杂但上限高。

第五，不要盲目追 4K60、10-bit、HDR。
Face Cam 更重要的是稳定、清晰、肤色自然、音画同步、无闪烁。帧率要和所在地区交流电频率、灯光情况匹配。

第六，录制软件要服务工作流。
OBS 的价值在于它能把视频、音频、延迟补偿、编码参数、健康状态集中起来。能一次录出“直接可剪”的文件，比画质参数多一点点更重要。

第七，剪辑项目要模块化。
长视频可以分成多个 timeline 或段落，给每段标状态。不要把所有东西都堆在一个巨大时间线上，后期会越来越难管理。

第八，字幕不要最后才想。
如果你重视内容传播，字幕是内容的一部分。自动转录可以节省时间，但人工校对仍然重要。

第九，备份不是可选项。
视频项目太大、太耗时间，丢一次素材的代价会非常高。至少要有一份离线或异地备份。

第十，别忽略人的状态。
录视频不是机器自动跑任务。热、闷、噪音、CO₂、口干、疲劳，都会影响最终效果。

三十六、从程序员角度看这篇文章

如果你是程序员，会发现这篇文章讲的不是单纯“视频设备”，而是一套生产系统。

它和软件工程非常像。

相机、麦克风、灯光、采集卡是硬件依赖；
OBS、Resolve、SubtitleEdit 是工具链；
音画同步是数据一致性问题；
掉帧是吞吐和延迟问题；
SD 卡、SSD、对象存储是存储层；
字幕和脚本是内容资产；
Fusion 节点树像可复制的配置；
DaVinci Resolve 的 timeline 组织像项目模块化；
备份策略像灾备；
提词器和脚本预录像是测试环境；
CO₂ 监测则像系统健康指标。

独立创作者的工作流，本质上也是一套 pipeline。
糟糕 pipeline 的问题不是它不能完成任务，而是它每次运行都要人肉修复。

好的 pipeline 应该是：

启动成本低；
状态可观察；
失败点少；
输出稳定；
后期可维护；
长期可复用。

这也是为什么原文很适合技术读者看。它表面讲拍视频，实际讲的是如何把一个复杂、易错、多环节流程变成可重复的工程系统。

总结

这篇文章不是一篇普通器材推荐，而是一份独立视频创作者踩坑记录。

作者从相机、麦克风、音频接口、采集卡、灯光、绿幕、OBS、DaVinci Resolve、Fusion、字幕、存储、脚本、提词器，一路讲到 CO₂ 监测，看似非常散，但主线很清楚：

你要搭建的不是一套“看起来专业”的设备，而是一套“让你稳定产出”的系统。

Face Cam 的质量，不只来自相机。
它来自声音、光线、同步、供电、存储、剪辑、字幕、备份和人的状态共同作用。

如果你刚开始做视频，不要一上来追求作者最终那套复杂配置。更好的路线是：

先让声音可靠；
再让灯光稳定；
再让录制流程减少手工同步；
再让剪辑和字幕流程可持续；
最后才考虑更高规格的相机、采集、色彩和 HDR。

真正重要的不是买到最贵设备，而是不断问自己：

哪些问题让我重拍？
哪些步骤让我拖延？
哪些环节可以被自动化、固定化、一次性解决？

当这些问题逐渐减少，Face Cam 才会从“每次都像打仗”变成“坐下就能开始创作”。

参考资料

Face cams: the missing guide