news 2026/6/2 8:41:08

斯坦福大学CS336课程:2026年春季教授从头构建语言模型,含课程安排与作业要求

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
斯坦福大学CS336课程:2026年春季教授从头构建语言模型,含课程安排与作业要求

CS336:从头开始构建语言模型

这是斯坦福大学2026年春季的过往课程,过往课程还有2025年春季和2024年春季。课程关联了斯坦福自然语言处理组和斯坦福基础模型研究中心。

课程团队

授课教师为辰典则和梁珀西,课程助教有赫尔曼·布伦博格、马塞尔·罗德和曹史蒂文。

课程安排

授课时间为周一和周三下午3:00 - 4:20,地点在斯基林礼堂。课程录像可在YouTube播放列表查看。办公时间方面,梁珀西是周五上午11:00 - 12:00,在盖茨楼366室;辰典则是周二上午11:00 - 12:00,在盖茨楼364室;马塞尔·罗德是周二下午4:30 - 5:30,在盖茨楼498室,周三下午4:30 - 5:30,在盖茨楼415室;赫尔曼·布伦博格是周三下午1:30 - 2:30,周五下午1:30 - 2:30,在盖茨楼392室;曹史蒂文是周一下午4:30 - 5:30,周四上午9:30 - 10:30,在盖茨楼200室。学生应在公共Slack频道提出所有与课程相关的问题,所有通知也将在Slack发布。如有个人事务,请发邮件至_cs336 - spr2526 - staff@lists.stanford.edu_。

课程内容

课程介绍

语言模型是现代自然语言处理(NLP)应用的基石,开创了用单一通用系统解决一系列下游任务的新范式。本课程旨在让学生全面了解语言模型,引导他们从头开始开发自己的语言模型,将带领学生经历语言模型创建的各个环节,包括预训练数据的收集与清理、Transformer模型构建、模型训练以及部署前的评估。

先修要求

一是要熟练掌握Python,课程作业大多使用Python完成,且学生需要编写的代码量至少比其他课程多一个数量级。二是具备深度学习和系统优化经验,课程的很大一部分内容是让神经语言模型在多台机器的GPU上快速高效运行,学生需熟悉PyTorch,并了解内存层次结构等基本系统概念。三是掌握大学微积分、线性代数(如MATH 51、CME 100),学生应熟悉矩阵/向量表示法和运算。四是掌握基础概率与统计(如CS 109或同等课程),学生应了解概率、高斯分布、均值、标准差等基础知识。五是掌握机器学习(如CS221、CS229、CS230、CS124、CS224N),学生应熟悉机器学习和深度学习的基础知识。需注意,这是一门5学分的课程,实践内容较多,要合理安排时间。

课程作业

作业安排

作业1是基础,要实现训练标准Transformer语言模型所需的所有组件,训练一个简易语言模型;作业2是系统,要使用高级工具对作业1中的模型和层进行性能分析和基准测试,用自己的Triton实现FlashAttention2优化注意力机制,构建作业1模型训练代码的内存高效分布式版本;作业3是扩展,要理解Transformer各组件的功能,查询训练API以拟合缩放定律,预测模型扩展情况;作业4是数据,要将原始的Common Crawl数据转成可用的预训练数据,进行过滤和去重以提高模型性能;作业5是对齐与推理强化学习,要应用监督微调(SFT)和强化学习训练语言模型,使其在解决数学问题时具备推理能力,还有可选部分2是实现并应用安全对齐方法,如直接偏好优化(DPO)。所有(目前暂定)截止日期见课程安排。

自学GPU计算资源

如果在家自学,可从云服务提供商获取GPU计算资源完成作业。2026年3月28日单个B200 GPU的公开价格,Modal每小时6.25美元,每月提供30美元的免费计算额度,仅按实际使用的计算量收费;Lambda Labs每小时6.69美元;RunPod每小时4.99美元;Nebius每小时5.50美元,抢占式实例每小时3.05美元;Together每小时7.49美元,最少需8个GPU,长期使用更优惠。为方便和节省成本,建议先在CPU上调试代码的正确性,再使用作业中建议数量的GPU完成训练或进行GPU操作基准测试。

荣誉准则

和斯坦福大学的其他课程一样,严格遵守学生荣誉准则。合作规定允许成立学习小组,但学生必须独立理解并完成作业,每人提交一份作业,若以小组形式完成作业,要在作业开头注明小组成员姓名。AI工具使用方面,可以使用ChatGPT等大语言模型解决低级编程问题或语言模型的高级概念问题,但禁止直接用其解决作业问题,强烈建议在完成作业时在集成开发环境(IDE)中禁用AI自动补全功能,不过非AI自动补全是允许的。现有代码使用方面,除非资料另有说明,否则请勿查看现有代码。

作业提交

所有作业需在截止日期前通过Gradescope提交,请勿通过邮件提交。如有问题,可在Slack提问或联系课程助教。在截止日期前可多次提交,只批改最后一次提交的作业。提交部分完成的作业也比不提交好。

延迟提交政策

每位学生有6个延迟提交日,每个延迟提交日可将截止日期延长24小时。每份作业最多可使用3个延迟提交日。

重新评分申请

如果认为课程团队在评分时存在客观错误,可在成绩公布后3天内通过Gradescope提交重新评分申请。

赞助商

感谢Modal为本次课程提供计算资源赞助。

课程安排

课程安排以表格形式呈现,包含序号、日期、课程内容、课程资料和截止日期等信息。如3月30日周一课程概述、分词(梁珀西),作业1发布;4月15日周三内核、Triton(梁珀西),作业1截止,作业2发布等。5月25日周一是阵亡将士纪念日,无课程。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/2 8:40:59

jqwik 1.10.0 版本测试消息引担忧,多方面问题待解!

GitHub平台功能概览GitHub平台功能丰富,涵盖AI代码创作、开发者工作流、应用程序安全和探索等方面。AI代码创作包括GitHub Copilot、GitHub Spark、GitHub Models和MCP Registry(新)等;开发者工作流有Actions、Codespaces、Issues…

作者头像 李华
网站建设 2026/6/2 8:40:39

避坑指南:YOLOv9车辆计数项目里,那个自定义跟踪器到底该怎么调?

YOLOv9车辆计数项目中自定义跟踪器的深度调优实战在智能交通监控系统中,车辆计数是基础却关键的一环。当我们把YOLOv9这样的尖端检测算法与自定义跟踪器结合时,往往会遇到一个尴尬的现实——检测很准,但计数总出错。上周我接手一个高速路车流…

作者头像 李华