news 2026/5/30 14:24:15

盘点 5 个大厂最近开源的 GitHub 项目。

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
盘点 5 个大厂最近开源的 GitHub 项目。

01

英伟达开源 AI 玩游戏模型

NitroGen 是英伟达开源的项目,让 AI 像人一样玩游戏。

开源一两周就有 1.2K 的 Star 了。

它不是那种只能玩特定游戏的脚本,而是一个通用的游戏大模型。

它的核心逻辑非常有意思:它像人类玩家一样,只看屏幕画面,然后决定手柄该怎么按。

更有趣的是它的训练方式。团队没有去对接成百上千个游戏的 API,而是直接利用了互联网上依然存在的海量游戏视频来进行行为克隆。

它通过看别人玩游戏学会了操作,经过训练后,它甚至能适应它从未见过的游戏。

目前这个项目已经开源了代码和模型,支持在 Windows 上运行。

只要你打开游戏,运行这个 Agent,它就能通过捕捉屏幕画面来接管操作。

开源地址:https://github.com/MineDojo/NitroGen

02

Meta 推出音频分割模型

Meta 之前的 Segment Anything Model 在图像分割领域可以说是杀疯了,现在他们把这套魔法带到了音频领域。

SAM-Audio 的功能简单说就是音频版的抠图。

你给它一段嘈杂的录音,告诉它我要听里面的狗叫声或者把吉他声分离出来,它就能精准地把目标声音提取出来,顺便把剩下的背景音也分离开。

它的交互方式非常灵活,不光支持文字指令,你甚至可以给它看一段视频,框选视频里的某个人或物体,它就能识别对应的声音并提取出来。

此外,它也支持通过时间戳来定位声音。这背后的技术利用了音频-视觉感知编码器,让模型能理解声音和画面、文本之间的语义联系。

对于做视频剪辑、声音设计或者音频修复的人来说,这简直是神器。

开源地址:https://github.com/facebookresearch/sam-audio

03

阿里推出图层 AI 生成模型

Qwen-Image-Layered 生成的不是一张图,而是自带图层的图像,就像是你直接得到了一个 PSD 源文件。

这个模型能把图像拆解成透明的 RGBA 层。比如生成一张森林里的女孩,它会把女孩放在一层,身后的树木一层,天空又是一层。

你可以随意移动、缩放或者删除画面里的物体,而不会在背景上留下一个难看的黑洞,因为模型已经把被遮挡的背景部分也补全了。

这对于设计师和二次创作者来说太重要了。

它让 AI 生成的内容瞬间具备了极高的可编辑性。你不仅可以用它生成新的分层图像,甚至可以把现有的普通图片丢进去,让它帮你拆成图层。

开源地址:https://github.com/QwenLM/Qwen-Image-Layered

04

谷歌开源

之前推荐过,这个谷歌开源的项目也登上过每周开源热榜。Google 定义了一套标准,让 AI 不仅仅会说话,还能变出用户界面 UI。

AI 发一串 JSON 数据告诉你的手机或浏览器:给我渲染一个日历组件,外加一个确认按钮。

你的客户端收到指令后,就会用原生的组件把这个界面画出来。

这样做既保证了界面的美观和交互体验,又避免了直接执行 AI 生成的代码所带来的安全风险。

这个项目的牛逼之处是把 AI 的思考和界面的展示解耦了。

未来的聊天机器人可能不再只是一个对话框,而是一个能根据你的需求随时变身的全能 App?

开源地址:https://github.com/google/A2UI

05

阿里开源语音交互大模型

Fun-Audio-Chat 就是阿里通义团队开源的项目。

主打的是低延迟和自然对话,不像传统的语音交互那样有漫长的等待。

技术上,它搞了个双分辨率的架构,简单说就是用粗粒度的特征来处理语义,用细粒度的特征来保证音质,这样既省算力又能跑得快。

而且它通过 Core-Cocktail 训练法,在保留了强大的文本理解能力的同时,还能听懂你说话的语气,甚至在回复时带上相应的情感。

它可以支持语音打断、甚至理解非语言的声音,比如笑声啥的。

对于想要开发实时语音聊天应用、客服机器人或者虚拟伴侣的开发者来说,这个开源项目提供了一套非常接近商业级效果的现成方案。

开源地址:https://github.com/FunAudioLLM/Fun-Audio-Chat

06

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/20 23:33:25

多语言内容生产新利器:Hunyuan-MT-7B自动化翻译方案

多语言内容生产新利器:Hunyuan-MT-7B自动化翻译方案 在全球化浪潮不断推进的今天,企业出海、科研协作与跨文化传播对多语言支持提出了前所未有的高要求。无论是跨境电商需要将商品详情快速翻译成阿拉伯语或泰语,还是高校研究团队希望把中文论…

作者头像 李华
网站建设 2026/5/20 16:31:06

零基础学习BGE-M3:你的第一个AI生成项目

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 为编程新手创建一个简单的BGE-M3入门项目:一个能够根据用户输入生成个性化问候语的网页应用。要求:1) 一个简单的HTML页面,包含输入框和按钮&am…

作者头像 李华
网站建设 2026/5/20 20:41:10

如何用AI自动修复同步资源授权问题?

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个AI辅助工具,用于自动检测和修复同步资源授权失败的问题。工具应能分析错误日志,识别授权失败的原因,并提供修复建议或自动执行修复操作…

作者头像 李华
网站建设 2026/5/21 0:57:58

nanopb在STM32与云端通信中的实际应用场景

让STM32“轻”松上云:nanopb如何破解物联网通信的资源困局你有没有遇到过这样的场景?手里的STM32F4芯片,RAM只有128KB,Flash 512KB,却要将温湿度、加速度、时间戳等多维传感器数据上传到阿里云。原本想用JSON格式——毕…

作者头像 李华
网站建设 2026/5/22 12:18:25

1小时用LLaVA打造智能会议记录神器

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发会议白板智能处理工具:1. 拍照自动识别手写文字和图表 2. 生成结构化会议纪要(议题/结论/待办)3. 提取关键数据生成可视化图表 4. 支持多语…

作者头像 李华
网站建设 2026/5/22 7:41:54

HuggingFace镜像网站太卡?切换至Hunyuan-MT-7B国内生态

Hunyuan-MT-7B:当国产翻译大模型遇上一键WebUI 在多语言内容爆炸式增长的今天,机器翻译早已不再是“能翻就行”的简单工具。无论是出海企业的本地化运营、科研机构的语言学研究,还是边疆地区的民汉信息互通,高质量、低延迟、易部署…

作者头像 李华