SmolVLA保姆级教程：num2words缺失修复+模型路径校验全流程-平芜编程栈

SmolVLA保姆级教程：num2words缺失修复+模型路径校验全流程

1. 项目介绍

SmolVLA 是一个专为经济型机器人设计的视觉-语言-动作(VLA)模型，它将视觉感知、语言理解和动作生成集成在一个紧凑的框架中。这个轻量级解决方案特别适合资源有限的机器人应用场景。

核心特点：

仅需500M参数即可实现多模态理解与动作生成
支持通过自然语言指令控制机器人动作
提供直观的Web界面进行交互式演示
可在消费级GPU(如RTX 4090)上流畅运行

2. 环境准备与问题诊断

2.1 常见安装问题排查

在启动SmolVLA时，用户最常遇到两个问题：

num2words缺失错误：表现为ModuleNotFoundError: No module named 'num2words'
模型路径配置错误：导致模型无法加载，出现权重文件找不到的报错

2.2 依赖检查步骤

首先检查基础环境是否完整：

# 检查Python环境 python --version # 需要Python 3.8+ # 检查关键依赖 pip list | grep -E "torch|gradio|num2words"

如果发现num2words缺失，这是导致Web界面无法启动的常见原因。

3. num2words缺失修复方案

3.1 快速安装方法

最简单的修复方式是直接安装num2words：

pip install num2words

如果遇到网络问题，可以使用国内镜像源：

pip install num2words -i https://pypi.tuna.tsinghua.edu.cn/simple

3.2 验证安装

安装完成后，可以通过Python交互环境验证：

import num2words print(num2words.num2words(42)) # 应该输出"forty-two"

3.3 依赖冲突处理

如果安装后仍然报错，可能是虚拟环境问题：

# 创建干净的虚拟环境 python -m venv smolvla_env source smolvla_env/bin/activate # Linux/Mac # 或 smolvla_env\Scripts\activate # Windows # 重新安装所有依赖 pip install -r requirements.txt

4. 模型路径配置指南

4.1 默认路径检查

SmolVLA默认从以下路径加载模型：

/root/ai-models/lerobot/smolvla_base

验证路径是否存在：

ls -l /root/ai-models/lerobot/smolvla_base

4.2 自定义路径设置

如果模型存放在其他位置，可以通过环境变量指定：

export SMOLVLA_MODEL_PATH=/your/custom/path

或者在Python代码中直接指定：

from smolvla import load_model model = load_model(model_path="/your/custom/path")

4.3 模型下载指引

如果模型缺失，可以从Hugging Face下载：

git lfs install git clone https://huggingface.co/lerobot/smolvla_base /root/ai-models/lerobot/smolvla_base

5. 完整启动流程

5.1 标准启动步骤

确保所有问题修复后，按照标准流程启动：

# 激活环境（如使用虚拟环境） source smolvla_env/bin/activate # 设置环境变量 export HF_HOME=/root/.cache export HUGGINGFACE_HUB_CACHE=/root/ai-models # 启动服务 cd /root/smolvla_base python app.py

5.2 启动参数说明

可以调整以下启动参数：

python app.py \ --port 7860 \ # 服务端口 --share \ # 生成公共链接 --model-path /custom/path # 自定义模型路径

6. 常见问题解决方案

6.1 CUDA相关问题

如果遇到CUDA错误，尝试：

# 检查CUDA可用性 python -c "import torch; print(torch.cuda.is_available())" # 如果返回False，可能需要重新安装PyTorch pip install torch --upgrade --force-reinstall

6.2 内存不足处理

对于显存不足的情况：

# 降低批量大小 export SMOLVLA_BATCH_SIZE=1 # 使用CPU模式（性能下降） export SMOLVLA_FORCE_CPU=1

6.3 其他依赖问题

如果遇到xformers警告，可以安全忽略，或明确禁用：

export XFORMERS_FORCE_DISABLE_TRITON=1

7. 使用验证与测试

7.1 基础功能测试

启动后，在浏览器访问http://localhost:7860，尝试：

上传测试图像
设置关节状态
输入简单指令如"Pick up the cube"
检查生成的动作是否合理

7.2 预设示例验证

点击界面中的预设示例按钮，验证：

抓取放置任务
伸展动作
归位指令
堆叠操作

8. 总结与下一步

通过本教程，您应该已经解决了num2words缺失和模型路径配置问题，并成功启动了SmolVLA服务。为了进一步探索：

尝试结合真实机器人硬件进行集成
测试更复杂的多步骤指令
考虑在Docker容器中部署以获得更好的环境隔离

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AIVideo商业应用案例：电商产品视频自动生成实战

AIVideo商业应用案例：电商产品视频自动生成实战你有没有算过一笔账？一家中型电商公司，每月要为200款新品制作短视频——每条视频从脚本、拍摄、剪辑到配音，按传统方式至少需要1.5小时，人工成本约180元/条。一年下来就…

李华

Qwen3-VL:30B一键部署教程：基于Git实现私有化本地环境搭建

Qwen3-VL:30B一键部署教程：基于Git实现私有化本地环境搭建 1. 为什么你需要这个部署方案最近在星图GPU平台上试了几次Qwen3-VL:30B的部署，发现很多开发者卡在第一步——环境配置上。不是缺依赖包，就是CUDA版本不匹配，再或者模型…

李华

Hunyuan-MT-7B快速上手：Chainlit前端调用教程

Hunyuan-MT-7B快速上手：Chainlit前端调用教程想体验顶尖的翻译大模型，但被复杂的部署和命令行调用劝退？今天，我们就来聊聊如何用最简单的方式，让Hunyuan-MT-7B这个翻译界的“尖子生”为你服务。你不需要懂复杂的API&…

李华

三步打造专属声线：二次元角色语音合成全指南

三步打造专属声线：二次元角色语音合成全指南【免费下载链接】MoeTTS Speech synthesis model /inference GUI repo for galgame characters based on Tacotron2, Hifigan, VITS and Diff-svc 项目地址: https://gitcode.com/gh_mirrors/mo/MoeTTS 在ACG创作…

李华

私有化部署指南：Qwen3-VL:30B企业级应用实战

私有化部署指南：Qwen3-VL:30B企业级应用实战 1. 为什么企业需要私有化部署Qwen3-VL:30B？ 很多技术团队在评估多模态大模型时，常遇到三个现实难题：第一，公有云API调用存在图片等敏感数据外传风险，法务和安…

李华

EmbeddingGemma-300M性能优化指南：RTX4090上的量化部署实践

EmbeddingGemma-300M性能优化指南：RTX4090上的量化部署实践 1. 为什么EmbeddingGemma-300M值得你花时间优化在本地部署AI模型时，我们常常面临一个现实困境：模型能力越强，对硬件的要求就越高。EmbeddingGemma-300M作为Google推出…

李华