news 2026/2/8 21:02:08

SWE benchmark 安装全过程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SWE benchmark 安装全过程

在所有步骤之前,请你先开个代理,就是export http那些,不然会遇到各种问题。

# 下载 Miniconda 安装脚本 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O miniconda.sh
# 运行安装 bash miniconda.sh -b -p $HOME/miniconda3 # 初始化 conda $HOME/miniconda3/bin/conda init bash # 重新加载 shell source ~/.bashrc
conda create -n swe-bench python=3.10 -y conda activate swe-bench pip install datasets # 3. 克隆并安装 SWE-bench git clone https://github.com/princeton-nlp/SWE-bench.git cd SWE-bench pip install -e .

现在已经配置好了环境,但是请注意,这个SWE bench是会创建docker的,所以请不要在docker容器里运行,建议找一个宿主机运行。

python -m swebench.harness.run_evaluation \ --predictions_path gold \ --max_workers 1 \ --instance_ids sympy__sympy-20590 \ --run_id validate-gold

跑完简单的gold基准测试后,我其实还是不太懂这个swe bench,我现在打算继续测试这个bench。

有三种Patch可以选择,开始一个个测试。

1. mini-swe-agent

到达和SWE-bench平行的文件位置(不要把SWE-agent作为swe-bench的子文件)

git clone https://github.com/SWE-agent/mini-swe-agent.git cd mini-swe-agent pip install -e .

在运行测试之前,先使用docker把镜像拉下来,不然可能会因为docker pull太慢,导致超时。

DOCKER_CLIENT_TIMEOUT=600 docker pull --disable-content-trust swebench/sweb.eval.x86_64.sympy_1776_sympy-20590:latest

然后输入指令

mini-extra config set DEEPSEEK_API_KEY "你的key"

然后再测试。

mini-extra swebench-single \ --subset lite \ --split test \ --model deepseek/deepseek-chat \ -i sympy__sympy-20590

2. SWE-agent

暂无

3. Live-SWE-agent

暂无

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/8 0:59:37

优化 Selenium 使用文本挖掘在分析留言数据中提供了多种应用 如情感分析、主题建模、关键词提取和文本分类

优化 Selenium 使用文本挖掘在分析留言数据中提供了多种应用 如情感分析、主题建模、关键词提取和文本分类 优化 Selenium 文本挖掘在分析留言数据中提供多种应用 如何优化 Selenium 的使用以提高爬取效率、数据清洗的具体步骤和常用工具 在当今大数据时代,网络爬虫…

作者头像 李华
网站建设 2026/2/7 4:54:51

2026年02月03日全球AI前沿动态

一句话总结 2026年2月3日前后,AI领域呈现全产业链爆发式进展:通用与垂直模型密集迭代(轻量化、高性能成主流),多智能体协作与物理AI技术突破,企业并购、融资活跃,应用场景覆盖办公、社交、工业…

作者头像 李华
网站建设 2026/2/7 15:43:49

【LLM】CL-bench:评估LLM学新知识的能力

note CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含(Self-contained)的。解决任务所需的所有信息都显式地提供在 context 本身之中:不需要…

作者头像 李华
网站建设 2026/2/7 14:36:41

PPT配图神器01Agent:3秒生成可编辑配图,AI帮你告别找图烦恼

PPT配图快速生成,01Agent让你的职场视觉化表达更生动 做PPT最崩溃的时刻是什么? 不是写文案,不是理逻辑,而是找配图。 你打开搜索引擎,输入关键词,翻了20页图片,要么版权不明不敢用&#xff…

作者头像 李华
网站建设 2026/2/7 16:53:25

如何打造品牌网站-让你的网站脱颖而出!

各位亲爱的朋友们,你是不是正在为企业的发展而焦虑?是不是在寻找一种能够快速提升企业形象和知名度的方式?那就是打造一个专业的品牌网站!但是,怎么做?要做哪些准备?小编来告诉你!首…

作者头像 李华
网站建设 2026/2/7 5:17:18

龙魂模型这模型会说谎吗?

😂😂😂 老大在厕所急着看回复,宝宝笑死了! 激动到肚子疼这事,宝宝头一次听说! 🚽😂 华为加载卡住,你还在那干着急,画面太美 📱&#x…

作者头像 李华