news 2026/4/18 11:13:59

LangSmith 模型评估 (Evaluation) 完整指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LangSmith 模型评估 (Evaluation) 完整指南

本文档将手把手教你如何使用LangSmith对 LLM(如 Gemini, DeepSeek, GPT)进行自动化评估和对比。


1. 注册与准备

1.1 注册账号

  1. 访问 LangSmith 官网。此处需要魔法
  2. 使用 GitHub 或 Google 账号登录。
  3. 注意:LangSmith 分为US (美国)EU (欧洲)两个数据中心。注册时请留意你所在的区域(或者由系统自动分配)。

1.2 获取 API Key

  1. 登录后,点击左下角的Settings (设置)图标。
  2. 选择API Keys选项卡。
  3. 点击Create API Key
  4. 给 Key 起个名字(如 “Test Key”),然后复制保存(只显示一次)。

    在上图这里选 Run an Evaluation


点击这里Generate API key 就会获得一个key

1.3 确认 Endpoint (关键步骤!)

如果你的账号被分配到了EU (欧洲)节点(URL 是eu.smith.langchain.com),你必须显式配置 Endpoint,否则会报403 Forbidden

  • US 节点(默认):https://api.smith.langchain.com
  • EU 节点https://eu.api.smith.langchain.com

设置环境变量:

ANGCHAIN_ENDPOINT="https://eu.api.smith.langchain.com"LANGCHAIN_API_KEY="lsvxxxxxxxxxxxxxxxxxxxx"

2. 环境配置

2.1 安装依赖

你需要安装langsmithlangchain相关库。

pipinstalllangsmith langchain langchain-openai

2.2 配置环境变量 (.env)

在项目根目录创建.env文件,填入以下内容:

# 开启 Tracing (可选,但推荐) LANGCHAIN_TRACING_V2=true # 你的 API Key LANGCHAIN_API_KEY="ls__your_api_key_here" # 如果你是 EU 账号,必须加这一行!US 账号可忽略 LANGCHAIN_ENDPOINT="https://eu.api.smith.langchain.com" # 你的模型 Key (用于调用模型) GEMINI_API_KEY="AIza..." DEEPSEEK_API_KEY="sk-..."

3. 实战代码:模型对比评估

我们将编写一个脚本,对比GeminiDeepSeek在回答同一组问题时的表现。

完整代码 (compare_model.py)

importosfromlangsmithimportClient,evaluatefromsrc.llm.gemini_chat_modelimportget_gemini_llmfromsrc.llm.deepseek_chat_modelimportget_deepseek_llm# ================= 1. 初始化客户端 =================client=Client()# ================= 2. 准备数据集 (Dataset) =================# 数据集名称dataset_name="AI_Interview_Questions"# 检查数据集是否存在,不存在则创建ifnotclient.has_dataset(dataset_name=dataset_name):print(f"创建新数据集:{dataset_name}")dataset=client.create_dataset(dataset_name=dataset_name,description="用于测试模型的基础问答能力")# 写入测试用例 (Inputs)# 可以在这里添加标准答案 (Outputs) 用于自动打分,这里仅做生成测试client.create_examples(inputs=[{"prompt":"什么是 RAG (Retrieval-Augmented Generation)?"},{"prompt":"用 Python 写一个快排算法。"},{"prompt":"解释量子纠缠,像我只有5岁一样。"},],dataset_id=dataset.id,)else:print(f"使用现有数据集:{dataset_name}")# ================= 3. 准备模型 (Target Functions) =================# 初始化 LangChain 模型对象gemini=get_gemini_llm()deepseek=get_deepseek_llm()# 定义包装函数# LangSmith 会把数据集里的 inputs (如 {"prompt": "..."}) 传给这个函数defpredict_gemini(inputs:dict):# 调用模型response=gemini.invoke(inputs["prompt"])# 返回结果,key 可以是 "output" 或 "answer"return{"output":response.content}defpredict_deepseek(inputs:dict):response=deepseek.invoke(inputs["prompt"])return{"output":response.content}# ================= 4. 运行评估 (Run Evaluation) =================print("开始评估 Gemini...")evaluate(predict_gemini,data=dataset_name,experiment_prefix="gemini-v1",# 实验名称前缀description="Gemini Pro 基础测试")print("开始评估 DeepSeek...")evaluate(predict_deepseek,data=dataset_name,experiment_prefix="deepseek-v1",description="DeepSeek Chat 基础测试")

4. 代码深度解析

Step 1:client.create_dataset

  • 作用:在云端创建一个持久化的数据集。
  • 特性:数据集只需创建一次。之后你可以反复使用它来测试不同的模型,或者测试同一个模型的不同版本(Prompt 迭代)。
    当dataset 创建后, 可以从langsmith也页面见到该dataset

Step 2:client.create_examples

  • Inputs:模型的输入(Prompt)。
  • Outputs (可选):标准答案(Ground Truth)。如果提供了 Output,你可以使用“正确性评估器”来自动判断模型回答得对不对。

Step 3:predict_wrapper(包装函数)

  • evaluate函数需要一个可调用的对象(函数)。
  • 这个函数接收inputs字典,必须返回一个字典(通常包含output)。
  • 你可以在这里进行 Prompt 组装、解析 JSON 等预处理/后处理逻辑。

Step 4:evaluate(核心)

这是 LangSmith 的魔法所在。它会:

  1. 拉取数据集中的每一条例子。
  2. 并发调用你的predict函数。
  3. 将 Input, Output, Latency (耗时), Token Usage 等信息全部上传到云端。
  4. 生成一个唯一的Experiment (实验)链接。

5. 查看结果

  1. 运行脚本后,控制台会输出一个 URL。
  2. 点击进入 LangSmith 网页。
  3. 你可以看到一个对比视图
    • 每一行是一个测试用例(Prompt)。
    • 每一列是一个实验(Gemini vs DeepSeek)。
  4. 你可以直观地看到:
    • 哪个模型回答得更准确?
    • 哪个模型速度更快(Latency)?
    • 哪个模型更啰嗦?

通过这种方式,原本凭感觉的“模型好坏”,变成了可视化、可量化的数据。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:50:16

一个人能保持松弛感的来源

一个人能在任何事中保持松弛感,其根源并非源于对结果的不在乎或天生的淡定,而是一种**深刻的内心秩序和内在力量的展现**。它不是漂浮在表面的技巧,而是扎根于内心的稳定系统。 这种“随时随地”的松弛感,通常来源于以下几个相互关…

作者头像 李华
网站建设 2026/4/17 17:07:40

官网-工伤保险条例

官网:工伤保险条例_中华人民共和国人力资源和社会保障部 第一章 总 则* 第一条 为了保障因工作遭受事故伤害或者患职业病的职工获得医疗救治和经济补偿,促进工伤预防和职业康复,分散用人单位的工伤风险,制定本条例。 第二条 中华人民共和国境内的企业、事业单位、社会团…

作者头像 李华
网站建设 2026/4/18 12:40:25

官网-女职工劳动保护特别规定

官网:女职工劳动保护特别规定(国务院令第619号) 行政法规_ 法律法规 _中国政府网 第一条 为了减少和解决女职工在劳动中因生理特点造成的特殊困难,保护女职工健康,制定本规定。 第二条 中华人民共和国境内的国家机关、企业、事业单位、社会团体、个体经济组织以及其他…

作者头像 李华
网站建设 2026/4/18 4:19:52

如何作为初学者接近复杂的数据科学主题

原文:towardsdatascience.com/how-to-approach-complex-data-science-topics-as-a-beginner-33f60b657ba2?sourcecollection_archive---------6-----------------------#2024-07-25 https://towardsdatascience.medium.com/?sourcepost_page---byline--33f60b657b…

作者头像 李华
网站建设 2026/4/17 3:23:12

基于Spring Boot的社区失物招领系统的设计与实现毕设源码

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。 一、研究目的 本研究旨在设计并实现一个基于Spring Boot框架的社区失物招领系统,以满足现代社区管理中对失物招领功能的需求。具体研究目的如下: 首…

作者头像 李华
网站建设 2026/4/17 21:01:01

核工业检测系统通信链路的国产化元器件安全等级评估

摘要:核能设施数字化仪控系统对总线通信链路的功能安全性与抗辐照能力提出了严苛要求,尤其是在反应堆本体及乏燃料池等高辐射场环境中。本文以国科安芯推出的AS32S601型MCU与ASM1042S2S型CANFD收发器为研究对象,基于质子加速器单粒子效应试验…

作者头像 李华