如何像使用Openai API那样使用豆包的图片和视频API-平芜编程栈

图片

下面给出测试的代码：

import os from volcenginesdkarkruntime import Ark import os from openai import OpenAI # 加载.env文件 try:from dotenv import load_dotenv # 指定.env文件路径（相对于当前文件） env_path=os.path.join(os.path.dirname(__file__),'.env')load_dotenv(env_path)except ImportError:pass # 从环境变量中获取您的API KEY，配置方法见：https://www.volcengine.com/docs/82379/1399008api_key=os.getenv('ARK_API_KEY')ifnot api_key:print("❌ 错误: 未找到 ARK_API_KEY 环境变量")print(" 请确保在 backend/.env 文件中设置了 ARK_API_KEY")exit(1)client=Ark(base_url='https://ark.cn-beijing.volces.com/api/v3',api_key=os.getenv('ARK_API_KEY'),)response=client.responses.create(model="doubao-seed-1-8-251228",input=[{"role":"user","content":[{"type":"input_image","image_url":"https://ark-project.tos-cn-beijing.volces.com/doc_image/ark_demo_img_1.png"},{"type":"input_text","text":"支持输入图片的模型系列是哪个？"},],}])print(response)

下面这一段非常重要，需要使用load_dotenv, 后面才是api_key = os.getenv('ARK_API_KEY')

import os from volcenginesdkarkruntime import Ark import os from openai import OpenAI # 加载.env文件 try:from dotenv import load_dotenv # 指定.env文件路径（相对于当前文件） env_path=os.path.join(os.path.dirname(__file__),'.env')load_dotenv(env_path)except ImportError:pass

上面代码运行结果如下：成功运行

Response(created_at=1768285927, error=None, id=‘resp_0217682859270354fe949375ac26682761f342713cef332331e7d’, incomplete_details=None, max_output_tokens=32768, model=‘doubao-seed-1-8-251228’, object=‘response’, output=[ResponseReasoningItem(id=‘rs_02176828592773000000000000000000000ffffac15433f3bceef’, summary=[Summary(text=‘用户现在需要解决的问题是找到支持输入图片的模型。首先看表格，输入列里的图像这一栏，Doubao-1.5-vision的图像输入是√，其他两个是×。所以看表格里的行，Doubao-1.5-vision的输入图像是支持的，所以答案是这个模型。现在整理一下，看清楚表格内容：\n\n模型系列里，Doubao-1.5-pro的输入图像是×，lite也是×，vision是√，所以支持输入图片的是Doubao-1.5-vision。’, type=‘summary_text’)], type=‘reasoning’, status=‘completed’), ResponseOutputMessage(type=‘message’, role=‘assistant’, content=[ResponseOutputText(type=‘output_text’, text=‘查看表格的“输入-图像”列可以看到：\n- Doubao-1.5-pro：×，不支持\n- Doubao-1.5-lite：×，不支持\n- Doubao-1.5-vision：√，支持\n\n所以支持输入图片的模型系列是Doubao-1.5-vision。’, annotations=None)], status=‘completed’, id=‘msg_02176828593083100000000000000000000ffffac15433f899bcc’, partial=None)], previous_response_id=None, thinking=None, service_tier=‘default’, status=‘completed’, temperature=None, tools=None, top_p=None, usage=ResponseUsage(input_tokens=494, input_tokens_details=InputTokensDetails(cached_tokens=0), output_tokens=199, output_tokens_details=OutputTokensDetails(reasoning_tokens=124), total_tokens=693, tool_usage=None, tool_usage_details=None), caching=ResponseCaching(type=‘disabled’, prefix=None), text=None, instructions=None, store=True, expire_at=1768545127, tool_choice=None, parallel_tool_calls=None, max_tool_calls=None, reasoning=None)

原图像是

视频

import os from volcenginesdkarkruntime import Ark import os from openai import OpenAI # 加载.env文件 try:from dotenv import load_dotenv # 指定.env文件路径（相对于当前文件） env_path=os.path.join(os.path.dirname(__file__),'.env')load_dotenv(env_path)except ImportError:pass # 从环境变量中获取您的API KEY，配置方法见：https://www.volcengine.com/docs/82379/1399008api_key=os.getenv('ARK_API_KEY')ifnot api_key:print("❌ 错误: 未找到 ARK_API_KEY 环境变量")print(" 请确保在 backend/.env 文件中设置了 ARK_API_KEY")exit(1)client=Ark(base_url='https://ark.cn-beijing.volces.com/api/v3',api_key=os.getenv('ARK_API_KEY'),)response=client.responses.create(model="doubao-seed-1-8-251228",input=[{"role":"user","content":[{"type":"input_video","video_url":"https://ark-project.tos-cn-beijing.volces.com/doc_video/ark_vlm_video_input.mp4","fps":1}],}])print(response)

结果

Response(created_at=1768286241, error=None, id=‘resp_021768286238926d6b0e46812eb6ca5f421e6552139c58ccacbf7’, incomplete_details=None, max_output_tokens=32768, model=‘doubao-seed-1-6-251015’, object=‘response’, output=[ResponseReasoningItem(id=‘rs_02176828624193000000000000000000000ffffac15b0a93b6234’, summary=[Summary(text=‘\n用户现在需要我把这个视频的内容描述出来，要详细一点。首先看视频里的元素：大本钟（伊丽莎白塔），伦敦的街道，车流，时间应该是傍晚或者清晨，因为天色有点暗但有光线。首先，画面的主体是大本钟，它在左侧，建筑风格很经典。然后右侧是繁忙的街道，有很多车，包括红色的双层巴士，这是伦敦的标志。背景是城市天际线，高楼大厦，天空有云，颜色是暖色调，可能是日落时分。\n\n接下来看时间流逝：视频里时钟的指针在移动，说明时间在变化。车流也在持续移动，红色巴士向前行驶。画面右下角有“AI生成”的字样，所以要提到这是AI生成的视频。\n\n需要把这些元素组合起来，描述每个部分的动态和静态。比如大本钟的细节，街道的繁忙，车辆的流动，时间的变化，整体的氛围。要注意顺序，从整体到局部，或者按空间位置来描述。\n\n现在组织语言：视频展示了伦敦标志性建筑大本钟（伊丽莎白塔）的场景，时间设定在黄昏或黎明时分，天空被暖色调的云层覆盖，背景是现代化的城市天际线。画面左侧，大本钟矗立在河边，钟面上的指针缓慢移动，显示时间在流逝。右侧的街道上车流密集，包括一辆醒目的红色双层巴士在内的各种车辆在道路上有序行驶，车灯亮起，形成流动的光带。整个场景呈现出城市的繁忙与历史建筑的静谧对比，右下角标注有“AI生成”字样，表明该视频由人工智能技术制作。\n\n检查一下，有没有遗漏的细节？比如车流的方向，大本钟的位置，天空的颜色，时间的变化（指针移动），红色巴士的存在。这些都提到了。然后确保描述流畅，符合视频的实际内容。嗯，应该可以了。’, type=‘summary_text’)], type=‘reasoning’, status=‘completed’), ResponseOutputMessage(type=‘message’, role=‘assistant’, content=[ResponseOutputText(type=‘output_text’, text=‘视频展示了伦敦标志性建筑大本钟（伊丽莎白塔）的场景，时间设定在黄昏或黎明时分，天空被暖色调的云层覆盖，背景是现代化的城市天际线。画面左侧，大本钟矗立在河边，钟面上的指针缓慢移动，显示时间在流逝。右侧的街道上车流密集，包括一辆醒目的红色双层巴士在内的各种车辆在道路上有序行驶，车灯亮起，形成流动的光带。整个场景呈现出城市的繁忙与历史建筑的静谧对比，右下角标注有“AI生成”字样，表明该视频由人工智能技术制作。’, annotations=None)], status=‘completed’, id=‘msg_02176828625371100000000000000000000ffffac15b0a96c6d48’, partial=None)], previous_response_id=None, thinking=None, service_tier=‘default’, status=‘completed’, temperature=None, tools=None, top_p=None, usage=ResponseUsage(input_tokens=10385, input_tokens_details=InputTokensDetails(cached_tokens=0), output_tokens=532, output_tokens_details=OutputTokensDetails(reasoning_tokens=408), total_tokens=10917, tool_usage=None, tool_usage_details=None), caching=ResponseCaching(type=‘disabled’, prefix=None), text=None, instructions=None, store=True, expire_at=1768545438, tool_choice=None, parallel_tool_calls=None, max_tool_calls=None, reasoning=None)

后记

2026年1月13日于上海。

如何像使用Openai API那样使用豆包的图片和视频API

图片

视频

后记

《创业之路》-840-那些管理良好、资源充足、客户导向明确、持续创新的优秀企业，却在面对某些新技术或市场变革时走向失败。其根源不在于企业“做错了什么”，而恰恰是因为它们“做得太对。这符合万物演进的规律

宏智树 AI PPT 黑科技：开题 / 答辩 / 汇报 30 分钟速成，学术演示告别 “无效内卷”！

RHCSA第一次练习

HunyuanVideo-Foley部署案例：企业级视频内容生产自动化实践

【图像加密】Arnold置乱变换图像加密实验附matlab代码

SillyRAT深度剖析：从开源工具到企业安全防线的实战思考