news 2026/4/3 13:34:24

如何像使用Openai API那样使用豆包的图片和视频API

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何像使用Openai API那样使用豆包的图片和视频API

图片

下面给出测试的代码:

import os from volcenginesdkarkruntime import Ark import os from openai import OpenAI # 加载.env文件 try:from dotenv import load_dotenv # 指定.env文件路径(相对于当前文件) env_path=os.path.join(os.path.dirname(__file__),'.env')load_dotenv(env_path)except ImportError:pass # 从环境变量中获取您的API KEY,配置方法见:https://www.volcengine.com/docs/82379/1399008api_key=os.getenv('ARK_API_KEY')ifnot api_key:print("❌ 错误: 未找到 ARK_API_KEY 环境变量")print(" 请确保在 backend/.env 文件中设置了 ARK_API_KEY")exit(1)client=Ark(base_url='https://ark.cn-beijing.volces.com/api/v3',api_key=os.getenv('ARK_API_KEY'),)response=client.responses.create(model="doubao-seed-1-8-251228",input=[{"role":"user","content":[{"type":"input_image","image_url":"https://ark-project.tos-cn-beijing.volces.com/doc_image/ark_demo_img_1.png"},{"type":"input_text","text":"支持输入图片的模型系列是哪个?"},],}])print(response)

下面这一段非常重要,需要使用load_dotenv, 后面才是api_key = os.getenv('ARK_API_KEY')

import os from volcenginesdkarkruntime import Ark import os from openai import OpenAI # 加载.env文件 try:from dotenv import load_dotenv # 指定.env文件路径(相对于当前文件) env_path=os.path.join(os.path.dirname(__file__),'.env')load_dotenv(env_path)except ImportError:pass

上面代码运行结果如下:成功运行

Response(created_at=1768285927, error=None, id=‘resp_0217682859270354fe949375ac26682761f342713cef332331e7d’, incomplete_details=None, max_output_tokens=32768, model=‘doubao-seed-1-8-251228’, object=‘response’, output=[ResponseReasoningItem(id=‘rs_02176828592773000000000000000000000ffffac15433f3bceef’, summary=[Summary(text=‘用户现在需要解决的问题是找到支持输入图片的模型。首先看表格,输入列里的图像这一栏,Doubao-1.5-vision的图像输入是√,其他两个是×。所以看表格里的行,Doubao-1.5-vision的输入图像是支持的,所以答案是这个模型。现在整理一下,看清楚表格内容:\n\n模型系列里,Doubao-1.5-pro的输入图像是×,lite也是×,vision是√,所以支持输入图片的是Doubao-1.5-vision。’, type=‘summary_text’)], type=‘reasoning’, status=‘completed’), ResponseOutputMessage(type=‘message’, role=‘assistant’, content=[ResponseOutputText(type=‘output_text’, text=‘查看表格的“输入-图像”列可以看到:\n- Doubao-1.5-pro:×,不支持\n- Doubao-1.5-lite:×,不支持\n- Doubao-1.5-vision:√,支持\n\n所以支持输入图片的模型系列是Doubao-1.5-vision。’, annotations=None)], status=‘completed’, id=‘msg_02176828593083100000000000000000000ffffac15433f899bcc’, partial=None)], previous_response_id=None, thinking=None, service_tier=‘default’, status=‘completed’, temperature=None, tools=None, top_p=None, usage=ResponseUsage(input_tokens=494, input_tokens_details=InputTokensDetails(cached_tokens=0), output_tokens=199, output_tokens_details=OutputTokensDetails(reasoning_tokens=124), total_tokens=693, tool_usage=None, tool_usage_details=None), caching=ResponseCaching(type=‘disabled’, prefix=None), text=None, instructions=None, store=True, expire_at=1768545127, tool_choice=None, parallel_tool_calls=None, max_tool_calls=None, reasoning=None)

原图像是

视频

import os from volcenginesdkarkruntime import Ark import os from openai import OpenAI # 加载.env文件 try:from dotenv import load_dotenv # 指定.env文件路径(相对于当前文件) env_path=os.path.join(os.path.dirname(__file__),'.env')load_dotenv(env_path)except ImportError:pass # 从环境变量中获取您的API KEY,配置方法见:https://www.volcengine.com/docs/82379/1399008api_key=os.getenv('ARK_API_KEY')ifnot api_key:print("❌ 错误: 未找到 ARK_API_KEY 环境变量")print(" 请确保在 backend/.env 文件中设置了 ARK_API_KEY")exit(1)client=Ark(base_url='https://ark.cn-beijing.volces.com/api/v3',api_key=os.getenv('ARK_API_KEY'),)response=client.responses.create(model="doubao-seed-1-8-251228",input=[{"role":"user","content":[{"type":"input_video","video_url":"https://ark-project.tos-cn-beijing.volces.com/doc_video/ark_vlm_video_input.mp4","fps":1}],}])print(response)

结果

Response(created_at=1768286241, error=None, id=‘resp_021768286238926d6b0e46812eb6ca5f421e6552139c58ccacbf7’, incomplete_details=None, max_output_tokens=32768, model=‘doubao-seed-1-6-251015’, object=‘response’, output=[ResponseReasoningItem(id=‘rs_02176828624193000000000000000000000ffffac15b0a93b6234’, summary=[Summary(text=‘\n用户现在需要我把这个视频的内容描述出来,要详细一点。首先看视频里的元素:大本钟(伊丽莎白塔),伦敦的街道,车流,时间应该是傍晚或者清晨,因为天色有点暗但有光线。首先,画面的主体是大本钟,它在左侧,建筑风格很经典。然后右侧是繁忙的街道,有很多车,包括红色的双层巴士,这是伦敦的标志。背景是城市天际线,高楼大厦,天空有云,颜色是暖色调,可能是日落时分。\n\n接下来看时间流逝:视频里时钟的指针在移动,说明时间在变化。车流也在持续移动,红色巴士向前行驶。画面右下角有“AI生成”的字样,所以要提到这是AI生成的视频。\n\n需要把这些元素组合起来,描述每个部分的动态和静态。比如大本钟的细节,街道的繁忙,车辆的流动,时间的变化,整体的氛围。要注意顺序,从整体到局部,或者按空间位置来描述。\n\n现在组织语言:视频展示了伦敦标志性建筑大本钟(伊丽莎白塔)的场景,时间设定在黄昏或黎明时分,天空被暖色调的云层覆盖,背景是现代化的城市天际线。画面左侧,大本钟矗立在河边,钟面上的指针缓慢移动,显示时间在流逝。右侧的街道上车流密集,包括一辆醒目的红色双层巴士在内的各种车辆在道路上有序行驶,车灯亮起,形成流动的光带。整个场景呈现出城市的繁忙与历史建筑的静谧对比,右下角标注有“AI生成”字样,表明该视频由人工智能技术制作。\n\n检查一下,有没有遗漏的细节?比如车流的方向,大本钟的位置,天空的颜色,时间的变化(指针移动),红色巴士的存在。这些都提到了。然后确保描述流畅,符合视频的实际内容。嗯,应该可以了。’, type=‘summary_text’)], type=‘reasoning’, status=‘completed’), ResponseOutputMessage(type=‘message’, role=‘assistant’, content=[ResponseOutputText(type=‘output_text’, text=‘视频展示了伦敦标志性建筑大本钟(伊丽莎白塔)的场景,时间设定在黄昏或黎明时分,天空被暖色调的云层覆盖,背景是现代化的城市天际线。画面左侧,大本钟矗立在河边,钟面上的指针缓慢移动,显示时间在流逝。右侧的街道上车流密集,包括一辆醒目的红色双层巴士在内的各种车辆在道路上有序行驶,车灯亮起,形成流动的光带。整个场景呈现出城市的繁忙与历史建筑的静谧对比,右下角标注有“AI生成”字样,表明该视频由人工智能技术制作。’, annotations=None)], status=‘completed’, id=‘msg_02176828625371100000000000000000000ffffac15b0a96c6d48’, partial=None)], previous_response_id=None, thinking=None, service_tier=‘default’, status=‘completed’, temperature=None, tools=None, top_p=None, usage=ResponseUsage(input_tokens=10385, input_tokens_details=InputTokensDetails(cached_tokens=0), output_tokens=532, output_tokens_details=OutputTokensDetails(reasoning_tokens=408), total_tokens=10917, tool_usage=None, tool_usage_details=None), caching=ResponseCaching(type=‘disabled’, prefix=None), text=None, instructions=None, store=True, expire_at=1768545438, tool_choice=None, parallel_tool_calls=None, max_tool_calls=None, reasoning=None)

后记

2026年1月13日于上海。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/2 16:20:44

《创业之路》-840-那些管理良好、资源充足、客户导向明确、持续创新的优秀企业,却在面对某些新技术或市场变革时走向失败。其根源不在于企业“做错了什么”,而恰恰是因为它们“做得太对。这符合万物演进的规律

一、“创新者的窘境”是什么?“创新者的窘境”(The Innovators Dilemma)指的是:那些管理良好、资源充足、客户导向明确、持续创新的优秀企业,却在面对某些新技术或市场变革时走向失败。这看似矛盾的现象,其…

作者头像 李华
网站建设 2026/4/2 10:04:24

RHCSA第一次练习

1.在VMware上创建虚拟机以及安装RHEL9操作系统,使用ssh进行远程连接 注意:最好以管理员权限进入VMware1.1创建虚拟机: 第一步:选择自定义->下一步到以下第二步第二步:选择稍后安装操作系统->一直下一步到第三步页…

作者头像 李华
网站建设 2026/3/21 18:32:45

HunyuanVideo-Foley部署案例:企业级视频内容生产自动化实践

HunyuanVideo-Foley部署案例:企业级视频内容生产自动化实践 随着AI生成技术的不断演进,音视频内容生产的自动化正成为企业降本增效的关键路径。传统音效制作依赖专业音频工程师手动匹配动作与声音,流程繁琐、周期长、成本高。尤其在短视频、…

作者头像 李华
网站建设 2026/3/27 17:01:27

【图像加密】Arnold置乱变换图像加密实验附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页:Matlab科研工作室 👇 关注我领取海量matlab电子书和数学建模资料 &#x1…

作者头像 李华
网站建设 2026/3/27 17:08:20

SillyRAT深度剖析:从开源工具到企业安全防线的实战思考

引言:当“教育工具”成为攻击者武器库 在网络安全攻防领域,远程访问工具(RAT)一直扮演着双重角色:既是攻击者渗透和控制的利器,也是安全研究人员理解威胁、构建防御体系的窗口。GitHub上开源的SillyRAT项目,以其Python…

作者头像 李华