news 2026/5/12 16:00:02

ES批量写入数据:从兼容旧版到适配ES8的最佳实践

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ES批量写入数据:从兼容旧版到适配ES8的最佳实践

在处理海量数据时,单条插入Elasticsearch(ES)就像用勺子舀水灌入大海,效率极低。批量写入(Bulk API)才是我们需要的“消防水管”。

最近在做数据迁移,需要将现有数据从ES6.7同步到ES8.13.4,并将分词器从Jieba切换到IK。在这个过程中,踩了一些关于版本兼容性的坑。今天就来分享一下ES8下如何高效进行批量写入,以及新版Python客户端的代码适配技巧

一、 为什么必须用批量写入?

简单算笔账:

  • 单条写入:每次写入都需要建立TCP连接 -> 认证 -> 解析请求 -> 写入磁盘 -> 返回响应。假设耗时10ms,写入10万条数据需要1000秒(约16分钟)
  • 批量写入:将多条数据打包成一个请求,减少了网络IO和握手开销。同样的数据可能只需10-30秒

性能提升不仅是倍数级的,还能显著降低ES集群的CPU压力。

二、 ES8.x 的重大变化:告别_type

如果你也是从ES6.7升级上来的,最大的痛点在于:Mapping Types 被彻底移除了

特性ES 6.7 及之前ES 7.x / 8.x
URL结构/index/type/_doc/id/index/_doc/id
Mapping支持多种Type (如user,blog)整个索引只有一种隐含Type (_doc)
Bulk Action需指定_type禁止指定_type

这意味着,旧代码里的"_type": "doc_type"必须彻底删除,否则ES8会直接报错MapperParsingException

三、 实战代码:适配ES8 + IK分词 + 批量写入

下面是一套完整的生产级代码示例,包含索引创建(IK分词版)批量写入工具类

1. 索引创建:切换为 IK 分词

我们要创建一个支持IK分词、同义词和停用词的索引。注意settingsmappings的结构变化。

fromelasticsearchimportElasticsearch# 连接ES8es=Elasticsearch(hosts=["https://your-es-host:9200"],basic_auth=("user","password"),verify_certs=False# 如果是自签名证书)index_name="my_blog_index"# 删除旧索引(如果存在)ifes.indices.exists(index=index_name):es.indices.delete(index=index_name)# 定义IK分词配置body={"settings":{"analysis":{"filter":{"ik_stop_filter":{"type":"stop","stopwords_path":"analysis/ik/stopwords.txt"# 需上传到ESconfig目录},"ik_synonym_filter":{"type":"synonym","synonyms_path":"analysis/ik/synonyms.txt"# 需上传到ESconfig目录}},"analyzer":{"ik_index_analyzer":{"tokenizer":"ik_max_word","filter":["ik_stop_filter","ik_synonym_filter","lowercase"]},"ik_search_analyzer":{"tokenizer":"ik_smart","filter":["ik_stop_filter","ik_synonym_filter","lowercase"]}}}},"mappings":{"properties":{# 注意:这里直接是 properties,没有 doc_type"title":{"type":"text","analyzer":"ik_index_analyzer","search_analyzer":"ik_search_analyzer"},"content":{"type":"text","analyzer":"ik_index_analyzer","search_analyzer":"ik_search_analyzer"},"blog_id":{"type":"keyword"}# ... 其他字段}}}es.indices.create(index=index_name,body=body)
2. 批量写入工具类(重点)

这是核心部分。我们封装一个类,自动处理ID生成和错误重试。

fromelasticsearchimporthelpersfromelasticsearch.exceptionsimportBulkIndexErrorclassESBulkWriter:def__init__(self,es_client):self.es=es_clientdefbulk_insert(self,index_name,data_list,id_field=None):""" ES8 兼容的批量写入方法 :param index_name: 索引名 :param data_list: 数据列表 [{}, {}, ...] :param id_field: 指定作为文档ID的字段名(如 "blog_id"),若为None则由ES自动生成 """actions=[]fordataindata_list:# 1. 构建基础Actionaction={"_index":index_name,"_source":data# "_type": "_doc" <-- ES8 Python客户端会自动处理,无需显式写出!}# 2. 处理ID:如果指定了id_field且数据中存在该字段,则使用它作为文档IDifid_fieldandid_fieldindata:action["_id"]=str(data[id_field])# ES8建议ID转为字符串actions.append(action)# 3. 执行批量写入(带基础错误统计)try:success_count,failed_count=helpers.bulk(self.es,actions,stats_only=True,# 只返回统计信息,不抛异常raise_on_error=False,# 遇到错误继续执行request_timeout=60)print(f"写入完成: 成功{success_count}条, 失败{failed_count}条")# 如果需要详细错误信息,可以设置 raise_on_error=True 或遍历失败项exceptBulkIndexErrorase:print(f"批量写入发生严重错误:{e}")# 这里可以添加逻辑:记录失败的actions到日志文件以便重试exceptExceptionase:print(f"发生未知异常:{e}")# 使用示例writer=ESBulkWriter(es)my_data=[{"blog_id":"1001","title":"Elasticsearch 8.0 发布","content":"..."},{"blog_id":"1002","title":"IK分词器使用指南","content":"..."}]# 使用 blog_id 作为文档ID,避免重复writer.bulk_insert("my_blog_index",my_data,id_field="blog_id")

四、 进阶技巧:提升写入稳定性

如果数据量达到百万级,上面的基础版可能还不够。建议增加以下机制:

  1. 分块批量(Chunking):不要一次性把100万条数据丢进内存。每1000-5000条切分为一个Chunk进行写入。
  2. 重试机制:遇到ES集群繁忙(如429 Too Many Requests或队列满)时,使用指数退避算法进行重试。
  3. 刷新间隔:在大量导入期间,临时将index.refresh_interval设置为-1(禁止刷新)或30s,导入完成后再改回5s,能大幅减少段合并的压力。

总结

从ES6迁移到ES8,批量写入的代码修改主要就是**“做减法”**:

  1. 减掉_type字段。
  2. 减掉复杂的异常捕获(helpers.bulk已经很强大)。
  3. 加上对id_field的灵活处理。

掌握了这套模板,无论是做数据迁移还是日常业务开发,都能让你的数据写入效率飞起来!


如果觉得有帮助,欢迎点赞收藏!关于IK分词的配置文件细节,我会在下一篇文章详细讲解。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/11 23:31:20

Open-AutoGLM数据安全真相曝光:5个你必须立即检查的配置项

第一章&#xff1a;Open-AutoGLM有没有数据安全问题Open-AutoGLM 作为一款开源的自动化大语言模型工具&#xff0c;在提升开发效率的同时&#xff0c;其数据安全问题也受到广泛关注。由于其设计目标是支持本地部署与远程调用&#xff0c;数据在传输、处理和存储过程中可能存在潜…

作者头像 李华
网站建设 2026/4/28 3:41:20

python选课系统

目录已开发项目效果实现截图开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;已开发项目效果实现截图 同行可拿货,招校园代理 python选课系统 开发技术路线 开发语言&#xff1a;Pyt…

作者头像 李华
网站建设 2026/5/11 11:37:52

python校园资料在线分享网站

目录已开发项目效果实现截图开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;已开发项目效果实现截图 同行可拿货,招校园代理 python校园资料在线分享网站 开发技术路线 开发语言&am…

作者头像 李华
网站建设 2026/5/3 4:16:50

得物Java面试被问:Fork/Join框架的使用场景

一、核心特性与适用原则 1. 适用场景特征 java 复制 下载 // 适合Fork/Join的任务必须满足&#xff1a; 1. 可递归分解&#xff1a;任务可以不断拆分成更小的子任务 2. 子任务独立性&#xff1a;任务之间没有依赖或依赖很少 3. 结果可合并&#xff1a;子任务结果能够合并成最…

作者头像 李华
网站建设 2026/5/10 4:24:49

Java 小白面试记:从Spring Boot到大数据处理

文章内容 场景&#xff1a; 在一家知名的互联网大厂&#xff0c;Java小白程序员超好吃正在接受面试。面试官以严肃的态度开始了提问。 第一轮提问&#xff1a;Web框架与微服务 面试官&#xff1a;请你谈谈在Spring Boot中如何实现一个简单的RESTful API&#xff1f; 超好吃&…

作者头像 李华
网站建设 2026/5/10 18:09:49

**手机写小说软件哪家靠谱2025推荐,适配不同创作场景的实

手机写小说软件哪家靠谱2025推荐&#xff0c;适配不同创作场景的实战指南在2025年&#xff0c;移动端创作已成为内容创作者的常态。据《2025中国网络文学发展报告》显示&#xff0c;超过68%的网文作者会使用手机进行碎片化创作或灵感记录&#xff0c;但其中52%的用户面临工具功…

作者头像 李华