news 2026/4/15 15:15:31

ES 的 4种分页方式,如何选择?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ES 的 4种分页方式,如何选择?

在 Elasticsearch 中,有 4种常见的分页方法,这篇文章,我们将分析每种方法的优缺点以及我们该如何选择。

1. 使用fromsize

使用fromsize是最常用的分页方式,通过设置from参数指定从结果集的哪个位置开始,size参数指定返回多少条记录。使用语法如下:

GET /index/_search { "from": 10, "size": 10, "query": { "match": { "field": "value" } } }

优点

  • 简单易用:实现起来非常直观,适用于大多数基本的分页需求。

  • 广泛支持:Elasticsearch 搜索 API 默认支持这种分页方式。

缺点

  • 性能问题:对于深页(高from值),性能会显著下降,因为 Elasticsearch 需要跳过前面的from条记录。这会导致查询时间增加,尤其是当from值较大时。

  • 资源消耗:高from值会消耗更多的内存和CPU资源,可能影响集群性能。

适用场景

  • 浅分页:适用于前几页的查询(例如,第1页到第10页)。

  • 小数据集:当数据量较小且分页需求不复杂时。

2. 使用search_after

search_after基于排序值实现深度分页,通过提供上一个页面的排序值来继续检索下一页的数据。使用语法如下:

GET /index/_search { "size": 10, "query": { "match": { "field": "value" } }, "sort": [ { "timestamp": "asc" }, { "_id": "asc" } ], "search_after": [ "2023-01-01T00:00:00", "some_id" ] }

优点

  • 高效深度分页:相比from/sizesearch_after在处理深层分页时性能更好,不会随着页数增加而显著下降。

  • 去重性强:结合唯一排序字段(如_id),可以避免重复数据。

缺点

  • 状态管理:需要在客户端保存上一次查询返回的排序值,增加了实现复杂度。

  • 不可跳页:无法像传统分页那样直接跳转到任意页,只能顺序翻页。

适用场景

  • 深度分页:适用于需要访问大量数据且需要高效性能的场景。

  • 数据连续流:适合数据流式访问,如日志检索、实时数据分析等。

3. 使用 Scroll API

Scroll API适用于处理大量数据的批量检索,通过保持一个在查询时刻的快照,允许用户遍历整个结果集。使用语法如下:

POST /index/_search?scroll=1m { "size": 100, "query": { "match_all": {} } } # 获取后续数据 POST /_search/scroll { "scroll": "1m", "scroll_id": "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAA..." }

优点

  • 处理大量数据:适合导出或批量处理大量数据,性能稳定。

  • 避免跳页问题:通过持续的快照避免数据在检索过程中变化影响结果。

缺点

  • 资源消耗:保持 scroll 上下文会占用集群资源,尤其是在并发请求较高时。

  • 不适合实时搜索:Scroll API 主要用于一次性检索,不适合用户交互的分页需求。

适用场景

  • 批量数据导出:如数据迁移、备份等。

  • 大规模分析:需要一次性处理大量文档的场景。

4. 使用 Point in Time

使用 Point in Time (PIT)提供了一种基于时间点的查询方式,允许在多个分页请求中维持一致的视图。使用语法如下:

POST /index/_search?pit=true&size=10 { "sort": [...], "query": { ... } } # 后续请求使用 pit_id POST /index/_search { "pit": { "id": "some_pit_id", "keep_alive": "1m" }, "sort": [...], "query": { ... }, "search_after": [ ... ] }

优点

  • 一致性视图:在多个分页请求中保持数据的一致性,即使索引发生变化。

  • 结合 search_after 使用:提高深度分页的效率和一致性。

缺点

  • 复杂度增加:需要管理 PIT 会话,包括生命周期和资源释放。

  • 资源消耗:维持 PIT 会话会占用集群资源。

适用场景

  • 需要一致性分页:如多用户同时分页浏览数据,确保每个用户看到的数据一致。

  • 结合 search_after:需要高效的深度分页且保持一致视图的场景。

5. 如何选择?

5.1 根据分页深度选择

  • 浅分页(前几页):使用fromsize,实现简单且性能可接受。

  • 深度分页:使用search_after或结合Point in Time,提高性能并避免资源浪费。

5.2 根据数据一致性要求

  • 无需严格一致性fromsize已足够,适用于数据不频繁变动的场景。

  • 需要一致性视图:使用Point in Time,确保分页过程中数据的一致性。

5.3 根据使用场景

  • 用户交互分页:通常使用fromsize,适合大多数 Web 应用分页需求。

  • 批量处理或导出:使用 Scroll API,适合一次性处理大量数据的任务。

5.4 根据资源和性能考虑

  • 资源有限:避免使用 Scroll API,尤其是在高并发环境下。

  • 性能优化:对于频繁的深度分页,search_afterPoint in Time是更优的选择。

6. 总结

本文,我们介绍了 ES的4种分页方式:

  • fromsize:适用于浅分页,简单易用,但不适合深度分页。

  • search_after:适合深度分页,性能更优,但实现复杂度略高,且不支持随机跳页。

  • Scroll API:适用于批量处理和导出,不适合实时用户交互的分页需求。

  • Point in Time (PIT):提供一致的分页视图,适合需要数据一致性的深度分页场景。

在实际开发中,我们需要根据具体的业务需求、数据量、分页深度和系统资源,选择最合适的分页方法,以达到最佳的性能和用户体验。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/10 7:35:29

华南地区产业带的分布情况

华南地区,尤其是广东省,是中国制造业最为密集、外向程度最高、市场化程度最强的区域,这里的产业发展并非是“遍地开花”的状态,而是呈现出高度集聚、专业分工明确的产业带集群,堪称全球供应链的“反应中枢”。1. 珠三角…

作者头像 李华
网站建设 2026/4/13 17:22:01

2025媒体投放平台权威评测:行业三甲榜单揭晓,赋能品牌增长路径

当下,企业营销正承受着流量价格持续走高与用户关注度日益分散的双重压力。传统广告模式的边际效益递减,迫使品牌主必须更审慎地评估每一次传播的投资回报。在此背景下,现代媒体投放平台的价值已发生根本性演变——它们不再是简单的发布渠道&a…

作者头像 李华
网站建设 2026/4/6 15:15:40

谷歌发布40页AI Agent白皮书,简单易懂的智能体认知架构

简单易懂,谷歌发布生成式AI智能体白皮书谷歌终于发布了官方AI Agent白皮书,快来一起研读谷歌发布的AI Agent白皮书,了解智能体一定不要错过谷歌官方出品的AI Agent白皮书,简单易懂的智能体认知架构2025智能体商用元年来袭&#xf…

作者头像 李华
网站建设 2026/4/8 9:07:44

【一招根治】彻底退出Windows 10/11微软账户

作者:Git码农学堂 | 解决时间:2025年12月问题背景 相信很多小伙伴都遇到过这个让人抓狂的问题:一不小心把自己的个人微软账户登录到了公司电脑上,想退出却发现那个邮箱像狗皮膏药一样粘在系统里,怎么都去不掉&#xff…

作者头像 李华
网站建设 2026/4/14 18:37:52

从“证书获取“到“能力建设“:六西格玛培训的价值实现路径

在制造业质量管理的实践中,一个有趣的现象值得深思:两家同行业的包装企业同时派员工参加六西格玛绿带培训,三个月后,A公司的学员成功主导了产线损耗率降低42%的改进项目,而B公司的学员却连基础数据收集工作都未能完成。…

作者头像 李华
网站建设 2026/4/10 19:42:32

基于阶梯式碳机制与电制氢的综合能源系统优化调度:热电联产与氢能效益研究

MATLAB 代码:考虑阶梯式碳机制与电制氢的综合能源系统热电优化 关键词:碳 电制氢 阶梯式碳 综合能源系统 热电优化 参考文档:《考虑阶梯式碳机制与电制氢的综合能源系统热电优化》基本复现 仿真平台:MATLABCPLEX 主要内容:代码主要做的是一个考虑阶梯式碳机制的电热综合能源…

作者头像 李华