首页 web前端 js教程 释放 MongoDB:为什么基于游标的分页每次都优于基于偏移量的分页!

释放 MongoDB:为什么基于游标的分页每次都优于基于偏移量的分页!

Sep 04, 2024 pm 10:43 PM

分页是处理大型数据集时任何数据库操作的关键部分。它允许您将数据分割成可管理的块,从而更容易浏览、处理和显示。 MongoDB 提供了两种常见的分页方法:基于偏移量和基于游标。虽然这两种方法具有相同的目的,但它们在性能和可用性方面显着不同,尤其是随着数据集的增长。

让我们深入研究这两种方法,看看为什么基于光标的分页通常优于基于偏移量的分页。

1. 基于偏移量的分页

基于偏移量的分页非常简单。它检索从给定偏移量开始的特定数量的记录。例如,第一页可能检索记录 0-9,第二页检索记录 10-19,依此类推。

但是,这种方法有一个显着的缺点:当您移动到更高的页面时,查询会变得更慢。这是因为数据库需要跳过前几页的记录,这涉及到扫描它们。

这是基于偏移量的分页代码:

async function offset_based_pagination(params) {
  const { page = 5, limit = 100 } = params;
  const skip = (page - 1) * limit;
  const results = await collection.find({}).skip(skip).limit(limit).toArray();
  console.log(`Offset-based pagination (Page ${page}):`, results.length, "page", page, "skip", skip, "limit", limit);
}

2. 基于光标的分页

基于游标的分页,也称为键集分页,依赖于唯一标识符(例如 ID 或时间戳)来对记录进行分页。它不会跳过一定数量的记录,而是使用最后检索到的记录作为获取下一组记录的参考点。

这种方法更加高效,因为它避免了扫描当前页面之前的记录。因此,无论您深入数据集多深,查询时间都保持一致。

这是基于光标的分页代码:

async function cursor_based_pagination(params) {
  const { lastDocumentId, limit = 100 } = params;
  const query = lastDocumentId ? { documentId: { $gt: lastDocumentId } } : {};
  const results = await collection
    .find(query)
    .sort({ documentId: 1 })
    .limit(limit)
    .toArray();
  console.log("Cursor-based pagination:", results.length);
}

在此示例中,lastDocumentId 是上一页中最后一个文档的 ID。当查询下一页时,数据库会获取ID大于该值的文档,确保无缝过渡到下一组记录。

3. 性能比较

让我们看看这两种方法如何在大型数据集上执行。

async function testMongoDB() {
    console.time("MongoDB Insert Time:");
    await insertMongoDBRecords();
    console.timeEnd("MongoDB Insert Time:");

  // Create an index on the documentId field
  await collection.createIndex({ documentId: 1 });
  console.log("Index created on documentId field");

  console.time("Offset-based pagination Time:");
  await offset_based_pagination({ page: 2, limit: 250000 });
  console.timeEnd("Offset-based pagination Time:");

  console.time("Cursor-based pagination Time:");
  await cursor_based_pagination({ lastDocumentId: 170000, limit: 250000 });
  console.timeEnd("Cursor-based pagination Time:");

  await client.close();
}

Image description

在性能测试中,您会注意到基于偏移分页需要更长,因为页码增加,而光标基于的分页保持一致,使其成为大型数据集的更好选择。此示例还展示了索引的强大功能。尝试删除索引然后查看结果!

为什么索引很重要

如果没有索引,MongoDB 将需要执行集合扫描,这意味着它必须查看集合中的每个文档以查找相关数据。这是低效的,尤其是当数据集增长时。索引可以让 MongoDB 高效地找到符合您查询条件的文档,显着提升查询性能。

在基于游标的分页上下文中,索引可确保快速获取下一组文档(基于 documentId),并且不会随着更多文档添加到集合中而降低性能。

结论

虽然基于偏移的分页很容易实现,但由于需要扫描记录,因此对于大型数据集来说它可能会变得低效。另一方面,基于游标的分页提供了更具可扩展性的解决方案,无论数据集大小如何,都可以保持性能一致。如果您在 MongoDB 中处理大型集合,值得考虑基于游标的分页以获得更流畅、更快的体验。

这是供您在本地运行的完整index.js:

const { MongoClient } = require("mongodb");
const uri = "mongodb://localhost:27017";
const client = new MongoClient(uri);
client.connect();
const db = client.db("testdb");
const collection = db.collection("testCollection");

async function insertMongoDBRecords() {
  try {
    let bulkOps = [];

    for (let i = 0; i < 2000000; i++) {
      bulkOps.push({
        insertOne: {
          documentId: i,
          name: `Record-${i}`,
          value: Math.random() * 1000,
        },
      });

      // Execute every 10000 operations and reinitialize
      if (bulkOps.length === 10000) {
        await collection.bulkWrite(bulkOps);
        bulkOps = [];
      }
    }

    if (bulkOps.length > 0) {
      await collection.bulkWrite(bulkOps);
      console.log("? Inserted records till now -> ", bulkOps.length);
    }

    console.log("MongoDB Insertion Completed");
  } catch (err) {
    console.error("Error in inserting records", err);
  }
}

async function offset_based_pagination(params) {
  const { page = 5, limit = 100 } = params;
  const skip = (page - 1) * limit;
  const results = await collection.find({}).skip(skip).limit(limit).toArray();
  console.log(`Offset-based pagination (Page ${page}):`, results.length, "page", page, "skip", skip, "limit", limit);
}

async function cursor_based_pagination(params) {
  const { lastDocumentId, limit = 100 } = params;
  const query = lastDocumentId ? { documentId: { $gt: lastDocumentId } } : {};
  const results = await collection
    .find(query)
    .sort({ documentId: 1 })
    .limit(limit)
    .toArray();
  console.log("Cursor-based pagination:", results.length);
}

async function testMongoDB() {
  console.time("MongoDB Insert Time:");
  await insertMongoDBRecords();
  console.timeEnd("MongoDB Insert Time:");

  // Create an index on the documentId field
  await collection.createIndex({ documentId: 1 });
  console.log("Index created on documentId field");

  console.time("Offset-based pagination Time:");
  await offset_based_pagination({ page: 2, limit: 250000 });
  console.timeEnd("Offset-based pagination Time:");

  console.time("Cursor-based pagination Time:");
  await cursor_based_pagination({ lastDocumentId: 170000, limit: 250000 });
  console.timeEnd("Cursor-based pagination Time:");

  await client.close();
}

testMongoDB();

以上是释放 MongoDB:为什么基于游标的分页每次都优于基于偏移量的分页!的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

Rimworld Odyssey如何钓鱼
1 个月前 By Jack chen
Kimi K2:最强大的开源代理模型
1 个月前 By Jack chen
我可以有两个支付帐户吗?
1 个月前 By 下次还敢

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Laravel 教程
1602
29
PHP教程
1506
276
如何在node.js中提出HTTP请求? 如何在node.js中提出HTTP请求? Jul 13, 2025 am 02:18 AM

在Node.js中发起HTTP请求有三种常用方式:使用内置模块、axios和node-fetch。1.使用内置的http/https模块无需依赖,适合基础场景,但需手动处理数据拼接和错误监听,例如用https.get()获取数据或通过.write()发送POST请求;2.axios是基于Promise的第三方库,语法简洁且功能强大,支持async/await、自动JSON转换、拦截器等,推荐用于简化异步请求操作;3.node-fetch提供类似浏览器fetch的风格,基于Promise且语法简单

JavaScript数据类型:原始与参考 JavaScript数据类型:原始与参考 Jul 13, 2025 am 02:43 AM

JavaScript的数据类型分为原始类型和引用类型。原始类型包括string、number、boolean、null、undefined和symbol,其值不可变且赋值时复制副本,因此互不影响;引用类型如对象、数组和函数存储的是内存地址,指向同一对象的变量会相互影响。判断类型可用typeof和instanceof,但需注意typeofnull的历史问题。理解这两类差异有助于编写更稳定可靠的代码。

过滤JavaScript中的一系列对象 过滤JavaScript中的一系列对象 Jul 12, 2025 am 03:14 AM

JavaScript中filter()方法用于创建一个包含所有通过测试元素的新数组。1.filter()不修改原数组,而是返回符合条件元素的新数组;2.基本语法为array.filter((element)=>{returncondition;});3.可按属性值过滤对象数组,如筛选年龄大于30的用户;4.支持多条件筛选,例如同时满足年龄和名字长度条件;5.可处理动态条件,将筛选参数传入函数以实现灵活过滤;6.使用时注意必须返回布尔值,避免返回空数组,以及结合其他方法实现字符串匹配等复杂逻

如何检查数组是否在JavaScript中包含一个值 如何检查数组是否在JavaScript中包含一个值 Jul 13, 2025 am 02:16 AM

在JavaScript中检查数组是否包含某个值,最常用方法是includes(),它返回布尔值,语法为array.includes(valueToFind),例如fruits.includes('banana')返回true;若需兼容旧环境,则使用indexOf(),如numbers.indexOf(20)!==-1返回true;对于对象或复杂数据,应使用some()方法进行深度比较,如users.some(user=>user.id===1)返回true。

在异步/等待JavaScript函数中处理错误 在异步/等待JavaScript函数中处理错误 Jul 12, 2025 am 03:17 AM

处理异步函数中的错误应使用try/catch、在调用链中处理、使用.catch()方法、并监听unhandledrejection事件。1.使用try/catch捕获错误是推荐方式,结构清晰且能处理await中的异常;2.在调用链中处理错误可集中逻辑,适合多步骤流程;3.使用.catch()可在调用async函数后捕获错误,适用于Promise组合场景;4.监听unhandledrejection事件可记录未处理的rejection,作为最后一道防线;以上方法共同确保异步错误被正确捕获和处理。

JavaScript上下文中解释的虚拟DOM的概念 JavaScript上下文中解释的虚拟DOM的概念 Jul 12, 2025 am 03:09 AM

虚拟DOM是一种优化真实DOM更新的编程概念,通过在内存中创建与真实DOM对应的树形结构,避免频繁直接操作真实DOM。其核心原理是:1.数据变化时生成新的虚拟DOM;2.对比新旧虚拟DOM找出最小差异;3.批量更新真实DOM以减少重排重绘开销。此外,使用唯一稳定key可提升列表对比效率,而部分现代框架已采用其他技术替代虚拟DOM。

高级JavaScript范围和上下文 高级JavaScript范围和上下文 Jul 24, 2025 am 12:42 AM

JavaScript的作用域决定变量可访问范围,分为全局、函数和块级作用域;上下文决定this的指向,依赖函数调用方式。1.作用域包括全局作用域(任何地方可访问)、函数作用域(仅函数内有效)、块级作用域(let和const在{}内有效)。2.执行上下文包含变量对象、作用域链和this的值,this在普通函数指向全局或undefined,在方法调用指向调用对象,在构造函数指向新对象,也可用call/apply/bind显式指定。3.闭包是指函数访问并记住外部作用域变量,常用于封装和缓存,但可能引发

如何在JavaScript中添加活动侦听器? 如何在JavaScript中添加活动侦听器? Jul 12, 2025 am 03:11 AM

使用addEventListener添加事件监听器需注意:1.使用普通函数确保this指向元素;2.解绑时需用同一函数引用。JavaScript中通过element.addEventListener(eventType,handlerFunction,options)为元素绑定事件,支持多处理函数且不覆盖,如用btn.addEventListener('click',function(){});普通函数中的this指向元素本身,而箭头函数继承外层作用域,因此涉及this时应选用普通函数;若需移除

See all articles