MongoDB数据库删除大量数据推荐的几种方法 - 主机乐 - 做有意思的尝试

首页

超值活动

产品中心

物理机租用

十堰物理机官方自营机柜。全系列戴尔物理机、优质设备、专业售后团队，稳定在线

物理机租用

襄阳物理机官方自营机柜。全系列戴尔物理机、优质设备、专业售后团队，稳定在线

物理机租用

宁波物理机官方自营机柜。全系列戴尔物理机、优质设备、专业售后团队，稳定在线

云服务器

湖北-十堰高防电信云服务器-200G防御，官方自营机柜，全系铂金8163宿主机/DDR4/U2固态 SAS备份盘

云服务器

陕西-西安西安电信云服务器-100G防御，官方自营机柜，宿主机金牌5218/DDR4/U2固态

云服务器

美国-圣何塞官方自营机柜。全系列戴尔物理机、优质设备、专业售后团队，稳定在线

云服务器

香港-将军澳官方自营机柜。全系列戴尔物理机、优质设备、专业售后团队，稳定在线

虚拟主机

美国主机官方自营机柜。全系列戴尔物理机、优质设备、专业售后团队，稳定在线

虚拟主机

陕西西安西安电信云服务器-100G防御，官方自营机柜，宿主机金牌5218/DDR4/U2固态

免费空间

香港为学习者提供稳定平台

免费空间

大陆为学习者提供稳定可用的平台

云电脑/挂机宝

贵州官方自营机柜。全系列戴尔物理机、优质设备、专业售后团队，稳定在线

订购产品

文章公告

关于我们

博客动态

所有文章

< 返回文章列表

【服务器相关】MongoDB数据库删除大量数据推荐的几种方法

发表时间：2025-06-16 03:46:00 小编：主机乐-Yutio

删除大量数据，无论是在哪种数据库中，都是一个普遍性的需求。除了正常的业务需求，我们需要通过这种方式来为数据库“瘦身”。

为什么要“瘦身”呢？

1、表的数据量到达一定量级后，数据量越大，表的查询性能会越差。

毕竟数据量越大，B+树的层级会越高，需要的IO也会越多。

2、表的数据有冷热之分，将很多无用或很少用到的数据存储在数据库中会消耗数据库的资源。

譬如会占用缓存；会增加备份集的大小，进而影响备份的恢复时间等。

所以，对于那些无用的数据，我们会定期删除。

对于那些很少用到的数据，则会定期归档。归档，一般是将数据写入到归档实例或抽取到大数据组件中。归档完毕后，会将对应的数据从原实例中删除。

一般来说，这种删除操作涉及的数据量都比较大。

对于这类删除操作，很多开发童鞋的实现就是一个简单的DELETE操作。看上去，简单明了，干净利落。

但是，这种方式，危害性却极大。

以 MySQL 为例：

会造成大事务
大事务会导致主从延迟，而主从延迟又会影响数据库的高可用切换。
回滚表空间会不断膨胀
在MySQL 8.0之前，回滚表空间默认是放到系统表空间中，而系统表空间一旦”膨胀“，就不会收缩。
锁定的记录多
相对而言，更容易导致锁等待。

即使是分布式数据库，如TiDB，如果一次删除了大量数据，这批数据在进行Compaction时有可能会触发流控。

所以，对于线上的大规模删除操作，建议分而治之。具体来说，就是批量删除，每次只删除一部分数据，分多次执行。

就如何删除大量数据，接下来我们看看MongoDB中的落地方案。

本文主要包括以下四部分内容。

MongoDB中删除数据的三种方式。
三种方式的执行效率对比。
通过Write Concern规避主从延迟。
删除过程中碰到的Bug。

MongoDB中删除数据的三种方式

在MongoDB中删除数据，可通过以下三种方式：

db.collection.remove()

删除单个文档或满足条件的所有文档。

db.collection.deleteMany()

删除满足条件的所有文档。

db.collection.bulkWrite()

批量操作接口，可执行批量插入、更新、删除操作。

接下来，对比下这三种方式的执行效率。

三种方式的执行效率对比

环境：MongoDB 3.4.4，副本集。

测试思路：分别使用 remove、deleteMany、bulkWrite 删除 10w 条记录（每批删除 5000 条），交叉执行 5 次。

1. remove

图中是一个一主两从的副本集，设置了w: “majority”，代表一个写操作，需要等待副本集中绝大多数节点（本例中是两个）应用完，才能给客户端反馈。

在前面的代码中，无论是remove，deleteMany还是bulkWrite方法，都设置了w: “majority”。

之所以这样设置，一方面是为了保证数据的安全性，毕竟删除操作能在多个节点落盘，另一方面，还能有效降低批量操作可能导致的主从延迟风险。

Write Concern的完整语法如下，

https://docs.mongodb.com/manual/tutorial/configure-replica-set-tag-sets/。

j：是否需要等待对应操作的日志持久化到磁盘中。

在MongoDB中，一个写操作会涉及到三个动作：更新数据，更新索引，写入oplog，这三个动作要么全部成功，要么全部失败，这也是MongoDB单行事务的由来。

对于每个写操作，WiredTiger都会记录一条日志到 journal 中。

日志在写入journal之前，会首先写入到 journal buffer（最大128KB）中。

Journal buffer会在以下场景持久化到 journal 文件中：

副本集中，当有操作等待oplog时。

这类操作包括：针对oplog最新位置点的扫描查询；Causally consistent session中的读操作；对于Secondary节点，每次批量应用oplog后。

Write Concern 设置了 j: true。
每100ms。

由 storage.journal.commitIntervalMs 参数指定。

创建新的 journal 文件时。

当 journal 文件的大小达到100MB时会自动创建一个新的journal 文件。

wtimeout：超时时长，单位ms。

不设置或设置为0，命令在执行的过程中，如果遇到了锁等待或节点数不满足要求，会一直阻塞。

如果设置了时间，命令在这个时间内没有执行成功，则会超时报错，具体报错信息如下：

Journaling

[2] Write Concern

联系我们

返回顶部