Answers:
要做到这一点,最好的办法是在4.2以上版本,它允许更新文档和使用聚合管道updateOne
,updateMany
或update
收集方法。请注意,大多数(如果不是全部)语言驱动程序已弃用后者。
4.2版还引入了$set
管道阶段运算符,它是的别名 $addFields
。我会用$set
,因为它在这里地图与我们正在努力实现。
db.collection.<update method>(
{},
[
{"$set": {"name": { "$concat": ["$firstName", " ", "$lastName"]}}}
]
)
在3.4+中,您可以使用$addFields
和$out
聚合管道运算符。
db.collection.aggregate(
[
{ "$addFields": {
"name": { "$concat": [ "$firstName", " ", "$lastName" ] }
}},
{ "$out": "collection" }
]
)
请注意,这不会更新您的收藏集,而是替换现有的收藏集或创建一个新的收藏集。另外,对于需要“类型转换”的更新操作,您将需要客户端处理,并且根据操作,您可能需要使用find()
方法来代替.aggreate()
方法。
我们执行此操作的方法是通过查看$project
文档并使用$concat
字符串聚合运算符返回串联的字符串。我们从那里开始,然后循环游标并使用$set
update运算符使用批量操作将新字段添加到文档中,以实现最大效率。
var cursor = db.collection.aggregate([
{ "$project": {
"name": { "$concat": [ "$firstName", " ", "$lastName" ] }
}}
])
由此,您需要使用该bulkWrite
方法。
var requests = [];
cursor.forEach(document => {
requests.push( {
'updateOne': {
'filter': { '_id': document._id },
'update': { '$set': { 'name': document.name } }
}
});
if (requests.length === 500) {
//Execute per 500 operations and re-init
db.collection.bulkWrite(requests);
requests = [];
}
});
if(requests.length > 0) {
db.collection.bulkWrite(requests);
}
从此版本开始,您需要使用现在不推荐使用的Bulk
API及其相关方法。
var bulk = db.collection.initializeUnorderedBulkOp();
var count = 0;
cursor.snapshot().forEach(function(document) {
bulk.find({ '_id': document._id }).updateOne( {
'$set': { 'name': document.name }
});
count++;
if(count%500 === 0) {
// Excecute per 500 operations and re-init
bulk.execute();
bulk = db.collection.initializeUnorderedBulkOp();
}
})
// clean up queues
if(count > 0) {
bulk.execute();
}
cursor["result"].forEach(function(document) {
db.collection.update(
{ "_id": document._id },
{ "$set": { "name": document.name } }
);
})
您应该遍历。对于您的具体情况:
db.person.find().snapshot().forEach(
function (elem) {
db.person.update(
{
_id: elem._id
},
{
$set: {
name: elem.firstname + ' ' + elem.lastname
}
}
);
}
);
save()
完全替代了文档。应该update()
改用。
db.person.update( { _id: elem._id }, { $set: { name: elem.firstname + ' ' + elem.lastname } } );
create_guid
,当以forEach
这种方式进行迭代时,每个文档仅生成一个唯一的guid (即,简单地create_guid
在update
语句中使用会mutli=true
导致为所有文档生成相同的guid)。这个答案对我来说非常有效。+1
从MongoDB 3.4开始,显然有一种方法可以有效地做到这一点,请参见styvane的答案。
以下是过时的答案
您无法在更新中引用文档本身(尚未)。您需要遍历文档并使用函数更新每个文档。见这个答案的一个例子,或者这一个服务器端eval()
。
update
操作中对当前文档的引用的内容。此相关功能请求仍未解决。
对于活动频繁的数据库,您的更新可能会影响到活动更改的记录,因此,我建议使用snapshot()
db.person.find().snapshot().forEach( function (hombre) {
hombre.name = hombre.firstName + ' ' + hombre.lastName;
db.person.save(hombre);
});
http://docs.mongodb.org/manual/reference/method/cursor.snapshot/
开始于Mongo 4.2
,db.collection.update()
可以接受聚合管道,最后允许基于另一个字段对字段进行更新/创建:
// { firstName: "Hello", lastName: "World" }
db.collection.update(
{},
[{ $set: { name: { $concat: [ "$firstName", " ", "$lastName" ] } } }],
{ multi: true }
)
// { "firstName" : "Hello", "lastName" : "World", "name" : "Hello World" }
第一部分{}
是匹配查询,过滤要更新的文档(在本例中为所有文档)。
第二部分[{ $set: { name: { ... } }]
是更新聚合管道(请注意方括号表示使用聚合管道)。$set
是新的聚合运算符,别名为$addFields
。
不要忘记{ multi: true }
,否则只会更新第一个匹配的文档。
我尝试了上述解决方案,但发现它不适用于大量数据。然后,我发现了流功能:
MongoClient.connect("...", function(err, db){
var c = db.collection('yourCollection');
var s = c.find({/* your query */}).stream();
s.on('data', function(doc){
c.update({_id: doc._id}, {$set: {name : doc.firstName + ' ' + doc.lastName}}, function(err, result) { /* result == true? */} }
});
s.on('end', function(){
// stream can end before all your updates do if you have a lot
})
})
这是我们将一个字段复制到另一个字段以获取约150_000条记录的结果。它花费了大约6分钟的时间,但是与在相同数量的红宝石对象上进行实例化和迭代相比,它的资源消耗仍然大大减少。
js_query = %({
$or : [
{
'settings.mobile_notifications' : { $exists : false },
'settings.mobile_admin_notifications' : { $exists : false }
}
]
})
js_for_each = %(function(user) {
if (!user.settings.hasOwnProperty('mobile_notifications')) {
user.settings.mobile_notifications = user.settings.email_notifications;
}
if (!user.settings.hasOwnProperty('mobile_admin_notifications')) {
user.settings.mobile_admin_notifications = user.settings.email_admin_notifications;
}
db.users.save(user);
})
js = "db.users.find(#{js_query}).forEach(#{js_for_each});"
Mongoid::Sessions.default.command('$eval' => js)
随着MongoDB的4.2以上版本,更新更灵活,因为它允许在其使用聚合管道update
,updateOne
和updateMany
。现在,您可以使用聚合运算符来转换文档,然后进行更新,而无需明确声明$set
命令(而是使用$replaceRoot: {newRoot: "$$ROOT"}
)
在这里,我们使用聚合查询从MongoDB的ObjectID“ _id”字段中提取时间戳并更新文档(我不是SQL方面的专家,但我认为SQL不提供任何自动生成的带有时间戳的ObjectID,您必须自动创建该日期)
var collection = "person"
agg_query = [
{
"$addFields" : {
"_last_updated" : {
"$toDate" : "$_id"
}
}
},
{
$replaceRoot: {
newRoot: "$$ROOT"
}
}
]
db.getCollection(collection).updateMany({}, agg_query, {upsert: true})
{ $replaceRoot: { newRoot: "$$ROOT" } }
; 这意味着单独替换文档是没有意义的。如果要替换$addFields
它的别名,$set
而updateMany
这是别名之一update
,那么你得到完全相同的答案,这个上面。