我对此进行了一些实验,发现R总是在第一个修改下复制对象。
您可以在http://rpubs.com/wush978/5916在我的机器上看到结果
如果有任何错误,请告诉我,谢谢。
测试对象是否被复制
我使用以下C代码转储内存地址:
SEXP dump_address(SEXP src) {
Rprintf("%16p %16p %d\n", &(src->u), INTEGER(src), INTEGER(src) - (int*)&(src->u));
return R_NilValue;
}
它将打印2个地址:
- 的数据块地址
SEXP
- 连续块的地址
integer
让我们编译并加载此C函数。
Rcpp:::SHLIB("dump_address.c")
dyn.load("dump_address.so")
会议信息
这是sessionInfo
测试环境。
sessionInfo()
写时复制
首先,我在write上测试copy的属性,这意味着R仅在修改对象时才复制该对象。
a <- 1L
b <- a
invisible(.Call("dump_address", a))
invisible(.Call("dump_address", b))
b <- b + 1
invisible(.Call("dump_address", b))
对象在修改时b
从复制a
。R确实实现了该copy on write
属性。
修改向量/矩阵
然后,当我们修改向量/矩阵的元素时,我测试R是否会复制对象。
长度为1的向量
a <- 1L
invisible(.Call("dump_address", a))
a <- 1L
invisible(.Call("dump_address", a))
a[1] <- 1L
invisible(.Call("dump_address", a))
a <- 2L
invisible(.Call("dump_address", a))
地址每次都会更改,这意味着R不会重新使用内存。
长向量
system.time(a <- rep(1L, 10^7))
invisible(.Call("dump_address", a))
system.time(a[1] <- 1L)
invisible(.Call("dump_address", a))
system.time(a[1] <- 1L)
invisible(.Call("dump_address", a))
system.time(a[1] <- 2L)
invisible(.Call("dump_address", a))
对于长向量,R在第一次修改后重新使用内存。
此外,上面的示例还显示,当对象很大时,“就地修改”确实会影响性能。
矩阵
system.time(a <- matrix(0L, 3162, 3162))
invisible(.Call("dump_address", a))
system.time(a[1,1] <- 0L)
invisible(.Call("dump_address", a))
system.time(a[1,1] <- 1L)
invisible(.Call("dump_address", a))
system.time(a[1] <- 2L)
invisible(.Call("dump_address", a))
system.time(a[1] <- 2L)
invisible(.Call("dump_address", a))
似乎R仅在第一次修改时才复制对象。
我不知道为什么
改变属性
system.time(a <- vector("integer", 10^2))
invisible(.Call("dump_address", a))
system.time(names(a) <- paste(1:(10^2)))
invisible(.Call("dump_address", a))
system.time(names(a) <- paste(1:(10^2)))
invisible(.Call("dump_address", a))
system.time(names(a) <- paste(1:(10^2) + 1))
invisible(.Call("dump_address", a))
结果是一样的。R仅在第一次修改时复制对象。