在R中合并/联接data.frames最快的方法是什么?


97

例如(不确定最有代表性的例子):

N <- 1e6
d1 <- data.frame(x=sample(N,N), y1=rnorm(N))
d2 <- data.frame(x=sample(N,N), y2=rnorm(N))

到目前为止,这是我得到的:

d <- merge(d1,d2)
# 7.6 sec

library(plyr)
d <- join(d1,d2)
# 2.9 sec

library(data.table)
dt1 <- data.table(d1, key="x")
dt2 <- data.table(d2, key="x")
d <- data.frame( dt1[dt2,list(x,y1,y2=dt2$y2)] )
# 4.9 sec

library(sqldf)
sqldf()
sqldf("create index ix1 on d1(x)")
sqldf("create index ix2 on d2(x)")
d <- sqldf("select * from d1 inner join d2 on d1.x=d2.x")
sqldf()
# 17.4 sec

Gabor在下面指出了执行sqldf方法的正确方法:仅创建一个索引(例如d1),然后在select语句中使用d1.main而不是d1(否则它将不使用索引)。在这种情况下,计时为13.6秒。在data.table情况下,实际上也不需要在两个表上都建立索引,只需执行“ dt2 <-data.table(d2)”,时间将为3.9秒。
datasmurf 2010年

这两个答案都提供了有价值的信息,值得同时阅读(尽管只能“接受”一个)。
datasmurf 2010年

您正在比较问题中的左
联接

Answers:


46

当第二个数据帧中第一个数据中的每个键值都有唯一的键时,匹配方法就会起作用。如果第二个数据帧中有重复项,则匹配和合并方法不相同。当然,由于匹配程度不高,因此匹配速度更快。特别是,它永远不会寻找重复的密钥。(代码后续)

DF1 = data.frame(a = c(1, 1, 2, 2), b = 1:4)
DF2 = data.frame(b = c(1, 2, 3, 3, 4), c = letters[1:5])
merge(DF1, DF2)
    b a c
  1 1 1 a
  2 2 1 b
  3 3 2 c
  4 3 2 d
  5 4 2 e
DF1$c = DF2$c[match(DF1$b, DF2$b)]
DF1$c
[1] a b c e
Levels: a b c d e

> DF1
  a b c
1 1 1 a
2 1 2 b
3 2 3 c
4 2 4 e

在问题中发布的sqldf代码中,可能看起来在两个表上都使用了索引,但是实际上,它们被放置在表上,而这些表在运行sql select之前就被覆盖了,部分原因是为什么它是如此缓慢。sqldf的想法是R会话中的数据帧构成数据库,而不是sqlite中的表。因此,每次代码引用一个不合格的表名时,它将在R工作区中查找它-而不是在sqlite的主数据库中。因此,显示的select语句将工作区中的d1和d2读入sqlite的主数据库,从而破坏了带有索引的地方。结果,它执行没有索引的联接。如果要使用sqlite主数据库中的d1和d2版本,则必须将它们称为main.d1和main。d2,而不是d1和d2。另外,如果您试图使其尽快运行,请注意,简单的联接无法利用两个表上的索引,因此可以节省创建索引之一的时间。在下面的代码中,我们说明了这些要点。

值得一提的是,精确的计算可以对最快的程序包产生巨大的影响。例如,我们在下面进行合并和汇总。我们看到,两者的结果几乎相反。在第一个示例中,从最快到最慢,我们得到了:data.table,plyr,merge和sqldf,而在第二个示例中,sqldf,aggregate,data.table和plyr几乎与第一个相反。在第一个示例中,sqldf比data.table慢3倍,在第二个示例中,它比plyr快200倍,比data.table快100倍。下面我们显示输入代码,合并的输出时序和聚合的输出时序。还值得注意的是,sqldf基于数据库,因此可以处理大于R可以处理的对象(如果使用sqldf的dbname参数),而其他方法则仅限于在主内存中进行处理。我们也用sqlite说明了sqldf,但是它也支持H2和PostgreSQL数据库。

library(plyr)
library(data.table)
library(sqldf)

set.seed(123)
N <- 1e5
d1 <- data.frame(x=sample(N,N), y1=rnorm(N))
d2 <- data.frame(x=sample(N,N), y2=rnorm(N))

g1 <- sample(1:1000, N, replace = TRUE)
g2<- sample(1:1000, N, replace = TRUE)
d <- data.frame(d1, g1, g2)

library(rbenchmark)

benchmark(replications = 1, order = "elapsed",
   merge = merge(d1, d2),
   plyr = join(d1, d2),
   data.table = { 
      dt1 <- data.table(d1, key = "x")
      dt2 <- data.table(d2, key = "x")
      data.frame( dt1[dt2,list(x,y1,y2=dt2$y2)] )
      },
   sqldf = sqldf(c("create index ix1 on d1(x)",
      "select * from main.d1 join d2 using(x)"))
)

set.seed(123)
N <- 1e5
g1 <- sample(1:1000, N, replace = TRUE)
g2<- sample(1:1000, N, replace = TRUE)
d <- data.frame(x=sample(N,N), y=rnorm(N), g1, g2)

benchmark(replications = 1, order = "elapsed",
   aggregate = aggregate(d[c("x", "y")], d[c("g1", "g2")], mean), 
   data.table = {
      dt <- data.table(d, key = "g1,g2")
      dt[, colMeans(cbind(x, y)), by = "g1,g2"]
   },
   plyr = ddply(d, .(g1, g2), summarise, avx = mean(x), avy=mean(y)),
   sqldf = sqldf(c("create index ix on d(g1, g2)",
      "select g1, g2, avg(x), avg(y) from main.d group by g1, g2"))
)

比较合并计算的两个基准调用的输出为:

Joining by: x
        test replications elapsed relative user.self sys.self user.child sys.child
3 data.table            1    0.34 1.000000      0.31     0.01         NA        NA
2       plyr            1    0.44 1.294118      0.39     0.02         NA        NA
1      merge            1    1.17 3.441176      1.10     0.04         NA        NA
4      sqldf            1    3.34 9.823529      3.24     0.04         NA        NA

比较汇总计算的基准调用的输出为:

        test replications elapsed  relative user.self sys.self user.child sys.child
4      sqldf            1    2.81  1.000000      2.73     0.02         NA        NA
1  aggregate            1   14.89  5.298932     14.89     0.00         NA        NA
2 data.table            1  132.46 47.138790    131.70     0.08         NA        NA
3       plyr            1  212.69 75.690391    211.57     0.56         NA        NA

谢谢你Gabor 妙点,我通过对原始问题的评论进行了一些调整。实际上,我猜测即使在“合并”情况下,顺序也可能会改变,具体取决于表的相对大小,键的多样性等(这就是为什么我说我不确定我的示例是否具有代表性)。尽管如此,很高兴看到该问题的所有不同解决方案。
datasmurf 2010年

我也赞赏有关“汇总”案的评论。尽管这与问题中的“合并”设置不同,但它非常相关。我实际上会在一个单独的问题中对此进行询问,但是这里已经有一个stackoverflow.com/questions/3685492/…。您可能还想为此做点贡献,根据上述结果,sqldf解决方案可能会击败那里所有的现有答案;)
datasmurf 2010年

40

Gabor结果中报告的132秒data.table实际上是计时基本功能colMeanscbind(使用这些功能引起的内存分配和复制)。也有好的和坏的使用方法data.table

benchmark(replications = 1, order = "elapsed", 
  aggregate = aggregate(d[c("x", "y")], d[c("g1", "g2")], mean),
  data.tableBad = {
     dt <- data.table(d, key = "g1,g2") 
     dt[, colMeans(cbind(x, y)), by = "g1,g2"]
  }, 
  data.tableGood = {
     dt <- data.table(d, key = "g1,g2") 
     dt[, list(mean(x),mean(y)), by = "g1,g2"]
  }, 
  plyr = ddply(d, .(g1, g2), summarise, avx = mean(x), avy=mean(y)),
  sqldf = sqldf(c("create index ix on d(g1, g2)",
      "select g1, g2, avg(x), avg(y) from main.d group by g1, g2"))
  ) 

            test replications elapsed relative user.self sys.self
3 data.tableGood            1    0.15    1.000      0.16     0.00
5          sqldf            1    1.01    6.733      1.01     0.00
2  data.tableBad            1    1.63   10.867      1.61     0.01
1      aggregate            1    6.40   42.667      6.38     0.00
4           plyr            1  317.97 2119.800    265.12    51.05

packageVersion("data.table")
# [1] ‘1.8.2’
packageVersion("plyr")
# [1] ‘1.7.1’
packageVersion("sqldf")
# [1] ‘0.4.6.4’
R.version.string
# R version 2.15.1 (2012-06-22)

请注意,我对plyr不太了解,因此请在依赖plyr此处的时间之前与Hadley确认。另外请注意,为了方便起见,data.table确实包括转换data.table和设置密钥的时间。


自2010年12月最初回答以来,此答案已更新。以前的基准测试结果如下。请查看此答案的修订历史,以了解更改的内容。

              test replications elapsed   relative user.self sys.self
4   data.tableBest            1   0.532   1.000000     0.488    0.020
7            sqldf            1   2.059   3.870301     2.041    0.008
3 data.tableBetter            1   9.580  18.007519     9.213    0.220
1        aggregate            1  14.864  27.939850    13.937    0.316
2  data.tableWorst            1 152.046 285.800752   150.173    0.556
6 plyrwithInternal            1 198.283 372.712406   189.391    7.665
5             plyr            1 225.726 424.296992   208.013    8.004

由于ddply仅适用于数据帧,因此此示例将产生最坏的情况。我希望在将来的版本中为此类常见操作提供更好的界面。
hadley 2010年

1
仅供参考:您不能.Internal在CRAN软件包中使用调用,请参阅CRAN存储库策略
约书亚·乌尔里希

@JoshuaUlrich您可以在将近两年前写下答案时,iirc。我将更新此答案,因为现在可以data.table自动优化mean(无需.Internal内部调用)。
马特·道尔

@MatthewDowle:是的,我不确定何时/是否更改。我只知道现在是这种情况。而且您的回答非常好,只是不能在软件包中使用。
约书亚·乌尔里希

1
@AleksandrBlekh谢谢。我们已将您的评论链接到现有功能请求#599。让我们去那里。您的示例代码很好地显示了for循环,这很好。您可以向该问题添加有关“ SEM分析”的更多信息吗?例如,我猜SEM =扫描电子显微镜?了解更多有关该应用程序的信息会使我们感到更有趣,并有助于我们确定优先顺序。
Matt Dowle 2014年

16

对于简单任务(连接两面都有唯一值),我使用match

system.time({
    d <- d1
    d$y2 <- d2$y2[match(d1$x,d2$x)]
})

它比合并要快得多(在我的机器上为0.13s至3.37s)。

我的时间:

  • merge:3.32秒
  • plyr:0.84秒
  • match:0.12秒

4
谢谢Marek。关于为什么这么快(建立索引/哈希表)的一些解释可以在这里找到:tolstoy.newcastle.edu.au/R/help/01c/2739.html
datasmurf 2010年

11

认为混合使用dplyr进行基准测试会很有趣:(有很多事情在运行)

            test replications elapsed relative user.self sys.self
5          dplyr            1    0.25     1.00      0.25     0.00
3 data.tableGood            1    0.28     1.12      0.27     0.00
6          sqldf            1    0.58     2.32      0.57     0.00
2  data.tableBad            1    1.10     4.40      1.09     0.01
1      aggregate            1    4.79    19.16      4.73     0.02
4           plyr            1  186.70   746.80    152.11    30.27

packageVersion("data.table")
[1]1.8.10’
packageVersion("plyr")
[1]1.8’
packageVersion("sqldf")
[1]0.4.7’
packageVersion("dplyr")
[1]0.1.2’
R.version.string
[1] "R version 3.0.2 (2013-09-25)"

刚刚添加:

dplyr = summarise(dt_dt, avx = mean(x), avy = mean(y))

并使用数据表为dplyr设置数据:

dt <- tbl_dt(d)
dt_dt <- group_by(dt, g1, g2)

更新:我删除了data.tableBad和plyr,只打开了RStudio(i7,16GB内存)。

对于data.table 1.9和带有数据帧的dplyr:

            test replications elapsed relative user.self sys.self
2 data.tableGood            1    0.02      1.0      0.02     0.00
3          dplyr            1    0.04      2.0      0.04     0.00
4          sqldf            1    0.46     23.0      0.46     0.00
1      aggregate            1    6.11    305.5      6.10     0.02

对于data.table 1.9和带有数据表的dplyr:

            test replications elapsed relative user.self sys.self
2 data.tableGood            1    0.02        1      0.02     0.00
3          dplyr            1    0.02        1      0.02     0.00
4          sqldf            1    0.44       22      0.43     0.02
1      aggregate            1    6.14      307      6.10     0.01

packageVersion("data.table")
[1] '1.9.0'
packageVersion("dplyr")
[1] '0.1.2'

为了保持一致性,以下是使用数据表的all和data.table 1.9和dplyr的原始版本:

            test replications elapsed relative user.self sys.self
5          dplyr            1    0.01        1      0.02     0.00
3 data.tableGood            1    0.02        2      0.01     0.00
6          sqldf            1    0.47       47      0.46     0.00
1      aggregate            1    6.16      616      6.16     0.00
2  data.tableBad            1   15.45     1545     15.38     0.01
4           plyr            1  110.23    11023     90.46    19.52

我认为这个数据对于新的data.table和dplyr来说太小了:)

更大的数据集:

N <- 1e8
g1 <- sample(1:50000, N, replace = TRUE)
g2<- sample(1:50000, N, replace = TRUE)
d <- data.frame(x=sample(N,N), y=rnorm(N), g1, g2)

在运行基准测试之前,仅占用了大约10-13GB的内存即可容纳数据。

结果:

            test replications elapsed relative user.self sys.self
1          dplyr            1   14.88        1      6.24     7.52
2 data.tableGood            1   28.41        1     18.55      9.4

尝试了10亿但炸毁了ram。32GB可以处理它。


[由Arun编辑](dotcomken,您可以运行此代码并粘贴基准测试结果吗?谢谢)。

require(data.table)
require(dplyr)
require(rbenchmark)

N <- 1e8
g1 <- sample(1:50000, N, replace = TRUE)
g2 <- sample(1:50000, N, replace = TRUE)
d <- data.frame(x=sample(N,N), y=rnorm(N), g1, g2)

benchmark(replications = 5, order = "elapsed", 
  data.table = {
     dt <- as.data.table(d) 
     dt[, lapply(.SD, mean), by = "g1,g2"]
  }, 
  dplyr_DF = d %.% group_by(g1, g2) %.% summarise(avx = mean(x), avy=mean(y))
) 

根据Arun的要求,这里提供了您提供给我运行的输出:

        test replications elapsed relative user.self sys.self
1 data.table            5   15.35     1.00     13.77     1.57
2   dplyr_DF            5  137.84     8.98    136.31     1.44

抱歉让您感到困惑,深夜来到了我身边。

将dplyr与数据帧一起使用似乎是处理汇总的效率较低的方法。该方法是否可以将data.table和dplyr的确切功能与包含的数据结构方法进行比较?我几乎希望将其分开,因为大多数数据在我们group_by或创建data.table之前都需要清除。可能是个问题,但我认为最重要的部分是如何有效地建模数据。


1
不错的更新。谢谢。与该数据集相比,我认为您的机器真是野兽。L2缓存(如果存在L3,还有L3)的大小是多少?
阿伦2014年

i7 L2是2x256 KB 8路,L3是4 MB 16路。128 GB SSD,在Dell inspiron上获胜7
2014年

1
您能重新格式化您的示例吗?我有点困惑。在此示例中,data.table是否比dplyr更好?如果是这样,在什么情况下。
csgillespie 2014年

1

通过使用合并功能及其可选参数:

内部联接:merge(df1,df2)将适用于这些示例,因为R通过公共变量名称自动联接框架,但是您很可能希望指定merge(df1,df2,by =“ CustomerId”)以确保您仅在您想要的字段上匹配。如果匹配的变量在不同的数据帧中具有不同的名称,则也可以使用by.x和by.y参数。

Outer join: merge(x = df1, y = df2, by = "CustomerId", all = TRUE)

Left outer: merge(x = df1, y = df2, by = "CustomerId", all.x = TRUE)

Right outer: merge(x = df1, y = df2, by = "CustomerId", all.y = TRUE)

Cross join: merge(x = df1, y = df2, by = NULL)

问题在于性能。您仅提供了连接的语法。虽然有帮助,但不能回答问题。该答案缺乏使用OP的示例的基准数据来显示其性能更好,或者至少具有很高的竞争力。
Michael Tuchman
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.