Questions tagged «dplyr»

使用此标记可以解决与dplyr软件包中的功能有关的问题,例如group_by,摘要,过滤和选择。

3
我无法在data.table中使用dtplyr做什么
我应该投资我对数据中的R扯皮,尤其具有学习努力dplyr,dtplyr和data.table? 我dplyr主要使用数据,但是当数据太大而无法使用时data.table,这种情况很少发生。因此,现在dtplyrv1.0已成为的接口data.table,从表面上看,我似乎再也不需要担心使用该data.table接口。 那么什么是最有用的特性或方面data.table是不能被使用做dtplyr的那一刻,那可能永远不会有做dtplyr? 从表面上看,dplyr借助的好处,data.table它听起来像dtplyr会超越dplyr。会不会有任何理由来使用dplyr,一旦dtplyr已经完全成熟? 注意:我不是在问dplyrvs data.table(就像在data.table vs dplyr中:一个人可以做得很好而另一个不能做得不好或做得不好吗?),但是鉴于在一个特定问题上一个人比另一个人更受青睐,为什么呢?牛逼dtplyr是使用工具。
9 r  dplyr  data.table  dtplyr 

5
根据前n行有条件地创建新列
我有一个数据框架,如下所示: df <- data.frame("id" = c(111,111,111,222,222,222,222,333,333,333,333), "Location" = c("A","B","A","A","C","B","A","B","A","A","A"), "Encounter" = c(1,2,3,1,2,3,4,1,2,3,4)) id Location Encounter 1 111 A 1 2 111 B 2 3 111 A 3 4 222 A 1 5 222 C 2 6 222 B 3 7 222 A 4 8 333 B 1 9 333 A …

4
删除时间重叠的行的有效方法
我有一个较长的数据集,其中的列分别代表开始和结束时间,如果行与另一行重叠且具有较高的优先级(例如1为最高优先级),我想删除一行。我的示例数据是 library(tidyverse) library(lubridate) times_df <- tibble(start = as_datetime(c("2019-10-05 14:05:25", "2019-10-05 17:30:20", "2019-10-05 17:37:00", "2019-10-06 04:43:55", "2019-10-06 04:53:45")), stop = as_datetime(c("2019-10-05 14:19:20", "2019-10-05 17:45:15", "2019-10-05 17:50:45", "2019-10-06 04:59:00", "2019-10-06 05:07:10")), priority = c(5,3,4,3,4)) 我想出的方法是通过找到具有较高优先级值的重叠,然后使用anti_join从原始数据帧中将其删除来向后攻击该问题。如果三个时间段重叠相同的时间点,那么此代码将无法正常工作,而且我敢肯定,有一种更高效,更实用的方法可以执行此操作。 dropOverlaps <- function(df) { drops <- df %>% filter(stop > lead(start) | lag(stop) > start) %>% mutate(group …
9 r  dplyr 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.