如何有效地排序R中字符串中的字符?


9

如何有效地对向量中每个字符串的字符进行排序?例如,给定一个字符串向量:

set.seed(1)
strings <- c(do.call(paste0, replicate(4, sample(LETTERS, 10000, TRUE), FALSE)),
do.call(paste0, replicate(3, sample(LETTERS, 10000, TRUE), FALSE)),
do.call(paste0, replicate(2, sample(LETTERS, 10000, TRUE), FALSE)))

我编写了一个函数,该函数将每个字符串拆分为一个向量,对向量进行排序,然后折叠输出:

sort_cat <- function(strings){
  tmp <- strsplit(strings, split="")
  tmp <- lapply(tmp, sort)
  tmp <- lapply(tmp, paste0, collapse = "")
  tmp <- unlist(tmp)
  return(tmp)
}
sorted_strings <- sort_cat(strings)

但是,我需要将其应用到的字符串向量很长,并且此功能太慢。有没有人对如何提高性能有任何建议?


1
检查一下stringi程序包-它提供了加速与基本的比较。Rich Scriven的答案提供了更多详细信息:stackoverflow.com/questions/5904797/…–
user2474226

letters并不总是长三在你的榜样,是他们?
jay.sf

不,琴弦的长度可能会有所不同。
Powege

我认为添加fixed = TRUEstrsplit()可能会提高性能,因为它不涉及使用正则表达式。
tmfmnk

Answers:


3

您可以通过确保最大程度地减少循环数来减少时间,并通过使用parallel程序包进一步减少...我的方法是将字符串拆分一次,然后在循环中进行排序和粘贴:

sort_cat <- function(strings){
    tmp <- strsplit(strings, split="")
    tmp <- lapply(tmp, sort)
    tmp <- lapply(tmp, paste0, collapse = "")
    tmp <- unlist(tmp)
    return(tmp)
}

sort_cat2 <- function(strings){
    unlist(mcMap(function(i){
        stri_join(sort(i), collapse = "")
    }, stri_split_regex(strings, "|", omit_empty = TRUE, simplify = F), mc.cores = 8L))
}

> microbenchmark::microbenchmark(
+     old = sort_cat(strings[1:500000]),
+     new = sort_cat2(strings[1:500000]),
+     times = 1
+ )
Unit: seconds
 expr        min         lq       mean     median         uq        max neval
  old 9.62673395 9.62673395 9.62673395 9.62673395 9.62673395 9.62673395     1
  new 5.10547437 5.10547437 5.10547437 5.10547437 5.10547437 5.10547437     1

刮胡子需要4秒钟,但还不算快...

编辑

好的,在apply这里使用..策略就可以了:

1)提取字母而不是分割边界2)创建具有结果的矩阵3)逐行迭代4)排序5)连接

您避免了多个循环和取消列表。...忽略: caveat 是如果字符串长度不同,则需要删除apply诸如中的任何空或NAi[!is.na(i) && nchar(i) > 0]

sort_cat3 <- function(strings){
    apply(stri_extract_all_regex(strings, "\\p{L}", simplify = TRUE), 1, function(i){
        stri_join(stri_sort(i), collapse = "")
    })
}

> microbenchmark::microbenchmark(
+     old = sort_cat(strings[1:500000]),
+     mapping = sort_cat2(strings[1:500000]),
+     applying = sort_cat3(strings[1:500000]),
+     times = 1
+ )
Unit: seconds
     expr         min          lq        mean      median          uq         max neval
      old 10.35101934 10.35101934 10.35101934 10.35101934 10.35101934 10.35101934     1
  mapping  5.12771799  5.12771799  5.12771799  5.12771799  5.12771799  5.12771799     1
 applying  3.97775326  3.97775326  3.97775326  3.97775326  3.97775326  3.97775326     1

将我们从10.3秒变为3.98


如果并行运行原始功能,加速比是多少?
slava-kohut,

下降了50%以上 tmp <- strsplit(strings, split="") unlist(mclapply(tmp, function(i){ paste0(sort(i), collapse = "") }))
卡尔·博内里

@Gregor。刚刚测试过,看起来如何?
卡尔·博内里

很酷,只需检查一下即可:)
Gregor Thomas,

不,一点也不..我自己完全有同样的问题..这意味着省略我在答案中添加的关于删除NA /空的注释...不需要它。stringi是迄今为止我最喜欢的包裹……
Carl Boneri,

4

使用重新实现可以stringi使速度提高大约4倍。我还编辑sort_cat在使用fixed = TRUEstrsplit,这使得它有点快。还要感谢卡尔提出的单循环建议,它使我们的速度提高了一点。

sort_cat <- function(strings){
  tmp <- strsplit(strings, split="", fixed = TRUE)
  tmp <- lapply(tmp, sort)
  tmp <- lapply(tmp, paste0, collapse = "")
  tmp <- unlist(tmp)
  return(tmp)
}

library(stringi)
sort_stringi = function(s) {
  s = stri_split_boundaries(s, type = "character")
  s = lapply(s, stri_sort)
  s = lapply(s, stri_join, collapse = "")
  unlist(s)
}

sort_stringi_loop = function(s) {
  s = stri_split_boundaries(s, type = "character")
  for (i in seq_along(s)) {
    s[[i]] = stri_join(stri_sort(s[[i]]), collapse = "")
  }
  unlist(s)
}

bench::mark(
  sort_cat(strings),
  sort_stringi(strings),
  sort_stringi_loop(strings)
)
# # A tibble: 3 x 13
#   expression                    min median `itr/sec` mem_alloc `gc/sec` n_itr  n_gc total_time result memory
#   <bch:expr>                 <bch:> <bch:>     <dbl> <bch:byt>    <dbl> <int> <dbl>   <bch:tm> <list> <list>
# 1 sort_cat(strings)          23.01s 23.01s    0.0435    31.2MB     2.17     1    50     23.01s <chr ~ <Rpro~
# 2 sort_stringi(strings)       6.16s  6.16s    0.162     30.5MB     2.11     1    13      6.16s <chr ~ <Rpro~
# 3 sort_stringi_loop(strings)  5.75s  5.75s    0.174     15.3MB     1.74     1    10      5.75s <chr ~ <Rpro~
# # ... with 2 more variables: time <list>, gc <list>

该方法也可以并行使用。如果您想更快地进行代码分析,以查看哪些操作实际花费的时间最长,则是不错的下一步。


1
我认为这最终会比应用更快,并且如果长度不同,则不依赖于删除空值。可能会建议将一个循环包裹在unlist中?
卡尔·博内里

1
单循环将速度提高了一点,谢谢!
格雷戈尔·托马斯

是的 但是,这仍然困扰着我。我觉得我在想念一个很明显的,更容易的方式来做到这整个事情....
卡尔Boneri

我的意思是,编写一个能够做到这一点并且很快就可以实现的RCPP函数可能非常容易。但是在R中工作,我认为我们仅限于基本执行这些步骤。
格雷戈尔·托马斯

那就是我在想的:C ++
Carl Boneri,

1

这个版本稍微快一点

sort_cat2=function(strings){
A=matrix(unlist(strsplit(strings,split="")),ncol=3,byrow=TRUE)
B=t(apply(A,1,sort))
paste0(B[,1],B[,2],B[,3])
}

但我认为它可能是优化的


仅当所有字符串的长度相同时才起作用。不错,但是很快!
格雷戈尔·托马斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.