我正在尝试确定一个字符串是否是另一个字符串的子集。例如:
chars <- "test"
value <- "es"
如果“值”作为字符串“字符”的一部分出现,我想返回TRUE。在以下情况下,我想返回false:
chars <- "test"
value <- "et"
fixed=TRUE
有一个错误地将数据悄悄地弄乱了。
我正在尝试确定一个字符串是否是另一个字符串的子集。例如:
chars <- "test"
value <- "es"
如果“值”作为字符串“字符”的一部分出现,我想返回TRUE。在以下情况下,我想返回false:
chars <- "test"
value <- "et"
fixed=TRUE
有一个错误地将数据悄悄地弄乱了。
Answers:
使用 grepl
功能
grepl(value, chars, fixed = TRUE)
# TRUE
使用?grepl
以了解更多信息。
vec <- replicate(100000, paste( sample(letters, 10, replace=TRUE), collapse='') )
。
system.time(a <- grepl("abc", vec))
和system.time(a <- grepl("abc", vec, fixed=TRUE))
,fixed=TRUE
如果仍然有些慢的话,它仍然是。这些短字符串之间的区别并不明显,但fixed=TRUE
似乎并没有更快。但是,感谢您指出,它是在长字符串上fixed=TRUE
产生了真正的成功。
igh,我花了45分钟才能找到这个简单问题的答案。答案是:grepl(needle, haystack, fixed=TRUE)
# Correct
> grepl("1+2", "1+2", fixed=TRUE)
[1] TRUE
> grepl("1+2", "123+456", fixed=TRUE)
[1] FALSE
# Incorrect
> grepl("1+2", "1+2")
[1] FALSE
> grepl("1+2", "123+456")
[1] TRUE
grep
Linux的可执行文件的名字命名,这本身就是一个缩写“ 摹叶形[R egular é上的表达P RINT”,它会读取输入的线,然后打印出来,如果他们匹配你给的参数。“全局”表示匹配可以在输入行中的任何地方进行,我将在下面解释“正则表达式”,但是这种想法是匹配字符串的一种更聪明的方式(R称为“字符”,例如class("abc")
)和“打印” ”,因为它是一个命令行程序,所以发出输出意味着它会打印到其输出字符串。
现在,该grep
程序基本上是一个过滤器,从输入行到输出行。似乎R的grep
功能类似地需要输入数组。由于我完全不知道的原因(我大约一个小时前才开始玩R),它返回匹配索引的向量,而不是匹配列表。
但是,回到您最初的问题,我们真正想要的是知道我们是否在大海捞针中找到了针,这是一个真/假值。他们显然决定将这个函数命名grepl
为“ grep”,但返回值为“ L ogical”(例如,它们调用true和false逻辑值class(TRUE)
)。
因此,现在我们知道该名称的来源和用途。让我们回到正则表达式。这些参数即使是字符串,也用于构建正则表达式(此后为regex)。正则表达式是一种匹配字符串的方法(如果此定义激怒了您,请放手)。例如,正则表达式a
匹配字符"a"
,正则表达式a*
匹配字符"a"
0次或更多次,正则表达式a+
匹配字符"a"
1次或更多次。因此,在上面的示例中1+2
,当我们搜索的针作为正则表达式时,表示“一个或多个1后跟2”……但我们的后跟一个加号!
因此,如果使用了grepl
不带设置fixed
,那么针会意外地变成干草堆,并且偶然会经常出现,我们可以看到它甚至适用于OP的示例。但这是一个潜在的错误!我们需要告诉它输入是一个字符串,而不是正则表达式,这显然fixed
是为了什么。为什么要解决?毫无头绪,将此答案添加为书签b / c,您可能需要再查找5次才能记住它。
您的代码越好,了解它的历史就越少。每个参数可以至少有两个有趣的值(否则就不必是一个参数),docs在此处列出9个参数,这意味着至少有2 ^ 9 = 512种方法可以调用它,这需要大量的工作编写,测试和记住...将这些函数解耦(拆分它们,消除彼此的依赖关系,字符串与正则表达式不同,向量与矢量不同)。有些选项也是互斥的,不会给用户错误的代码使用方式,即,有问题的调用在结构上应该是荒谬的(例如,传递不存在的选项),而不是在逻辑上是荒谬的(必须这样做)发出警告以进行解释)。隐喻地说:用墙壁代替10楼侧面的前门比悬挂警告使用该标志的标牌更好,但是哪一个都比哪一个都好。在接口中,该函数定义参数的外观,而不是调用方的外观(因为调用方取决于该函数,因此推断每个人可能想要使用它调用的所有内容,也使得该函数也取决于调用方,并且此类型周期性的依赖关系会迅速阻塞系统,永远不会提供您期望的收益)。警惕模棱两可的类型,这是设计缺陷,例如 推断所有人可能想要调用的所有内容,也会使该函数也依赖于调用者,而这种类型的周期性依赖关系将迅速阻塞系统,并且永远不会提供您期望的收益。警惕模棱两可的类型,这是设计缺陷,例如 推断所有人可能想要调用的所有内容,也会使该函数也依赖于调用者,而这种类型的周期性依赖关系将迅速阻塞系统,并且永远不会提供您期望的收益。警惕模棱两可的类型,这是设计缺陷,例如TRUE
和0
和"abc"
都是向量。
从stringi
包中使用此功能:
> stri_detect_fixed("test",c("et","es"))
[1] FALSE TRUE
一些基准:
library(stringi)
set.seed(123L)
value <- stri_rand_strings(10000, ceiling(runif(10000, 1, 100))) # 10000 random ASCII strings
head(value)
chars <- "es"
library(microbenchmark)
microbenchmark(
grepl(chars, value),
grepl(chars, value, fixed=TRUE),
grepl(chars, value, perl=TRUE),
stri_detect_fixed(value, chars),
stri_detect_regex(value, chars)
)
## Unit: milliseconds
## expr min lq median uq max neval
## grepl(chars, value) 13.682876 13.943184 14.057991 14.295423 15.443530 100
## grepl(chars, value, fixed = TRUE) 5.071617 5.110779 5.281498 5.523421 45.243791 100
## grepl(chars, value, perl = TRUE) 1.835558 1.873280 1.956974 2.259203 3.506741 100
## stri_detect_fixed(value, chars) 1.191403 1.233287 1.309720 1.510677 2.821284 100
## stri_detect_regex(value, chars) 6.043537 6.154198 6.273506 6.447714 7.884380 100
使用grep
或grepl
但请注意是否要使用正则表达式。
默认情况下,grep
与related相关的是正则表达式,而不是文字子字符串。如果您不希望这样,并且尝试匹配无效的正则表达式,那么它将不起作用:
> grep("[", "abc[")
Error in grep("[", "abc[") :
invalid regular expression '[', reason 'Missing ']''
要进行真正的子字符串测试,请使用fixed = TRUE
。
> grep("[", "abc[", fixed = TRUE)
[1] 1
如果您确实需要正则表达式,那很好,但这不是OP似乎要问的。
此处存在类似的问题:给定字符串和关键字列表,请检测该字符串中包含哪些关键字(如果有)。
从这个线程建议提出stringr
的str_detect
和grepl
。这是microbenchmark
软件包中的基准测试:
使用
map_keywords = c("once", "twice", "few")
t = "yes but only a few times"
mapper1 <- function (x) {
r = str_detect(x, map_keywords)
}
mapper2 <- function (x) {
r = sapply(map_keywords, function (k) grepl(k, x, fixed = T))
}
然后
microbenchmark(mapper1(t), mapper2(t), times = 5000)
我们发现
Unit: microseconds
expr min lq mean median uq max neval
mapper1(t) 26.401 27.988 31.32951 28.8430 29.5225 2091.476 5000
mapper2(t) 19.289 20.767 24.94484 23.7725 24.6220 1011.837 5000
如您所见,使用str_detect
和grepl
在实际的关键字字符串和向量上grepl
进行了5,000次以上的关键字搜索迭代,其效果要好于str_detect
。
结果是布尔向量r
,该布尔向量标识字符串中包含哪些关键字(如果有)。
因此,建议您使用grepl
来确定字符串中是否包含任何关键字。
fixed=TRUE
,否则会将其视为正则表达式而不是字符串。请参阅我从2016