给定两个相等长度的字符串,是否有一种优雅的方法来获取第一个不同字符的偏移量?
显而易见的解决方案是:
for ($offset = 0; $offset < $length; ++$offset) {
if ($str1[$offset] !== $str2[$offset]) {
return $offset;
}
}
但这对于如此简单的任务而言似乎并不正确。
给定两个相等长度的字符串,是否有一种优雅的方法来获取第一个不同字符的偏移量?
显而易见的解决方案是:
for ($offset = 0; $offset < $length; ++$offset) {
if ($str1[$offset] !== $str2[$offset]) {
return $offset;
}
}
但这对于如此简单的任务而言似乎并不正确。
O(n)您将必须检查的n字符。
Answers:
您可以使用按位XOR(^)的一个不错的属性来实现此目的:基本上,当您将两个字符串异或时,相同的字符将变为空字节("\0")。因此,如果我们对两个字符串进行异或运算,我们只需要使用以下命令查找第一个非空字节的位置strspn:
$position = strspn($string1 ^ $string2, "\0");
这里的所有都是它的。因此,让我们看一个例子:
$string1 = 'foobarbaz';
$string2 = 'foobarbiz';
$pos = strspn($string1 ^ $string2, "\0");
printf(
'First difference at position %d: "%s" vs "%s"',
$pos, $string1[$pos], $string2[$pos]
);
将会输出:
位置7的第一个区别:“ a”与“ i”
所以应该这样做。这是非常有效的,因为它仅使用C函数,并且仅需要字符串存储的单个副本。
function getCharacterOffsetOfDifference($str1, $str2, $encoding = 'UTF-8') {
return mb_strlen(
mb_strcut(
$str1,
0, strspn($str1 ^ $str2, "\0"),
$encoding
),
$encoding
);
}
首先使用上述方法找到字节级别的差异,然后将偏移量映射到字符级别。这是使用mb_strcut函数完成的,基本上substr尊重多字节字符边界。
var_dump(getCharacterOffsetOfDifference('foo', 'foa')); // 2
var_dump(getCharacterOffsetOfDifference('©oo', 'foa')); // 0
var_dump(getCharacterOffsetOfDifference('f©o', 'fªa')); // 1
它不像第一个解决方案那么优雅,但仍然是单一的(如果使用默认编码则更简单):
return mb_strlen(mb_strcut($str1, 0, strspn($str1 ^ $str2, "\0")));
如果将字符串转换为单字符一个字节值的数组,则可以使用数组比较功能比较字符串。
您可以通过以下方法获得与XOR方法相似的结果。
$string1 = 'foobarbaz';
$string2 = 'foobarbiz';
$array1 = str_split($string1);
$array2 = str_split($string2);
$result = array_diff_assoc($array1, $array2);
$num_diff = count($result);
$first_diff = key($result);
echo "There are " . $num_diff . " differences between the two strings. <br />";
echo "The first difference between the strings is at position " . $first_diff . ". (Zero Index) '$string1[$first_diff]' vs '$string2[$first_diff]'.";
$string1 = 'foorbarbaz';
$string2 = 'foobarbiz';
$array1 = preg_split('((.))u', $string1, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);
$array2 = preg_split('((.))u', $string2, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);
$result = array_diff_assoc($array1, $array2);
$num_diff = count($result);
$first_diff = key($result);
echo "There are " . $num_diff . " differences between the two strings.\n";
echo "The first difference between the strings is at position " . $first_diff . ". (Zero Index) '$string1[$first_diff]' vs '$string2[$first_diff]'.\n";
$array = preg_split('((.))u', $string, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY); 基本上,它将拆分为单个UTF-8字符...
preg_split提示,将其添加到答案中。
我想将此添加为最佳答案的注释,但我的观点还不够。
$string1 = 'foobarbaz';
$string2 = 'foobarbiz';
$pos = strspn($string1 ^ $string2, "\0");
if ($pos < min(strlen($string1), strlen($string2)){
printf(
'First difference at position %d: "%s" vs "%s"',
$pos, $string1[$pos], $string2[$pos]
);
} else if ($pos < strlen($string1)) {
print 'String1 continues with' . substr($string1, $pos);
} else if ($pos < strlen($string2)) {
print 'String2 continues with' . substr($string2, $pos);
} else {
print 'String1 and String2 are equal';
}
string strpbrk ( string $haystack , string $char_list )
strpbrk()在干草堆字符串中搜索char_list。
返回值是$ haystack的子字符串,该字符串从第一个匹配的字符开始。作为API函数,它应该是zippy。然后循环遍历一次,寻找返回字符串的零偏移量以获得偏移量。
abcdef而char_list为fedcba,它将返回整个字符串(因为a在char列表中)。因此,尽管此功能仅适用于可能输入的非常有限的子集,但它无法以通用方式运行,因此对于该问题并不是一个很好的答案。
abcdef在char_list也正确时也会返回abcdef。因此,返回正确答案只是“偶然”的。