查找两个字符串之间不同的第一个字符

71

给定两个相等长度的字符串，是否有一种优雅的方法来获取第一个不同字符的偏移量？

显而易见的解决方案是：

for ($offset = 0; $offset < $length; ++$offset) {
    if ($str1[$offset] !== $str2[$offset]) {
        return $offset;
    }
}

但这对于如此简单的任务而言似乎并不正确。

php string

— 尼基
source

2

编辑：沿同一行的多字节解决方案：

function getCharacterOffsetOfDifference($str1, $str2, $encoding = 'UTF-8') {
    return mb_strlen(
        mb_strcut(
            $str1,
            0, strspn($str1 ^ $str2, "\0"),
            $encoding
        ),
        $encoding
    );
}

首先使用上述方法找到字节级别的差异，然后将偏移量映射到字符级别。这是使用mb_strcut函数完成的，基本上substr尊重多字节字符边界。

var_dump(getCharacterOffsetOfDifference('foo', 'foa')); // 2
var_dump(getCharacterOffsetOfDifference('©oo', 'foa')); // 0
var_dump(getCharacterOffsetOfDifference('f©o', 'fªa')); // 1

它不像第一个解决方案那么优雅，但仍然是单一的（如果使用默认编码则更简单）：

return mb_strlen(mb_strcut($str1, 0, strspn($str1 ^ $str2, "\0")));

— ircmaxell
source

10

你是铃声吗？NikiC怎么知道您打算发布此信息？

— 罗伯特·马丁

12

@罗伯特·马丁（Robert Martin），在这里访问我们的心灵感应课程。

— OZ_ 2011年

5

@Robert：是的，我是。昨天我们讨论了这个问题，而Nikic要求我现在在此处发布此解决方案，以提供基准，以查看是否有其他解决方案（可能比该解决方案更好）。并且也要得到其他人的评论……

— ircmaxell

2

出于好奇，为什么要投反对票？有什么可以改进或扩展的东西（因此可能应该讨论）？

— ircmaxell

1

我猜这与评论1和评论2的投票差异有关（不幸的是）。

— JK。

16

如果将字符串转换为单字符一个字节值的数组，则可以使用数组比较功能比较字符串。

您可以通过以下方法获得与XOR方法相似的结果。

$string1 = 'foobarbaz';
$string2 = 'foobarbiz';

$array1 = str_split($string1);
$array2 = str_split($string2);

$result = array_diff_assoc($array1, $array2);

$num_diff = count($result);
$first_diff = key($result);

echo "There are " . $num_diff . " differences between the two strings. <br />";
echo "The first difference between the strings is at position " . $first_diff . ". (Zero Index) '$string1[$first_diff]' vs '$string2[$first_diff]'.";

编辑：多字节解决方案

$string1 = 'foorbarbaz';
$string2 = 'foobarbiz';

$array1 = preg_split('((.))u', $string1, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);
$array2 = preg_split('((.))u', $string2, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);

$result = array_diff_assoc($array1, $array2);

$num_diff = count($result);
$first_diff = key($result);

echo "There are " . $num_diff . " differences between the two strings.\n";
echo "The first difference between the strings is at position " . $first_diff . ". (Zero Index) '$string1[$first_diff]' vs '$string2[$first_diff]'.\n";

— 史蒂夫·布佐纳斯（Steve Buzonas）
source

我对使用多字节编码不太熟悉。如果有人可以提供更多关于它如何承受/ str_split与mb一起工作的见解，将不胜感激。

— 史蒂夫·布佐纳斯

1

它不适用于多字节编码。如果需要的话，您几乎必须使用这样的方法： $array = preg_split('((.))u', $string, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY); 基本上，它将拆分为单个UTF-8字符...

— ircmaxell 2011年

感谢您的preg_split提示，将其添加到答案中。

— 史蒂夫·布佐纳斯

4

我想将此添加为最佳答案的注释，但我的观点还不够。

$string1 = 'foobarbaz';
$string2 = 'foobarbiz';
$pos = strspn($string1 ^ $string2, "\0");

if ($pos < min(strlen($string1), strlen($string2)){
    printf(
        'First difference at position %d: "%s" vs "%s"',
        $pos, $string1[$pos], $string2[$pos]
    );
} else if ($pos < strlen($string1)) {
    print 'String1 continues with' . substr($string1, $pos);
} else if ($pos < strlen($string2)) {
    print 'String2 continues with' . substr($string2, $pos);
} else {
    print 'String1 and String2 are equal';
}

— 布拉德利·斯拉维克（Bradley Slavik）
source

-5

string strpbrk ( string $haystack , string $char_list )

strpbrk（）在干草堆字符串中搜索char_list。

返回值是$ haystack的子字符串，该字符串从第一个匹配的字符开始。作为API函数，它应该是zippy。然后循环遍历一次，寻找返回字符串的零偏移量以获得偏移量。

— 辛西亚五世
source

当您将字符串“ foobarr”与字符串“ foobaar”进行比较时，该怎么办？字符集没有区别，只是计数和位置。

— 史蒂夫·布佐纳斯

在这里不适用。例如，如果haystack为，abcdef而char_list为fedcba，它将返回整个字符串（因为a在char列表中）。因此，尽管此功能仅适用于可能输入的非常有限的子集，但它无法以通用方式运行，因此对于该问题并不是一个很好的答案。

— ircmaxell，2011年

@NikiC要求“一种优雅的方式来获得第一个不同字符的偏移量”。您的示例中的第一个字符是正确的答案ircmaxell。而史蒂夫有一个更好的观点。我喜欢xor方法，但是unicode是那种药膏。Hmmmm ....

— Sinthia V

@Sinthia：正确，但是abcdef在char_list也正确时也会返回abcdef。因此，返回正确答案只是“偶然”的。

— ircmaxell，2011年