Answers:
您可以使用PHP Horde_Text_Diff软件包。
但是,此软件包不再可用。
刚刚写了一个类来计算最小的编辑量(从字面上看),以将一个字符串转换为另一个字符串:
http://www.raymondhill.net/finediff/
它具有静态功能来呈现diff的HTML版本。
它是第一个版本,可能会进行改进,但是到目前为止它仍然可以正常工作,因此我将它扔在那里,以防有人需要像我需要的那样高效地生成紧凑的diff。
编辑:现在在Github上:https : //github.com/gorhill/PHP-FineDiff
这是一个不错的选择,也是 http://paulbutler.org/archives/a-simple-diff-algorithm-in-php/
解决问题并不像看起来那么简单,而且问题困扰了我大约一年,直到我弄清楚了。我设法用18行代码用PHP编写了算法。这不是进行差异的最有效方法,但它可能是最容易理解的方法。
它的工作原理是找到两个字符串共有的最长单词序列,然后递归找到字符串其余部分的最长序列,直到子字符串没有共同的单词为止。此时,它会将其余的新单词添加为插入,并将其余的旧单词添加为删除。
您可以在此处下载源代码:PHP SimpleDiff ...
if($matrix[$oindex][$nindex] > $maxlen){
Undefined variable: maxlen
这是一个简短的函数,可用于比较两个数组。它实现了LCS算法:
function computeDiff($from, $to)
{
$diffValues = array();
$diffMask = array();
$dm = array();
$n1 = count($from);
$n2 = count($to);
for ($j = -1; $j < $n2; $j++) $dm[-1][$j] = 0;
for ($i = -1; $i < $n1; $i++) $dm[$i][-1] = 0;
for ($i = 0; $i < $n1; $i++)
{
for ($j = 0; $j < $n2; $j++)
{
if ($from[$i] == $to[$j])
{
$ad = $dm[$i - 1][$j - 1];
$dm[$i][$j] = $ad + 1;
}
else
{
$a1 = $dm[$i - 1][$j];
$a2 = $dm[$i][$j - 1];
$dm[$i][$j] = max($a1, $a2);
}
}
}
$i = $n1 - 1;
$j = $n2 - 1;
while (($i > -1) || ($j > -1))
{
if ($j > -1)
{
if ($dm[$i][$j - 1] == $dm[$i][$j])
{
$diffValues[] = $to[$j];
$diffMask[] = 1;
$j--;
continue;
}
}
if ($i > -1)
{
if ($dm[$i - 1][$j] == $dm[$i][$j])
{
$diffValues[] = $from[$i];
$diffMask[] = -1;
$i--;
continue;
}
}
{
$diffValues[] = $from[$i];
$diffMask[] = 0;
$i--;
$j--;
}
}
$diffValues = array_reverse($diffValues);
$diffMask = array_reverse($diffMask);
return array('values' => $diffValues, 'mask' => $diffMask);
}
它生成两个数组:
如果用字符填充数组,则可用于计算内联差。现在只需一步即可突出显示差异:
function diffline($line1, $line2)
{
$diff = computeDiff(str_split($line1), str_split($line2));
$diffval = $diff['values'];
$diffmask = $diff['mask'];
$n = count($diffval);
$pmc = 0;
$result = '';
for ($i = 0; $i < $n; $i++)
{
$mc = $diffmask[$i];
if ($mc != $pmc)
{
switch ($pmc)
{
case -1: $result .= '</del>'; break;
case 1: $result .= '</ins>'; break;
}
switch ($mc)
{
case -1: $result .= '<del>'; break;
case 1: $result .= '<ins>'; break;
}
}
$result .= $diffval[$i];
$pmc = $mc;
}
switch ($pmc)
{
case -1: $result .= '</del>'; break;
case 1: $result .= '</ins>'; break;
}
return $result;
}
例如。:
echo diffline('StackOverflow', 'ServerFault')
将输出:
S<del>tackO</del><ins>er</ins>ver<del>f</del><ins>Fau</ins>l<del>ow</del><ins>t</ins>
小号粘性erverF福尔owŤ
补充笔记:
computeDiff is not found
xdiff还有一个PECL扩展:
特别是:
PHP手册中的示例:
<?php
$old_article = file_get_contents('./old_article.txt');
$new_article = $_POST['article'];
$diff = xdiff_string_diff($old_article, $new_article, 1);
if (is_string($diff)) {
echo "Differences between two articles:\n";
echo $diff;
}
我既遇到了基于PEAR的问题,也遇到了显示的更简单的问题,这给我带来了麻烦。因此,这是一个利用Unix diff命令的解决方案(显然,您必须在Unix系统上,或者必须具有有效的Windows diff命令才能工作)。选择您喜欢的临时目录,然后根据需要将例外更改为返回代码。
/**
* @brief Find the difference between two strings, lines assumed to be separated by "\n|
* @param $new string The new string
* @param $old string The old string
* @return string Human-readable output as produced by the Unix diff command,
* or "No changes" if the strings are the same.
* @throws Exception
*/
public static function diff($new, $old) {
$tempdir = '/var/somewhere/tmp'; // Your favourite temporary directory
$oldfile = tempnam($tempdir,'OLD');
$newfile = tempnam($tempdir,'NEW');
if (!@file_put_contents($oldfile,$old)) {
throw new Exception('diff failed to write temporary file: ' .
print_r(error_get_last(),true));
}
if (!@file_put_contents($newfile,$new)) {
throw new Exception('diff failed to write temporary file: ' .
print_r(error_get_last(),true));
}
$answer = array();
$cmd = "diff $newfile $oldfile";
exec($cmd, $answer, $retcode);
unlink($newfile);
unlink($oldfile);
if ($retcode != 1) {
throw new Exception('diff failed with return code ' . $retcode);
}
if (empty($answer)) {
return 'No changes';
} else {
return implode("\n", $answer);
}
}
$sequence1 = $string1; $sequence2 = $string2; $end1 = strlen($string1) - 1; $end2 = strlen($string2) - 1;
为$sequence1 = preg_split('//u', $string1, -1, PREG_SPLIT_NO_EMPTY); $sequence2 = preg_split('//u', $string2, -1, PREG_SPLIT_NO_EMPTY); $end1 = count($sequence1) - 1; $end2 = count($sequence2) - 1;
您正在寻找的是“差异算法”。快速的Google搜索使我找到了这个解决方案。我没有测试它,但是也许它可以满足您的需求。
Neil Frasers的php端口diff_match_patch(获得Apache 2.0许可)
我建议您从PHP内核中查看这些很棒的功能:
similar_text —计算两个字符串之间的相似度
http://www.php.net/manual/zh/function.similar-text.php
levenshtein —计算两个字符串之间的Levenshtein距离
http://www.php.net/manual/zh/function.levenshtein.php
soundex —计算字符串的soundex键
http://www.php.net/manual/zh/function.soundex.php
metaphone —计算字符串的metaphone键
我遇到了Chris Boulton的基于PHP difflib的PHP diff类,这可能是一个很好的解决方案:
另一个解决方案(用于并排比较而不是统一视图):https : //github.com/danmysak/side-by-side。