如何修复已被错误的字节数长度损坏的序列化字符串?


96

我正在将Hotaru CMS与Image Upload插件一起使用,如果尝试将图像附加到帖子上,则会收到此错误,否则没有错误:

unserialize()[function.unserialize]:偏移量错误

令人反感的代码(错误指向**):

/**
     * Retrieve submission step data
     *
     * @param $key - empty when setting
     * @return bool
     */
    public function loadSubmitData($h, $key = '')
    {
        // delete everything in this table older than 30 minutes:
        $this->deleteTempData($h->db);

        if (!$key) { return false; }

        $cleanKey = preg_replace('/[^a-z0-9]+/','',$key);
        if (strcmp($key,$cleanKey) != 0) {
            return false;
        } else {
            $sql = "SELECT tempdata_value FROM " . TABLE_TEMPDATA . " WHERE tempdata_key = %s ORDER BY tempdata_updatedts DESC LIMIT 1";
            $submitted_data = $h->db->get_var($h->db->prepare($sql, $key));
            **if ($submitted_data) { return unserialize($submitted_data); } else { return false; }** 
        }
    }

表中的数据,请注意末尾有图像信息,我不是PHP专家,所以我想知道你们/ gals会怎么想?

tempdata_value:

a:10:{s:16:"submit_editorial";b:0;s:15:"submit_orig_url";s:13:"www.bbc.co.uk";s:12:"submit_title";s:14:"No title found";s:14:"submit_content";s:12:"dnfsdkfjdfdf";s:15:"submit_category";i:2;s:11:"submit_tags";s:3:"bbc";s:9:"submit_id";b:0;s:16:"submit_subscribe";i:0;s:15:"submit_comments";s:4:"open";s:5:"image";s:19:"C:fakepath100.jpg";}

编辑:我想我已经找到了序列化位...

/**
     * Save submission step data
     *
     * @return bool
     */
    public function saveSubmitData($h)
    {
        // delete everything in this table older than 30 minutes:
        $this->deleteTempData($h->db);

        $sid = preg_replace('/[^a-z0-9]+/i', '', session_id());
        $key = md5(microtime() . $sid . rand());
        $sql = "INSERT INTO " . TABLE_TEMPDATA . " (tempdata_key, tempdata_value, tempdata_updateby) VALUES (%s,%s, %d)";
        $h->db->query($h->db->prepare($sql, $key, serialize($h->vars['submitted_data']), $h->currentUser->id));
        return $key;
    }

3
对我来说,快速解决方案是在序列化/反序列化之前使用base64_encode / decode。davidwalsh.name/php-serialize-unserialize-issues
Valentin

1
我不知道为什么,但是我的解决方法加上了@,@unserialize($product->des_txtmopscol);
Bhavin Rana

2
@BhavinRana的添加@不是错误解决,而是错误消除-使用该技术实际上没有“解决”问题。
mickmackusa

Answers:


219

unserialize() [function.unserialize]: Error at offsetinvalid serialization data由于长度无效引起的

快速解决

您可以做的是recalculating the length序列化数组中的元素

您当前的序列化数据

$data = 'a:10:{s:16:"submit_editorial";b:0;s:15:"submit_orig_url";s:13:"www.bbc.co.uk";s:12:"submit_title";s:14:"No title found";s:14:"submit_content";s:12:"dnfsdkfjdfdf";s:15:"submit_category";i:2;s:11:"submit_tags";s:3:"bbc";s:9:"submit_id";b:0;s:16:"submit_subscribe";i:0;s:15:"submit_comments";s:4:"open";s:5:"image";s:19:"C:fakepath100.jpg";}';

无需重新计算的示例

var_dump(unserialize($data));

输出量

Notice: unserialize() [function.unserialize]: Error at offset 337 of 338 bytes

重新计算

$data = preg_replace('!s:(\d+):"(.*?)";!e', "'s:'.strlen('$2').':\"$2\";'", $data);
var_dump(unserialize($data));

输出量

array
  'submit_editorial' => boolean false
  'submit_orig_url' => string 'www.bbc.co.uk' (length=13)
  'submit_title' => string 'No title found' (length=14)
  'submit_content' => string 'dnfsdkfjdfdf' (length=12)
  'submit_category' => int 2
  'submit_tags' => string 'bbc' (length=3)
  'submit_id' => boolean false
  'submit_subscribe' => int 0
  'submit_comments' => string 'open' (length=4)
  'image' => string 'C:fakepath100.jpg' (length=17)

推荐 ..我

而不是使用这种快速修复方法...我会建议您使用

  • 您如何序列化数据

  • 您如何保存它..

===============================编辑1 ================= ===============

错误

由于使用双引号"而不是单引号而产生了错误',因此将C:\fakepath\100.png其转换为C:fakepath100.jpg

解决错误

您需要更改$h->vars['submitted_data']发件人(请特别注意'

更换

 $h->vars['submitted_data']['image'] = "C:\fakepath\100.png" ;

 $h->vars['submitted_data']['image'] = 'C:\fakepath\100.png' ;

附加过滤器

您还可以在调用序列化之前添加此简单过滤器

function satitize(&$value, $key)
{
    $value = addslashes($value);
}

array_walk($h->vars['submitted_data'], "satitize");

如果您具有UTF字符,也可以运行

 $h->vars['submitted_data'] = array_map("utf8_encode",$h->vars['submitted_data']);

如何在将来的序列化数据中检测问题

  findSerializeError ( $data1 ) ;

输出量

Diffrence 9 != 7
    -> ORD number 57 != 55
    -> Line Number = 315
    -> Section Data1  = pen";s:5:"image";s:19:"C:fakepath100.jpg
    -> Section Data2  = pen";s:5:"image";s:17:"C:fakepath100.jpg
                                            ^------- The Error (Element Length)

findSerializeError 功能

function findSerializeError($data1) {
    echo "<pre>";
    $data2 = preg_replace ( '!s:(\d+):"(.*?)";!e', "'s:'.strlen('$2').':\"$2\";'",$data1 );
    $max = (strlen ( $data1 ) > strlen ( $data2 )) ? strlen ( $data1 ) : strlen ( $data2 );

    echo $data1 . PHP_EOL;
    echo $data2 . PHP_EOL;

    for($i = 0; $i < $max; $i ++) {

        if (@$data1 {$i} !== @$data2 {$i}) {

            echo "Diffrence ", @$data1 {$i}, " != ", @$data2 {$i}, PHP_EOL;
            echo "\t-> ORD number ", ord ( @$data1 {$i} ), " != ", ord ( @$data2 {$i} ), PHP_EOL;
            echo "\t-> Line Number = $i" . PHP_EOL;

            $start = ($i - 20);
            $start = ($start < 0) ? 0 : $start;
            $length = 40;

            $point = $max - $i;
            if ($point < 20) {
                $rlength = 1;
                $rpoint = - $point;
            } else {
                $rpoint = $length - 20;
                $rlength = 1;
            }

            echo "\t-> Section Data1  = ", substr_replace ( substr ( $data1, $start, $length ), "<b style=\"color:green\">{$data1 {$i}}</b>", $rpoint, $rlength ), PHP_EOL;
            echo "\t-> Section Data2  = ", substr_replace ( substr ( $data2, $start, $length ), "<b style=\"color:red\">{$data2 {$i}}</b>", $rpoint, $rlength ), PHP_EOL;
        }

    }

}

保存到数据库的更好方法

$toDatabse = base64_encode(serialize($data));  // Save to database
$fromDatabase = unserialize(base64_decode($data)); //Getting Save Format 

1
爸爸,我用了你惊人的findSerializeError功能,发现了很多错误。请看看我的主题
Max Koretskyi 2013年

1
base64在将它添加到数据库之前在Article上使用...它将保留空字符
Baba

1
那不是保存到数据库的更好的方法。是的,除非您想完全忽略数据库的用途。您将如何在一堆加密值中执行搜索?更不用说膨胀了,呃。正确的编码是正确的答案。
Deji

4
如果使用PHP 5.5,请参见@ r00tAcc3ss答案!stackoverflow.com/a/21389439/1003020
Vinicius Garcia

5
如果您收到此错误“ preg_replace():不再支持/ e修饰符,请改用preg_replace_callback”在php7中-此答案有效stackoverflow.com/a/21389439/2011434
BenB

81

我没有足够的声誉进行评论,所以我希望使用上述“正确”答案的人们可以看到这一点:

从php 5.5开始,preg_replace()中的/ e修饰符已被完全弃用,并且上面的preg_match将出错。php文档建议在其位置使用preg_match_callback。

请找到以下解决方案,以替代上述建议的preg_match。

$fixed_data = preg_replace_callback ( '!s:(\d+):"(.*?)";!', function($match) {      
    return ($match[1] == strlen($match[2])) ? $match[0] : 's:' . strlen($match[2]) . ':"' . $match[2] . '";';
},$bad_data );

3
这似乎是页面上唯一有效利用第一个捕获组的唯一答案。虽然明智的编程仅在字节数实际错误的地方进行替换,但此解决方案不缓存strlen(),因此进行了冗余的函数调用。就个人而言,我发现添加内联条件过于冗长,但是此代码段出于良好的理由而做得很好。
mickmackusa

3
它适用于以下正则表达式'!s:(\d+):"(.*?)";!s'(以's'结尾也可以换行)。感谢下面的adilbo的评论。
ArnoHolo

13

unserialize()失败的另一个原因是因为您不正确地将序列化数据放入数据库中,请参阅此处的官方说明。由于serialize()返回的二进制数据和php变量不关心编码方法,因此将其放入TEXT中,VARCHAR()会导致此错误。

解决方案:将序列化的数据存储到表中的BLOB中。


这解决了Laravel 5中的问题。我将列定义从string()更改为binary()。
WNRosenberg 2015年

OP的问题似乎没有mysql列类型问题。显然是由于对该image值进行不正确的字节计算而损坏了。您的答案与OP的特定问题无关。您可能希望将建议移至:stackoverflow.com/q/5544749/2943403
mickmackusa,

11

快速解决

重新计算序列化数组中元素的长度-但不要使用已弃用的(preg_replace)-最好使用preg_replace_callback:

编辑:现在,新版本不仅长度不正确,而且还修复了换行符并计数了相符的正确字符(感谢mickmackusa

// New Version
$data = preg_replace_callback('!s:\d+:"(.*?)";!s', function($m) { return "s:" . strlen($m[1]) . ':"'.$m[1].'";'; }, $data);

1
这个不正确的解决方案如何有8个投票?我shutter然想起有多少人会不经意间复制粘贴此单线。[悲伤的表情]这是此片段失败的两种方式的证明: 3v4l.org/Cf6Nh 请参阅我的改进模式和自定义替换@ stackoverflow.com/a/55074706/2943403
mickmackusa

1
我的解决方案不再在另一页上,因为对于灾难性损坏的序列化字符串,这是不正确的解决方案。我已将代码段添加到此页面,并提供了说明和演示。 stackoverflow.com/a/55566407/2943403
mickmackusa,

5

导致此错误的原因是您的字符集错误。

在打开标签后设置字符集:

header('Content-Type: text/html; charset=utf-8');

并在数据库中设置charset utf8:

mysql_query("SET NAMES 'utf8'");

我在OP的已发布问题中没有看到任何迹象表明腐败是由于字符集引起的。免费为您的主张辩护,但据我所知,有人手动更新了该image值,但未能更新字节数。除非另行通知,否则我必须假定此回答对OP的问题是不正确的。
mickmackusa

4

您可以使用以下功能,通过多字节字符处理来修复损坏的序列化字符串。

function repairSerializeString($value)
{

    $regex = '/s:([0-9]+):"(.*?)"/';

    return preg_replace_callback(
        $regex, function($match) {
            return "s:".mb_strlen($match[2]).":\"".$match[2]."\""; 
        },
        $value
    );
}

该答案所建议的核心是完全错误的,并且可能损坏完全有效的序列化字符串。不应使用/信任此代码段。
mickmackusa

@mickmackusa我不明白你的意思,你能建议最好的方法吗?或建议对这个答案编辑..
拉杰什Meniya

我在这里提供了正确的解决方案:stackoverflow.com/a/55566407/2943403并解释说这mb_strlen()是不合适的,因为serialize()存储字节数而不是字符数。将您的答案编辑为正确的只会在页面上创建多余的建议。
mickmackusa

4

公共函数unserializeKeySkills($ string){

    $output = array();
    $string = trim(preg_replace('/\s\s+/', ' ',$string));
    $string = preg_replace_callback('!s:(\d+):"(.*?)";!', function($m) { return 's:'.strlen($m[2]).':"'.$m[2].'";'; }, utf8_encode( trim(preg_replace('/\s\s+/', ' ',$string)) ));
    try {
        $output =  unserialize($string);
    } catch (\Exception $e) {
        \Log::error("unserialize Data : " .print_r($string,true));
    }
    return $output;
}

php反序列化
Pardeep Goyal,

此解决方案不适用于许多情况。它假设每个人都希望对序列化字符串中的值进行突变,以将2个或多个空格字符转换为文字空间以及trim()每个匹配的子字符串。仅凭这一点,就不可能推荐这种解决方案。此外,它将阻塞换行符,并不必要地捕获预先存在的字节数,无论如何这将被覆盖。最后,这是“仅代码答案”,这些类型的答案是低价值的,因为它们对教育/增强未来研究人员的作用很小。
mickmackusa

4
$badData = 'a:2:{i:0;s:16:"as:45:"d";
Is \n";i:1;s:19:"as:45:"d";
Is \r\n";}';

您不能使用建议的正则表达式来修复损坏的序列化字符串:

$data = preg_replace('!s:(\d+):"(.*?)";!e', "'s:'.strlen('$2').':\"$2\";'", $badData);
var_dump(@unserialize($data)); // Output: bool(false)

// or

$data = preg_replace_callback(
    '/s:(\d+):"(.*?)";/',
    function($m){
        return 's:' . strlen($m[2]) . ':"' . $m[2] . '";';
    },
    $badData
);
var_dump(@unserialize($data)); // Output: bool(false)

您可以使用以下正则表达式修复损坏的序列化字符串:

$data = preg_replace_callback(
    '/(?<=^|\{|;)s:(\d+):\"(.*?)\";(?=[asbdiO]\:\d|N;|\}|$)/s',
    function($m){
        return 's:' . strlen($m[2]) . ':"' . $m[2] . '";';
    },
    $badData
);

var_dump(@unserialize($data));

输出量

array(2) {
  [0] =>
  string(17) "as:45:"d";
Is \n"
  [1] =>
  string(19) "as:45:"d";
Is \r\n"
}

要么

array(2) {
  [0] =>
  string(16) "as:45:"d";
Is \n"
  [1] =>
  string(18) "as:45:"d";
Is \r\n"
}

1
@mickmackusa谢谢。修复了多字节编码的问题。
ДаниилПутилин

2

官方的文档说,它应该返回false和集E_NOTICE

但是由于您遇到错误,因此错误报告设置为由E_NOTICE触发

这是一个修复程序,可让您检测由返回的错误 unserialize

$old_err=error_reporting(); 
error_reporting($old_err & ~E_NOTICE);
$object = unserialize($serialized_data);
error_reporting($old_err);

您可能要考虑使用base64编码/解码

$string=base64_encode(serialize($obj));
unserialize(base64_decode($string));

base64_encode为我做了把戏。就我而言,我们正在通过serialize命令行传递d数据,看起来有些奇怪的字符使它无法正常工作。
quickshiftin

base64_encode()不是OP提出的问题的解决方案。OP的问题/问题专门针对以下事实:(可能对序列化字符串的“最终数组元素”进行不适当的子字符串替换),序列化字符串中的字节数不正确。请仅发布直接处理所问问题的答案。
mickmackusa

2

此问题中的损坏隔离在序列化字符串末尾的单个子字符串中,可能被懒惰的人想要更新image文件名的人手动替换。使用OP发布的数据,在下面的演示链接中,这一事实将显而易见-简而言之,C:fakepath100.jpg长度不19应该是17

由于序列化的字符串损坏仅限于不正确的字节/字符数,因此以下操作可以很好地用正确的字节计数值更新损坏的字符串。

以下基于正则表达式的替换仅在补救字节数方面有效,仅此而已。

看起来很多早期的帖子只是从其他人那里复制粘贴正则表达式模式。 如果没有用在替换中的字节数,则没有理由捕获它。 另外,添加s在字符串值包含换行符/换行符的情况下 pattern修饰符是合理的做法。

*对于那些不了解序列化对多字节字符的处理的用户,请勿mb_strlen()在自定义回调中使用,因为存储的是字节数而不是字符数,请参阅我的输出...

代码:(带有OP数据的演示)(带有任意样本数据的演示)(带有条件替换的演示

$corrupted = <<<STRING
a:4:{i:0;s:3:"three";i:1;s:5:"five";i:2;s:2:"newline1
newline2";i:3;s:6:"garçon";}
STRING;

$repaired = preg_replace_callback(
        '/s:\d+:"(.*?)";/s',
        //  ^^^- matched/consumed but not captured because not used in replacement
        function ($m) {
            return "s:" . strlen($m[1]) . ":\"{$m[1]}\";";
        },
        $corrupted
    );

echo $corrupted , "\n" , $repaired;
echo "\n---\n";
var_export(unserialize($repaired));

输出:

a:4:{i:0;s:3:"three";i:1;s:5:"five";i:2;s:2:"newline1
Newline2";i:3;s:6:"garçon";}
a:4:{i:0;s:5:"three";i:1;s:4:"five";i:2;s:17:"newline1
Newline2";i:3;s:7:"garçon";}
---
array (
  0 => 'three',
  1 => 'five',
  2 => 'newline1
Newline2',
  3 => 'garçon',
)

一只脚伸到兔子洞下...即使字符串值中包含双引号,但如果字符串值包含";或其他一些monkeywrenching sbustring,你需要去远一点,实行“lookarounds”。我的新模式

检查领先者s是:

  • 整个输入字符串的开头或
  • 在前 ;

并检查是否";为:

  • 在整个输入字符串的末尾或
  • 跟着}
  • 后跟一个字符串或整数声明s:i:

我没有测试所有的可能性;实际上,我相对不熟悉序列化字符串中的所有可能性,因为我从不选择使用序列化数据-在现代应用程序中始终使用json。如果还有其他可能的前导或尾随字符,请发表评论,我将扩展查找范围。

扩展代码段:(演示

$corrupted_byte_counts = <<<STRING
a:12:{i:0;s:3:"three";i:1;s:5:"five";i:2;s:2:"newline1
newline2";i:3;s:6:"garçon";i:4;s:111:"double " quote \"escaped";i:5;s:1:"a,comma";i:6;s:9:"a:colon";i:7;s:0:"single 'quote";i:8;s:999:"semi;colon";s:5:"assoc";s:3:"yes";i:9;s:1:"monkey";wrenching doublequote-semicolon";s:3:"s:";s:9:"val s: val";}
STRING;

$repaired = preg_replace_callback(
        '/(?<=^|;)s:\d+:"(.*?)";(?=$|}|[si]:)/s',
        //^^^^^^^^--------------^^^^^^^^^^^^^-- some additional validation
        function ($m) {
            return 's:' . strlen($m[1]) . ":\"{$m[1]}\";";
        },
        $corrupted_byte_counts
    );

echo "corrupted serialized array:\n$corrupted_byte_counts";
echo "\n---\n";
echo "repaired serialized array:\n$repaired";
echo "\n---\n";
print_r(unserialize($repaired));

输出:

corrupted serialized array:
a:12:{i:0;s:3:"three";i:1;s:5:"five";i:2;s:2:"newline1
newline2";i:3;s:6:"garçon";i:4;s:111:"double " quote \"escaped";i:5;s:1:"a,comma";i:6;s:9:"a:colon";i:7;s:0:"single 'quote";i:8;s:999:"semi;colon";s:5:"assoc";s:3:"yes";i:9;s:1:"monkey";wrenching doublequote-semicolon";s:3:"s:";s:9:"val s: val";}
---
repaired serialized array:
a:12:{i:0;s:5:"three";i:1;s:4:"five";i:2;s:17:"newline1
newline2";i:3;s:7:"garçon";i:4;s:24:"double " quote \"escaped";i:5;s:7:"a,comma";i:6;s:7:"a:colon";i:7;s:13:"single 'quote";i:8;s:10:"semi;colon";s:5:"assoc";s:3:"yes";i:9;s:39:"monkey";wrenching doublequote-semicolon";s:2:"s:";s:10:"val s: val";}
---
Array
(
    [0] => three
    [1] => five
    [2] => newline1
newline2
    [3] => garçon
    [4] => double " quote \"escaped
    [5] => a,comma
    [6] => a:colon
    [7] => single 'quote
    [8] => semi;colon
    [assoc] => yes
    [9] => monkey";wrenching doublequote-semicolon
    [s:] => val s: val
)

1

您将不得不将排序规则类型更改为utf8_unicode_ci并且问题将得到解决。


您认为将归类更改为可以修改OP样本数据中的哪个特定字符utf8_unicode_ci?我对此表示怀疑。
mickmackusa

这实际上对我也有用(除了r00tAcc3ss的答案),有人澄清了为什么吗?作为背景,我将数据从API调用中带到ResourceSpace应用程序,将其存储在数组中,进行序列化并保存。序列化的数据存在保存问题,因此我不得不将其手动编码为UTF-8,我在数据库中处理排序规则和字符集,最后剩下的是utf8_general_ci排序规则,当我将其更改为utf8_unicode_ci时,它可以正常工作。
罗伯托·贝塞拉

1

以我为例,我将序列化的数据存储在BLOBMySQL DB的字段中,该数据显然不足以容纳整个值并将其截断。这样的字符串显然不能反序列化。
一旦转换该字段,MEDIUMBLOB问题就消失了。另外,可能需要将表选项切换ROW_FORMATDYNAMICCOMPRESSED


我要-尽管我是一个TEXT领域,因此被截断为65kb。
2013年

这个问题不会被截断。OP的问题/问题专门针对以下事实:(可能对序列化字符串的“最终数组元素”进行不适当的子字符串替换),序列化字符串中的字节数不正确。请仅发布直接处理所问问题的答案。
mickmackusa

1

在尝试了此页面上的某些操作但未成功后,我查看了页面源代码,并指出序列化字符串中的所有引号均已替换为html-entities。解码这些实体有助于避免很多麻烦:

$myVar = html_entity_decode($myVar);

这个问题不会受到序列化字符串中html编码实体的影响。OP的问题/问题专门针对以下事实:(可能对序列化字符串的“最终数组元素”进行不适当的子字符串替换),序列化字符串中的字节数不正确。请仅发布直接处理所问问题的答案。
mickmackusa

@mickmackusa这个问题差不多有7年了,我的回答是1.5。不过,很高兴您参与其中!
大卫,

我喜欢SO页面-不论年龄大小。我正在寻找不知道好的答案和不太好的答案之间有什么区别的研究人员。不幸的是,此页面充满了偏离主题的建议。
mickmackusa

大!已经有了质量控制和投票,但是我没有理由阻止您;-)
David

哦,不,看看。有些建议应该被否决。太多人无法区分。在此页面上,投票记录完全不表示质量/适当性。我不会浪费我的时间去投票,因为我的投票不会在计票上造成损失。我能做的最好的事情就是发表评论,解释什么是好/坏/丑陋。
mickmackusa

1

这是一个在线工具,用于修复损坏的序列化字符串。

我想补充一点,这主要是由于在数据库上进行了搜索和替换而导致的,并且序列化数据(尤其key length)没有按照替换进行更新,从而导致“损坏”。

尽管如此,以上工具仍使用以下逻辑来修复序列化数据(从此处复制)。

function error_correction_serialise($string){
    // at first, check if "fixing" is really needed at all. After that, security checkup.
    if ( unserialize($string) !== true &&  preg_match('/^[aOs]:/', $string) ) {
         $string = preg_replace_callback( '/s\:(\d+)\:\"(.*?)\";/s',    function($matches){return 's:'.strlen($matches[2]).':"'.$matches[2].'";'; },   $string );
    }
    return $string;
} 

0

此问题的另一个原因可能是“有效负载”会话表的列类型。如果会话中有大量数据,则文本列是不够的。您将需要MEDIUMTEXT甚至LONGTEXT。


这个问题不会被截断。OP的问题/问题专门针对以下事实:(可能对序列化字符串的“最终数组元素”进行不适当的子字符串替换),序列化字符串中的字节数不正确。请仅发布直接处理所问问题的答案。
mickmackusa
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.