遍历Perl哈希键的最安全方法是什么?


107

如果我有一个带(键,值)对的Perl哈希,那么迭代所有键的首选方法是什么?我听说使用each可能以某种方式产生意外的副作用。那么,这是真的吗?以下两种方法之一是最佳方法吗?还是有更好的方法?

# Method 1
while (my ($key, $value) = each(%hash)) {
    # Something
}

# Method 2
foreach my $key (keys(%hash)) {
    # Something
}

Answers:


199

经验法则是使用最适合您需要的功能。

如果您只想要键,并且不打算读取任何值,请使用keys():

foreach my $key (keys %hash) { ... }

如果只需要这些值,请使用values():

foreach my $val (values %hash) { ... }

如果需要键值,请使用each():

keys %hash; # reset the internal iterator so a prior each() doesn't affect the loop
while(my($k, $v) = each %hash) { ... }

如果打算以任何方式更改哈希键,在迭代过程中删除当前键,则不得使用each()。例如,以下代码可以使用keys()来创建具有双倍值的新的大写键集:

%h = (a => 1, b => 2);

foreach my $k (keys %h)
{
  $h{uc $k} = $h{$k} * 2;
}

产生预期的结果哈希:

(a => 1, A => 2, b => 2, B => 4)

但是使用each()做同样的事情:

%h = (a => 1, b => 2);

keys %h;
while(my($k, $v) = each %h)
{
  $h{uc $k} = $h{$k} * 2; # BAD IDEA!
}

以难以预测的方式产生错误的结果。例如:

(a => 1, A => 2, b => 2, B => 8)

但是,这是安全的:

keys %h;
while(my($k, $v) = each %h)
{
  if(...)
  {
    delete $h{$k}; # This is safe
  }
}

所有这些都在perl文档中进行了描述:

% perldoc -f keys
% perldoc -f each

6
请添加一个无效上下文键%h; 在每个循环之前使用迭代器安全显示。
2008年

5
每个都有另一个警告。迭代器绑定到哈希,而不是上下文,这意味着它不是可重入的。例如,如果您遍历哈希,然后打印哈希,perl将在内部重置迭代器,使此代码无限循环:my%hash =(a => 1,b => 2,c => 3,); while(my($ k,$ v)=每个%hash){打印%hash; }详情请参阅blogs.perl.org/users/rurban/2014/04/do-not-use-each.html
Rawler 2014年

28

使用时应注意的一件事each是,它具有在哈希表中添加“状态”的副作用(哈希表必须记住“下一个”键是什么)。当使用上面发布的代码片段之类的代码一遍又一遍地遍历整个哈希时,通常这不是问题。但是,当在处理所有键之前each与诸如之类的语句一起使用 lastreturnwhile ... each循环中退出时,将很难发现问题(根据经验说);

在这种情况下,哈希将记住它已经返回了哪些键,并且当您each下次使用它(也许是完全无关的代码)时,它将继续在该位置。

例:

my %hash = ( foo => 1, bar => 2, baz => 3, quux => 4 );

# find key 'baz'
while ( my ($k, $v) = each %hash ) {
    print "found key $k\n";
    last if $k eq 'baz'; # found it!
}

# later ...

print "the hash contains:\n";

# iterate over all keys:
while ( my ($k, $v) = each %hash ) {
    print "$k => $v\n";
}

打印:

found key bar
found key baz
the hash contains:
quux => 4
foo => 1

键“ bar”和“ baz”发生了什么?它们仍然在那里,但是第二个each从第一个停止的地方开始,直到哈希结束时停止,所以我们在第二个循环中再也看不到它们。


22

each可能导致您出现问题的地方是它是一个真实的,不受范围限制的迭代器。举例来说:

while ( my ($key,$val) = each %a_hash ) {
    print "$key => $val\n";
    last if $val; #exits loop when $val is true
}

# but "each" hasn't reset!!
while ( my ($key,$val) = each %a_hash ) {
    # continues where the last loop left off
    print "$key => $val\n";
}

如果需要确保each获取所有键和值,则需要确保先使用keysvalues(使用,这会重置迭代器)。请参阅每个文档


14

使用每种语法将阻止立即生成整个键集。如果您要对具有数百万行的数据库使用绑定哈希,这可能很重要。您不想一次全部生成整个键列表并耗尽您的物理内存。在这种情况下,每个都充当迭代器,而键实际上在循环开始之前就生成了整个数组。

因此,“每个”唯一真正有用的地方是散列非常大(与可用内存相比)。除非您对手持数据收集设备或内存较小的程序进行编程,否则只有在哈希自身不存在于内存中时,才有可能发生这种情况。

如果内存不是问题,则通常映射或键范式更为流行,更易于阅读。


6

关于此主题的一些其他想法:

  1. 任何哈希迭代器本身都没有不安全的地方。不安全的是在迭代哈希时修改哈希的键。(修改值是绝对安全的。)我唯一想到的潜在副作用是values返回别名,这意味着修改它们将修改哈希的内容。这是设计使然,但在某些情况下可能不是您想要的。
  2. John 接受的答案很好,但有一个例外:文档很清楚,在遍历哈希值时添加键并不安全。它可能适用于某些数据集,但不适用于其他数据集,具体取决于哈希顺序。
  3. 如前所述,删除由返回的最后一个密钥是安全的each。这是不是真正keyseach是一个迭代器,而keys返回一个列表。

2
关于“对密钥不是正确的”,相反:它不适用于密钥,任何删除都是安全的。使用的措词意味着在使用键时删除任何内容永远都不安全。
2008年

2
回复:“任何哈希迭代器都不是不安全的”,另一个危险是假定迭代器在开始每个循环之前都在开始,就像其他人提到的那样。
2008年

3

我也总是使用方法2。使用每种方法的唯一好处是,如果您只是读取(而不是重新分配)哈希条目的值,则不必不断取消对哈希的引用。


3

我可能会对此一口咬,但我认为这是个人喜好。我找不到文档中对each()的引用不同于keys()或values()的引用(除了显而易见的“它们返回不同的事物”的答案。事实上,文档声明使用相同的迭代器,并且它们都返回实际的列表值,而不是它们的副本,并且在使用任何调用对其进行迭代时修改哈希值是不好的。

话虽如此,我几乎总是使用keys(),因为对我而言,通常是更多自我记录,可以通过散列本身访问键的值。当值是对大型结构的引用并且哈希的键已存储在结构中时,有时会使用values(),此时该键是多余的,我不需要它。我想我在Perl编程的10年中两次使用了each()2次,两次可能都是错误的选择=)


2

我通常使用keys,但我无法想到上次使用或阅读的用法each

不要忘了map,这取决于您在循环中正在做什么!

map { print "$_ => $hash{$_}\n" } keys %hash;

6
除非要返回值,否则不要使用map
ko-dos

-1

我会说:

  1. 对大多数人来说,请使用最容易阅读/理解的内容(因此,我通常会说按键)
  2. 在整个代码库中始终使用决定的内容。

这具有两个主要优点:

  1. 发现“通用”代码更容易,因此您可以将其重构为函数/方法。
  2. 将来的开发人员可以更轻松地进行维护。

我认为在每个密钥上使用键并不昂贵,因此无需为代码中的同一事物使用两个不同的结构。


1
随着keys内存使用量的增加hash-size * avg-key-size。鉴于密钥大小仅受内存限制(因为它们只是数组元素,例如“其”对应的值),在某些情况下,其在内存使用和制作时间上的开销可能会过高
阿德里安·
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.