为什么这个F#代码这么慢?


127

C#和F#中的Levenshtein实现。对于大约1500个字符的两个字符串,C#版本的速度提高了10倍。C#:69毫秒,F#867毫秒。为什么?据我所知,他们做的完全相同吗?不管是Release版本还是Debug版本。

编辑:如果有人来这里专门寻找“编辑距离”实现,那么它就坏了。工作代码在这里

C#

private static int min3(int a, int b, int c)
{
   return Math.Min(Math.Min(a, b), c);
}

public static int EditDistance(string m, string n)
{
   var d1 = new int[n.Length];
   for (int x = 0; x < d1.Length; x++) d1[x] = x;
   var d0 = new int[n.Length];
   for(int i = 1; i < m.Length; i++)
   {
      d0[0] = i;
      var ui = m[i];
      for (int j = 1; j < n.Length; j++ )
      {
         d0[j] = 1 + min3(d1[j], d0[j - 1], d1[j - 1] + (ui == n[j] ? -1 : 0));
      }
      Array.Copy(d0, d1, d1.Length);
   }
   return d0[n.Length - 1];
}

F#

let min3(a, b, c) = min a (min b c)

let levenshtein (m:string) (n:string) =
   let d1 = Array.init n.Length id
   let d0 = Array.create n.Length 0
   for i=1 to m.Length-1 do
      d0.[0] <- i
      let ui = m.[i]
      for j=1 to n.Length-1 do
         d0.[j] <- 1 + min3(d1.[j], d0.[j-1], d1.[j-1] + if ui = n.[j] then -1 else 0)
      Array.blit d0 0 d1 0 n.Length
   d0.[n.Length-1]

7
使用内联的性能差异是什么?
gradbot

Answers:


202

问题在于该min3函数被编译为使用泛型比较的泛型函数(我认为这只是使用IComparable,但是实际上更复杂-它会对F#类型使用结构化比较,并且逻辑相当复杂)。

> let min3(a, b, c) = min a (min b c);;
val min3 : 'a * 'a * 'a -> 'a when 'a : comparison

在C#版本中,该函数不是通用函数(只需要int)。您可以通过添加类型注释来改进F#版本(以获得与C#中相同的效果):

let min3(a:int, b, c) = min a (min b c)

...或通过min3as inline(在这种情况下,将专门int用于):

let inline min3(a, b, c) = min a (min b c);;

对于str长度为300 的随机字符串,我得到以下数字:

> levenshtein str ("foo" + str);;
Real: 00:00:03.938, CPU: 00:00:03.900, GC gen0: 275, gen1: 1, gen2: 0
val it : int = 3

> levenshtein_inlined str ("foo" + str);;
Real: 00:00:00.068, CPU: 00:00:00.078, GC gen0: 0, gen1: 0, gen2: 0
val it : int = 3

1
F#为什么不将min3编译为需要int的函数?它在编译时已经知道足够的类型信息来执行此操作。如果min3是C ++模板函数,这就是它的工作方式,所以我对F#为什么不执行此操作感到困惑。
2011年

42
F#推断它尽可能通用,例如“对于支持比较的所有X类型”。 inline就像C ++模板一样工作,它将专门int基于调用站点。
布莱恩

13
C ++模板的行为本质上与F#相同inline。默认行为之所以不同,是因为它建立在运行时所处理的.Net泛型之上(可以说,对于编写通用数字代码而言,它并不是那么好)。但是,在F#中使用C ++行为会导致代码膨胀,因为F#使用泛型的次数更多。
Tomas Petricek 2011年

4
即使在C ++中,C ++模板语义也可能导致代码膨胀,并且缺少便捷的方法来切换到使用运行时机制来避免这种麻烦,这有时很麻烦。但是,担心代码膨胀通常是不合理的-通常,C ++模板可以很好地工作。
2012年

@ Steve314:通过重构所有不使用依赖类型的代码,通常也很容易避免,这样就不会为不同的实例化代码。
ildjarn
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.