我只是破解了一个小程序,该程序会生成一组随机数,每次都会在相同的种子处重新启动,以确保其“公平”和“可比”。在进行过程中,它将计算出这些值的最小值和最大值。而当它已经产生的一组数字,它计算多少都高于平均水平的min
和max
。
对于VERY小型阵列,VLA的over具有明显的好处std::vector<>
。
这不是一个真正的问题,但是我们可以轻松地想象一下,我们将从一个小文件中读取值,而不是使用随机数,并使用相同类型的代码进行其他更有意义的计数/最小/最大计算。
对于相关函数中非常小的“随机数数量”(x)值,该vla
解决方案大获全胜。随着大小变大,“获胜”会变小,并且给定足够的大小,矢量解似乎更有效率-不必过多研究该变体,因为当我们在VLA中开始有成千上万个元素时,真的是他们的本意...
而且我敢肯定有人会告诉我,有一些方法可以用一堆模板编写所有这些代码,并且可以在不运行RDTSC和cout
运行时运行更多代码的情况下完成此工作……但是我认为那不是真的重点。
运行此特定变体时,我在func1
(VLA)和func2
(std :: vector)之间得到大约10%的差异。
count = 9884
func1 time in clocks per iteration 7048685
count = 9884
func2 time in clocks per iteration 7661067
count = 9884
func3 time in clocks per iteration 8971878
编译为: g++ -O3 -Wall -Wextra -std=gnu++0x -o vla vla.cpp
这是代码:
#include <iostream>
#include <vector>
#include <cstdint>
#include <cstdlib>
using namespace std;
const int SIZE = 1000000;
uint64_t g_val[SIZE];
static __inline__ unsigned long long rdtsc(void)
{
unsigned hi, lo;
__asm__ __volatile__ ("rdtsc" : "=a"(lo), "=d"(hi));
return ( (unsigned long long)lo)|( ((unsigned long long)hi)<<32 );
}
int func1(int x)
{
int v[x];
int vmax = 0;
int vmin = x;
for(int i = 0; i < x; i++)
{
v[i] = rand() % x;
if (v[i] > vmax)
vmax = v[i];
if (v[i] < vmin)
vmin = v[i];
}
int avg = (vmax + vmin) / 2;
int count = 0;
for(int i = 0; i < x; i++)
{
if (v[i] > avg)
{
count++;
}
}
return count;
}
int func2(int x)
{
vector<int> v;
v.resize(x);
int vmax = 0;
int vmin = x;
for(int i = 0; i < x; i++)
{
v[i] = rand() % x;
if (v[i] > vmax)
vmax = v[i];
if (v[i] < vmin)
vmin = v[i];
}
int avg = (vmax + vmin) / 2;
int count = 0;
for(int i = 0; i < x; i++)
{
if (v[i] > avg)
{
count++;
}
}
return count;
}
int func3(int x)
{
vector<int> v;
int vmax = 0;
int vmin = x;
for(int i = 0; i < x; i++)
{
v.push_back(rand() % x);
if (v[i] > vmax)
vmax = v[i];
if (v[i] < vmin)
vmin = v[i];
}
int avg = (vmax + vmin) / 2;
int count = 0;
for(int i = 0; i < x; i++)
{
if (v[i] > avg)
{
count++;
}
}
return count;
}
void runbench(int (*f)(int), const char *name)
{
srand(41711211);
uint64_t long t = rdtsc();
int count = 0;
for(int i = 20; i < 200; i++)
{
count += f(i);
}
t = rdtsc() - t;
cout << "count = " << count << endl;
cout << name << " time in clocks per iteration " << dec << t << endl;
}
struct function
{
int (*func)(int);
const char *name;
};
#define FUNC(f) { f, #f }
function funcs[] =
{
FUNC(func1),
FUNC(func2),
FUNC(func3),
};
int main()
{
for(size_t i = 0; i < sizeof(funcs)/sizeof(funcs[0]); i++)
{
runbench(funcs[i].func, funcs[i].name);
}
}
alloca()
确实会胜过。但这是一个真正的难题,因为小阵列应仅使用固定大小,而大阵列可能仍需要堆。malloc()