浏览关于CUDA问题的答案和评论,以及在CUDA标签Wiki中,我经常看到有人建议应检查每个API调用的返回状态是否有错误。API文档包括像功能cudaGetLastError
,cudaPeekAtLastError
以及cudaGetErrorString
,但什么是把这些结合在一起,以可靠地捕捉和报告错误,而不需要很多额外的代码的最佳方式?
浏览关于CUDA问题的答案和评论,以及在CUDA标签Wiki中,我经常看到有人建议应检查每个API调用的返回状态是否有错误。API文档包括像功能cudaGetLastError
,cudaPeekAtLastError
以及cudaGetErrorString
,但什么是把这些结合在一起,以可靠地捕捉和报告错误,而不需要很多额外的代码的最佳方式?
Answers:
检查运行时API代码中的错误的最佳方法可能是定义一个断言样式处理函数和包装宏,如下所示:
#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, const char *file, int line, bool abort=true)
{
if (code != cudaSuccess)
{
fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
if (abort) exit(code);
}
}
然后,您可以使用gpuErrchk
宏包装每个API调用,该宏将处理包装的API调用的返回状态,例如:
gpuErrchk( cudaMalloc(&a_d, size*sizeof(int)) );
如果调用中存在错误,则描述该错误以及发生错误的代码中的文件和行的文本消息将被发送到stderr
该应用程序,并且应用程序将退出。可以想象,您可以进行修改gpuAssert
以引发异常,而不是exit()
在需要时在更复杂的应用程序中调用。
第二个相关问题是如何检查内核启动中的错误,这些错误不能直接包装在宏调用中,例如标准运行时API调用。对于内核,如下所示:
kernel<<<1,1>>>(a);
gpuErrchk( cudaPeekAtLastError() );
gpuErrchk( cudaDeviceSynchronize() );
首先将检查无效的启动参数,然后强制主机等待直到内核停止并检查执行错误。如果您随后有这样的阻塞API调用,则可以消除同步:
kernel<<<1,1>>>(a_d);
gpuErrchk( cudaPeekAtLastError() );
gpuErrchk( cudaMemcpy(a_h, a_d, size * sizeof(int), cudaMemcpyDeviceToHost) );
在这种情况下,cudaMemcpy
调用可以返回内核执行过程中发生的错误,也可以返回内存副本本身的错误。这对于初学者可能会造成混淆,我建议在调试过程中启动内核后使用显式同步,以使您更容易理解可能出现问题的位置。
请注意,在使用CUDA动态并行时,可以并且应该将非常相似的方法应用于设备内核中以及任何设备内核启动之后对CUDA运行时API的任何使用:
#include <assert.h>
#define cdpErrchk(ans) { cdpAssert((ans), __FILE__, __LINE__); }
__device__ void cdpAssert(cudaError_t code, const char *file, int line, bool abort=true)
{
if (code != cudaSuccess)
{
printf("GPU kernel assert: %s %s %d\n", cudaGetErrorString(code), file, line);
if (abort) assert(0);
}
}
cudaDeviceReset()
还应该在退出之前添加吗?还有用于内存释放的子句?
talonmies的上述回答是一种以assert
-style方式中止应用程序的好方法。
有时我们可能希望报告C ++上下文中的错误情况并从中恢复,这是大型应用程序的一部分。
这是一种合理的简洁方法,通过抛出std::runtime_error
使用using 派生的C ++异常来实现thrust::system_error
:
#include <thrust/system_error.h>
#include <thrust/system/cuda/error.h>
#include <sstream>
void throw_on_cuda_error(cudaError_t code, const char *file, int line)
{
if(code != cudaSuccess)
{
std::stringstream ss;
ss << file << "(" << line << ")";
std::string file_and_line;
ss >> file_and_line;
throw thrust::system_error(code, thrust::cuda_category(), file_and_line);
}
}
它将把文件名,行号和的英语描述cudaError_t
合并到引发的异常.what()
成员中:
#include <iostream>
int main()
{
try
{
// do something crazy
throw_on_cuda_error(cudaSetDevice(-1), __FILE__, __LINE__);
}
catch(thrust::system_error &e)
{
std::cerr << "CUDA error after cudaSetDevice: " << e.what() << std::endl;
// oops, recover
cudaSetDevice(0);
}
return 0;
}
输出:
$ nvcc exception.cu -run
CUDA error after cudaSetDevice: exception.cu(23): invalid device ordinal
的客户 some_function
可以需要将CUDA错误与其他类型的错误区分开:
try
{
// call some_function which may throw something
some_function();
}
catch(thrust::system_error &e)
{
std::cerr << "CUDA error during some_function: " << e.what() << std::endl;
}
catch(std::bad_alloc &e)
{
std::cerr << "Bad memory allocation during some_function: " << e.what() << std::endl;
}
catch(std::runtime_error &e)
{
std::cerr << "Runtime error during some_function: " << e.what() << std::endl;
}
catch(...)
{
std::cerr << "Some other kind of error during some_function" << std::endl;
// no idea what to do, so just rethrow the exception
throw;
}
因为thrust::system_error
是a std::runtime_error
,如果我们不需要上一个示例的精度,则可以用与广泛的错误类别相同的方式来处理它:
try
{
// call some_function which may throw something
some_function();
}
catch(std::runtime_error &e)
{
std::cerr << "Runtime error during some_function: " << e.what() << std::endl;
}
<thrust/system/cuda_error.h>
现在有效<thrust/system/cuda/error.h>
。
我以前对这个问题很生气;和Talonmies和Jared的答案一样,我曾经有一个宏兼包装函数函数解决方案,但是,老实说?它使使用CUDA Runtime API变得更加丑陋且类似于C。
因此,我以另一种更基本的方式来解决这个问题。有关结果的示例,这是CUDA vectorAdd
示例的一部分- 对每个运行时API调用进行完整的错误检查:
// (... prepare host-side buffers here ...)
auto current_device = cuda::device::current::get();
auto d_A = cuda::memory::device::make_unique<float[]>(current_device, numElements);
auto d_B = cuda::memory::device::make_unique<float[]>(current_device, numElements);
auto d_C = cuda::memory::device::make_unique<float[]>(current_device, numElements);
cuda::memory::copy(d_A.get(), h_A.get(), size);
cuda::memory::copy(d_B.get(), h_B.get(), size);
// (... prepare a launch configuration here... )
cuda::launch(vectorAdd, launch_config,
d_A.get(), d_B.get(), d_C.get(), numElements
);
cuda::memory::copy(h_C.get(), d_C.get(), size);
// (... verify results here...)
再次-检查所有可能的错误,并检查是否发生错误(异常:注意:如果内核在启动后导致某些错误,则将在尝试复制结果后而不是在捕获之前捕获该错误;要确保内核成功,您将需要使用命令检查启动和副本之间的错误cuda::outstanding_error::ensure_none()
)。
上面的代码使用了我的
CUDA运行时API库(Github)的 Thin Modern-C ++包装器
请注意,异常在调用失败后包含字符串说明和CUDA运行时API状态代码。
这些包装程序如何自动检查CUDA错误的一些链接:
这里讨论的解决方案对我来说效果很好。该解决方案使用内置的cuda函数,实现起来非常简单。
相关代码复制如下:
#include <stdio.h>
#include <stdlib.h>
__global__ void foo(int *ptr)
{
*ptr = 7;
}
int main(void)
{
foo<<<1,1>>>(0);
// make the host block until the device is finished with foo
cudaDeviceSynchronize();
// check for error
cudaError_t error = cudaGetLastError();
if(error != cudaSuccess)
{
// print the CUDA error message and exit
printf("CUDA error: %s\n", cudaGetErrorString(error));
exit(-1);
}
return 0;
}
getLastCudaError
和的宏checkCudaErrors
,这些宏几乎可以执行公认的答案中所述的内容。请参阅样本进行演示。只需选择将示例与工具包一起安装,您将拥有它。