Linux下的CUDA示例代码实现 (linux cuda example)
随着计算机硬件的不断发展,GPU(Graphics Processing Unit)已经不再是仅仅用于图形渲染的设备。GPU的并行计算能力,成为许多科学计算、数据分析等领域的研究者所喜爱的硬件加速平台。CUDA(Compute Unified Device Architecture)是NVIDIA开发的并行计算平台和编程模型,结合了经典的C语言语法和并行计算模式,能够显著提高计算效率。本文将介绍在Linux系统下使用CUDA实现示例代码的过程。
环境设置
在Linux系统上使用CUDA的前提是要安装相应的NVIDIA GPU驱动。安装方式多种多样,这里不做过多介绍。可以去NVIDIA官网下载安装程序,也可以通过apt-get等命令进行安装。还需要安装CUDA Toolkit,以及nvcc(NVIDIA CUDA Compiler)编译器。在安装CUDA Toolkit的过程中,需要注意选择与自己显卡匹配的版本。安装完成后,需要将nvcc所在路径添加至环境变量中,以便在命令行中直接使用nvcc命令编译CUDA代码。
编写示例代码
我们将编写一个简单的例子,用于理解CUDA的编程流程。该代码的功能是将一个数组中的数全部加一,然后输出到控制台。需要在CUDA中分配内存,以供并行计算使用。代码如下:
“`
#include
#define N 10
__global__ void addOne(int *a){
int tid = blockIdx.x * blockDim.x + threadIdx.x;
if(tid
a[tid] += 1;
}
}
int mn(){
int a[N], *dev_a;
cudaMalloc((void**)&dev_a, N*sizeof(int));
for(int i = 0; i
a[i] = i;
}
cudaMemcpy(dev_a, a, N*sizeof(int), cudaMemcpyHostToDevice);
addOne>>(dev_a);
cudaMemcpy(a, dev_a, N*sizeof(int), cudaMemcpyDeviceToHost);
for(int i = 0; i
printf(“%d “, a[i]);
}
printf(“\n”);
cudaFree(dev_a);
return 0;
}
“`
上述代码中,我们在主函数中定义一个数组a,大小为N。然后使用cudaMalloc函数在GPU上分配内存空间,大小为N*sizeof(int)。使用cudaMemcpy函数将主机内存上的数组a复制到设备端(dev_a)的内存中。接着,我们调用addOne>>(dev_a)函数,使用1个线程块,每个线程块包含N个线程,对数组dev_a中的元素逐个加1。我们再次使用cudaMemcpy函数将设备端上的结果复制到主机端的数组a中。我们遍历数组a并输出到控制台。在程序结束前,使用cudaFree函数释放GPU上分配的内存。
编译并运行代码
编译CUDA代码的方式与编译普通C语言代码类似,使用nvcc命令进行编译。在命令行中输入以下命令:
“`
$ nvcc add.cu -o add
“`
其中,add.cu 是CUDA代码的文件名,add是生成的可执行文件的名称。如果出现错误,需要检查CUDA和GPU驱动是否正确安装。如果安装位置在非默认位置,需要将路径添加至环境变量中。
运行生成的可执行文件,将会在控制台上输出从0到9的数组,每个数字都比原来大1。这意味着我们成功地使用了CUDA在GPU上进行了并行计算。
小结