『 GoINg mY WAy 』: CUDA 程式設計(1) -- 簡介

文章取自PTT videcard版作者：a5000ml
※ 引言 ※

    從軟體設計角度來看，CUDA 寫作並不困難，困難之處在於如何最佳化，它需要了解不少硬體的細節。一般而言未最佳化的程式在 GPGPU 上面執行，可以比傳統的 CPU 快上 5~10 倍，而最佳化過的程式，往往還能再增速 5~10 倍，達到 25~100 倍的效能。

    CUDA 和傳統 C++ 最大的差異在於「平行化的程式設計」vs.「序列化的程式設計」，例如傳統上透過迴圈執行數千次的程式碼，在 CUDA 上就可以將它拆解成數百個同時執行的執行緒，每個執行緒只執行十幾次而己，因此產生數十到數百倍的效能。

    CUDA 是在傳統 C++ 的基礎上，加入一些延伸語法，以及輔助的函式庫，而形成的一種程式語言，一般而言只要熟悉 C 或 C++，就很容易上手 (可能比 Java 容易上手，因為傳統 C/C++ 的函式庫都可以用)，編譯好的程式碼，也可以跟其它語言做不錯的聯結。

    在接下來幾篇文章中，我們從簡單的軟體設計角度開始，介紹 CUDA 如何寫作，逐漸
帶出硬體細節，然後介紹最佳化的一些技術。

※ 第一章CUDA程式如何執行 ※

◆ 名詞 ◆

主機 (host) ：插顯示卡那台PC。
裝置 (device)：顯示卡。
核心 (kernel)：在顯示卡上執行的程式碼區段。

◆ 執行流程 ◆

因為 GPGPU 屬於外部裝置(device)，其機器指令有別於傳統 CPU，所以程式核心(kernel) 必須經過特殊編譯後，在執行時期和所需資料由主機(host)送到裝置中，並在執行完成後，將結果資料傳回主機，流程如下。

           主機(host) PC                                            裝置(device) 顯示卡

                                傳送資料到顯示卡記憶體中
(1)     主機記憶體 ------------------------------------------>> 顯示卡記憶體

                               傳送程式碼(kernel)到顯示卡
(2)     主機記憶體 ----------------------------------------->> 顯示卡記憶體

(3)     主機做其它的事 or 閒置                                    執行顯示卡中的程式(kernel)

                                    傳回執行結果
(4)     主機記憶體 <<---------------------------------------- 顯示卡記憶體

實際上，CUDA 提供了很多 API 簡化這些流程，包括記憶體在兩者間的搬移，顯示卡記憶\
體的配置與釋放，kernel 設定、啟動與同步等，所以上面的每一個步驟其實就是去叫用CUDA的函式而已。

◆ 編譯流程 ◆

簡易的編譯流程如下，只要先準備好副檔名為 .cu 的 CUDA 程式碼檔案，然後使用CUDA
的編譯器 (nvcc) 來編譯即可，進階的編譯流程以後再介紹。

                       nvcc
    .cu 檔案 ----------> 可執行檔 or 目的檔

其中 .cu 檔案可以同時包含在 host 中執行的傳統 C++ 程式碼，以及在 GPGPU 中執行的 kernel 程式碼。

##補充：nvcc可以把.cu的檔案編譯分成是兩個部分，一個是利用gcc來編譯C語言的部分
                另外cuda部分編成是PTX的組合寫言。