Junie's Blog

在配置深度学习或大规模语言模型的运行环境时，开发者最常陷入的就是关于 CUDA 版本的各种纠纷。我们在不同的终端命令下往往会看到截然不同的版本号，这很容易让人误以为环境已经彻底损坏。实际上，只要理清系统中同时存在的几种不同层级的 CUDA，这些版本冲突问题就能迎刃而解。

潜伏在系统中的三种 CUDA 角色

我们在日常开发中接触到的 CUDA 其实并不是同一个东西，它们各自扮演着完全不同的角色。

我们在终端敲下 nvidia-smi 看到的那个数字，代表着显卡驱动所能支持的最高 CUDA 版本上限。你可以把它理解为当前电脑这套硬件设施能够提供的最高场馆规格。只要你保持显卡驱动处于较新的状态，这个天花板就会足够高。

当我们通过 pip 安装 PyTorch 或者 CTranslate2 这类包含深度学习运算的库时，安装包内部通常已经打包好了一套编译过的运行库。这些库就像是自带装备的演员，它们有着自己特定的演出需求，也就是所谓的运行库版本。

系统里还有一位隐藏的施工队长，那就是通过 nvcc -V 才能唤醒的 CUDA 编译器。平时我们直接运行写好的 Python 脚本或者加载开源模型时，根本不需要这位队长出场，就算电脑里完全没有安装它也不会影响程序的正常运转。

软件运行遵循着向下兼容的黄金法则。只要你的显卡驱动版本高于或等于 Python 库所要求的版本，程序就能完美运行。也就是说，如果你的电脑驱动支持到 12.4 的高级规格，你完全可以在 Python 的虚拟环境里放心地安装一个只要求 11.8 版本的 PyTorch。这套自带干粮的运行库会在它的虚拟环境里独立安稳地工作，底层的系统驱动会非常包容地向下兼容它。这正是为什么我们不需要追求所有版本号都严丝合缝地保持一致。

源码编译时的严格对齐要求

平稳的向下兼容法则在一种特定场景下会被打破，那就是我们需要在本地当场编译底层加速库的时候。

在接触大模型推理加速或前沿的 Agent 开发时，我们经常会用到一些尚未提供 Windows 现成安装包的高级扩展，比如 flash-attention 或者定制化的算子。当你在终端要求 pip 安装这些源码包时，系统就必须紧急呼叫前面提到的 CUDA 编译器（nvcc）来进行现场施工。

为了防止现场编译出来的二进制文件和 Python 里的运行环境发生冲突，这里的版本匹配要求变得极为严苛。你的系统驱动版本依然需要保持在最高位以掌控全局，而这支施工队的版本（也就是 nvcc 的版本）最好与 Python 虚拟环境中深度学习库的 CUDA 版本完全对齐。如果施工队用的图纸和演员手里的剧本版本不一致，程序在真正调用 GPU 算力时极容易遭遇内存越界或系统崩溃。因此，只有在这种需要深度开发的场景下，我们才需要去 NVIDIA 官网仔细挑选并安装特定版本的 CUDA Toolkit。

理清深度学习环境中的 CUDA 版本之谜

潜伏在系统中的三种 CUDA 角色

日常配置的向下兼容法则

源码编译时的严格对齐要求

评论