大模型部署学习

Posted at 2026-04-11 ai

需要在本地部署自己的大模型

很简单就是使用上了，但是速度很慢。经过调研自己当前的硬件配置应该还能更快一点，需要使用到llama.cpp

1、clone llama.cpp
2、compile:

1 2	cmake .. -A x64 -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release cmake --build . --config Release -j 6

踩坑: RTX3060 需要使用cuda12的版本, 最新的版本cuda13不知道为什么识别不了这个显卡的架构

1 2	$env:LLAMA_CHAT_TEMPLATE_KWARGS = '{"enable_thinking": false}' .\llama-server.exe --model ..\Qwen3.5-35B-A3B-Q4_K_M.gguf --mmproj ..\mmproj-BF16.gguf --ctx-size 4096

使用cuda之后的速度到30t/s

进一步有进一步惊喜