概述
需要在本地部署自己的大模型
开箱即用ollama
很简单就是使用上了,但是速度很慢。经过调研自己当前的硬件配置应该还能更快一点,需要使用到llama.cpp
编译llama.cpp
1、clone llama.cpp
2、compile:
1 | cmake .. -A x64 -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release |
踩坑: RTX3060 需要使用cuda12的版本, 最新的版本cuda13不知道为什么识别不了这个显卡的架构
加载模型
1 | $env:LLAMA_CHAT_TEMPLATE_KWARGS = '{"enable_thinking": false}' |
速度比较
使用cuda之后的速度到30t/s