long blogs

进一步有进一步惊喜


  • Home
  • Archive
  • Tags
  •  

© 2026 long

Theme Typography by Makito

Proudly published with Hexo

大模型部署学习

Posted at 2026-04-11 ai 

概述

需要在本地部署自己的大模型

开箱即用ollama

很简单就是使用上了,但是速度很慢。经过调研自己当前的硬件配置应该还能更快一点,需要使用到llama.cpp

编译llama.cpp

1、clone llama.cpp
2、compile:

1
2
cmake .. -A x64 -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release
cmake --build . --config Release -j 6

踩坑: RTX3060 需要使用cuda12的版本, 最新的版本cuda13不知道为什么识别不了这个显卡的架构

加载模型

1
2
$env:LLAMA_CHAT_TEMPLATE_KWARGS = '{"enable_thinking": false}'
.\llama-server.exe --model ..\Qwen3.5-35B-A3B-Q4_K_M.gguf --mmproj ..\mmproj-BF16.gguf --ctx-size 4096

速度比较

使用cuda之后的速度到30t/s

Share 

 Next post: mp4视频获取截图并配置UI管理 

© 2026 long

Theme Typography by Makito

Proudly published with Hexo