概述
需要在本地部署自己的大模型
开箱即用ollama
很简单就是使用上了,但是速度很慢。经过调研自己当前的硬件配置应该还能更快一点,需要使用到llama.cpp
编译llama.cpp
1、clone llama.cpp
2、compile:
1 | cmake .. -A x64 -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release |
踩坑: RTX3060 需要使用cuda12的版本, 最新的版本cuda13不知道为什么识别不了这个显卡的架构
加载模型
1 | $env:LLAMA_CHAT_TEMPLATE_KWARGS = '{"enable_thinking": false}' |
启动qwen模型
1 | .\llama-server.exe --model .\model\Qwen3.5-35B-A3B-Q4_K_M\Qwen3.5-35B-A3B-Q4_K_M.gguf --port 8000 |
加载qwen3.6模型的脚本
1 | $env:LLAMA_CHAT_TEMPLATE_KWARGS = '{"enable_thinking": false}' |
速度比较
使用cuda之后的速度到30t/s
llama.cpp的量化方案
一、量化命名规则解析
基本格式
以 Q<比特位数>_<变体类型> 表示,例如:
Q4_K_M:4位量化,混合精度优化
Q5_K_S:5位量化,简化版混合精度
Q8_0:8位量化,无小数保留
2.变体类型含义
K:整数部分位数(例如 Q6_2_4 表示总6位,整数2位+小数4位)
S/M/L:混合量化策略(S=简单,M=中等,L=复杂),影响不同层级的精度分配。
openclaw使用本地大模型
启动llama.cpp
1 | $env:LLAMA_CHAT_TEMPLATE_KWARGS = '{"enable_thinking": false}' |
配置openclaw
1 | { |
启动openclaw网关
1 | openclaw gateway run |
打开openclaw页面(浏览器)
1 | openclaw dashboard |
文生图大模型
编译stable-diffusion.cpp
https://github.com/leejet/stable-diffusion.cpp/tree/master
1 | mkdir build |
下载模型
1 | https://modelscope.cn/models/black-forest-labs/FLUX.2-klein-4B/summary?version=master |
直接使用ComfyUI
直接下载comfyUI,按照对应的模板需要的模型文件下载放在指定文件夹就好了。
hf下载模型
需要先登陆,否则就会下载很慢
生成token,然后配置
1 | hf auth login |
下载指定文件
1 | setproxy |
qwen的越狱模型
md5sum信息
dd5eab43fd631e4e7876ef565e74910d Qwen3.6-35B-A3B-Abliterated-Heretic-Q4_K_M/Qwen3.6-35B-A3B-Abliterated-Heretic-Q4_K_M.gguf
fcb53d69b82f47aba12ce48dbc38057f mmproj-Qwen3.6-35B-A3B-Abliterated-Heretic.gguf
指定cpu占用启动
1 | export LLAMA_CHAT_TEMPLATE_KWARGS='{"enable_thinking": false}' |