long blogs

进一步有进一步惊喜


  • Home
  • Archive
  • Tags
  •  

© 2026 long

Theme Typography by Makito

Proudly published with Hexo

大模型部署学习

Posted at 2026-04-11 ai 

概述

需要在本地部署自己的大模型

开箱即用ollama

很简单就是使用上了,但是速度很慢。经过调研自己当前的硬件配置应该还能更快一点,需要使用到llama.cpp

编译llama.cpp

1、clone llama.cpp
2、compile:

1
2
cmake .. -A x64 -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release
cmake --build . --config Release -j 6

踩坑: RTX3060 需要使用cuda12的版本, 最新的版本cuda13不知道为什么识别不了这个显卡的架构

加载模型

1
2
$env:LLAMA_CHAT_TEMPLATE_KWARGS = '{"enable_thinking": false}'
.\llama-server.exe --model ..\Qwen3.5-35B-A3B-Q4_K_M.gguf --mmproj ..\mmproj-BF16.gguf --ctx-size 4096

启动qwen模型

1
.\llama-server.exe --model .\model\Qwen3.5-35B-A3B-Q4_K_M\Qwen3.5-35B-A3B-Q4_K_M.gguf --port 8000

加载qwen3.6模型的脚本

1
2
$env:LLAMA_CHAT_TEMPLATE_KWARGS = '{"enable_thinking": false}'
.\Release\llama-server.exe --model .\model\Qwen3.6-35B-A3B-UD-Q4_K_M\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf --mmproj .\model\Qwen3.6-35B-A3B-UD-Q4_K_M\mmproj-BF16.gguf --ctx-size 5114

速度比较

使用cuda之后的速度到30t/s

llama.cpp的量化方案

一、量化命名规则解析

基本格式
以 Q<比特位数>_<变体类型> 表示,例如:
Q4_K_M:4位量化,混合精度优化
Q5_K_S:5位量化,简化版混合精度
Q8_0:8位量化,无小数保留
2.变体类型含义

K:整数部分位数(例如 Q6_2_4 表示总6位,整数2位+小数4位)
S/M/L:混合量化策略(S=简单,M=中等,L=复杂),影响不同层级的精度分配。

openclaw使用本地大模型

启动llama.cpp

1
2
$env:LLAMA_CHAT_TEMPLATE_KWARGS = '{"enable_thinking": false}'
.\llama-server.exe --model .\model\Qwen3.5-35B-A3B-Q4_K_M\Qwen3.5-35B-A3B-Q4_K_M.gguf --port 8000 --ctx-size 204800

配置openclaw

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
{
"agents": {
"defaults": {
"model": {
"primary": "local/Qwen3.5-35B-A3B-Q4_K_M.gguf"
},
"models": {
"local/Qwen3.5-35B-A3B-Q4_K_M.gguf": {}
},
"workspace": "C:\\Users\\root\\.openclaw\\workspace"
}
},
"gateway": {
"auth": {
"mode": "token",
"token": "25a36f13f4db8f14cf5c039f93b9a436015c261900cfb4b0"
},
"bind": "loopback",
"mode": "local",
"port": 18789,
"tailscale": {
"mode": "off",
"resetOnExit": false
}
},
"meta": {
"lastTouchedAt": "2026-04-12T05:02:17.058Z",
"lastTouchedVersion": "2026.4.11"
},
"models": {
"mode": "merge",
"providers": {
"local": {
"baseUrl": "http://127.0.0.1:8000/v1",
"apiKey": "sk-local",
"api": "openai-completions",
"models": [
{
"id": "Qwen3.5-35B-A3B-Q4_K_M.gguf",
"name": "llama.cpp local"
}
]
}
}
},
"plugins": {
"allow": [
"openclaw-web-search",
"ollama",
"memory-core"
],
"entries": {
"ollama": {
"enabled": true
},
"openclaw-web-search": {
"enabled": true
}
},
"installs": {
"openclaw-web-search": {
"installPath": "C:\\Users\\root\\.openclaw\\extensions\\openclaw-web-search",
"source": "npm",
"spec": "@ollama/openclaw-web-search"
}
}
},
"session": {
"dmScope": "per-channel-peer"
},
"tools": {
"alsoAllow": [
"ollama_web_search",
"ollama_web_fetch"
],
"profile": "coding",
"web": {
"fetch": {
"enabled": false
},
"search": {
"enabled": false
}
}
},
"wizard": {
"lastRunAt": "2026-04-08T18:12:22.052Z",
"lastRunCommand": "onboard",
"lastRunMode": "local",
"lastRunVersion": "2026.4.8"
}
}

启动openclaw网关

1
openclaw gateway run

打开openclaw页面(浏览器)

1
openclaw dashboard

文生图大模型

编译stable-diffusion.cpp

https://github.com/leejet/stable-diffusion.cpp/tree/master

1
2
3
4
mkdir build
cd build
cmake .. -DSD_CUDA=O
cmake --build . --config Release -j 6

下载模型

1
https://modelscope.cn/models/black-forest-labs/FLUX.2-klein-4B/summary?version=master

直接使用ComfyUI

直接下载comfyUI,按照对应的模板需要的模型文件下载放在指定文件夹就好了。

hf下载模型

需要先登陆,否则就会下载很慢

生成token,然后配置

1
hf auth login

下载指定文件

1
2
3
4
setproxy
export HF_HOME="/work/ext-storage/hf/cache"
HF_XET_HIGH_PERFORMANCE=1 hf download Youssofal/Qwen3.6-35B-A3B-Abliterated-Heretic-GGUF Qwen3.6-35B-A3B-Abliterated-Heretic-Q4_K_M/Qwen3.6-35B-A3B-Abliterated-Heretic-Q4_K_M.gguf

qwen的越狱模型
md5sum信息
dd5eab43fd631e4e7876ef565e74910d Qwen3.6-35B-A3B-Abliterated-Heretic-Q4_K_M/Qwen3.6-35B-A3B-Abliterated-Heretic-Q4_K_M.gguf
fcb53d69b82f47aba12ce48dbc38057f mmproj-Qwen3.6-35B-A3B-Abliterated-Heretic.gguf

指定cpu占用启动

1
2
export LLAMA_CHAT_TEMPLATE_KWARGS='{"enable_thinking": false}'
./llama-server -t 6 -tb 6 --reasoning off --model /work/ext-storage/hf/cache/hub/models--Youssofal--Qwen3.6-35B-A3B-Abliterated-Heretic-GGUF/snapshots/4c22107061e656fb2a87a3ec2491bb61975eb581/Qwen3.6-35B-A3B-Abliterated-Heretic-Q4_K_M/Qwen3.6-35B-A3B-Abliterated-Heretic-Q4_K_M.gguf --mmproj /work/ext-storage/hf/cache/hub/models--Youssofal--Qwen3.6-35B-A3B-Abliterated-Heretic-GGUF/snapshots/4c22107061e656fb2a87a3ec2491bb61975eb581/mmproj-Qwen3.6-35B-A3B-Abliterated-Heretic.gguf --ctx-size 1024

Share 

 Next post: mp4视频获取截图并配置UI管理 

© 2026 long

Theme Typography by Makito

Proudly published with Hexo