大模型部署学习

Posted at 2026-04-11 ai

概述

需要在本地部署自己的大模型

开箱即用ollama

很简单就是使用上了，但是速度很慢。经过调研自己当前的硬件配置应该还能更快一点，需要使用到llama.cpp

编译llama.cpp

1、clone llama.cpp
2、compile:

1 2	cmake .. -A x64 -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release cmake --build . --config Release -j 6

踩坑: RTX3060 需要使用cuda12的版本, 最新的版本cuda13不知道为什么识别不了这个显卡的架构

加载模型

1 2	$env:LLAMA_CHAT_TEMPLATE_KWARGS = '{"enable_thinking": false}' .\llama-server.exe --model ..\Qwen3.5-35B-A3B-Q4_K_M.gguf --mmproj ..\mmproj-BF16.gguf --ctx-size 4096

启动qwen模型

1	.\llama-server.exe --model .\model\Qwen3.5-35B-A3B-Q4_K_M\Qwen3.5-35B-A3B-Q4_K_M.gguf --port 8000

加载qwen3.6模型的脚本

1
2

$env:LLAMA_CHAT_TEMPLATE_KWARGS = '{"enable_thinking": false}'
.\Release\llama-server.exe --model .\model\Qwen3.6-35B-A3B-UD-Q4_K_M\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf --mmproj .\model\Qwen3.6-35B-A3B-UD-Q4_K_M\mmproj-BF16.gguf --ctx-size 5114

速度比较

使用cuda之后的速度到30t/s

llama.cpp的量化方案

一、量化命名规则解析

基本格式
以 Q<比特位数>_<变体类型> 表示，例如：
Q4_K_M：4位量化，混合精度优化
Q5_K_S：5位量化，简化版混合精度
Q8_0：8位量化，无小数保留
2.变体类型含义

K：整数部分位数（例如 Q6_2_4 表示总6位，整数2位+小数4位）
S/M/L：混合量化策略（S=简单，M=中等，L=复杂），影响不同层级的精度分配。

openclaw使用本地大模型

启动llama.cpp

1 2	$env:LLAMA_CHAT_TEMPLATE_KWARGS = '{"enable_thinking": false}' .\llama-server.exe --model .\model\Qwen3.5-35B-A3B-Q4_K_M\Qwen3.5-35B-A3B-Q4_K_M.gguf --port 8000 --ctx-size 204800

配置openclaw

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "local/Qwen3.5-35B-A3B-Q4_K_M.gguf"
      },
      "models": {
        "local/Qwen3.5-35B-A3B-Q4_K_M.gguf": {}
      },
      "workspace": "C:\\Users\\root\\.openclaw\\workspace"
    }
  },
  "gateway": {
    "auth": {
      "mode": "token",
      "token": "25a36f13f4db8f14cf5c039f93b9a436015c261900cfb4b0"
    },
    "bind": "loopback",
    "mode": "local",
    "port": 18789,
    "tailscale": {
      "mode": "off",
      "resetOnExit": false
    }
  },
  "meta": {
    "lastTouchedAt": "2026-04-12T05:02:17.058Z",
    "lastTouchedVersion": "2026.4.11"
  },
  "models": {
    "mode": "merge",
    "providers": {
      "local": {
        "baseUrl": "http://127.0.0.1:8000/v1",
        "apiKey": "sk-local",
        "api": "openai-completions",
        "models": [
          {
            "id": "Qwen3.5-35B-A3B-Q4_K_M.gguf",
            "name": "llama.cpp local"
          }
        ]
      }
    }
  },
  "plugins": {
    "allow": [
      "openclaw-web-search",
      "ollama",
      "memory-core"
    ],
    "entries": {
      "ollama": {
        "enabled": true
      },
      "openclaw-web-search": {
        "enabled": true
      }
    },
    "installs": {
      "openclaw-web-search": {
        "installPath": "C:\\Users\\root\\.openclaw\\extensions\\openclaw-web-search",
        "source": "npm",
        "spec": "@ollama/openclaw-web-search"
      }
    }
  },
  "session": {
    "dmScope": "per-channel-peer"
  },
  "tools": {
    "alsoAllow": [
      "ollama_web_search",
      "ollama_web_fetch"
    ],
    "profile": "coding",
    "web": {
      "fetch": {
        "enabled": false
      },
      "search": {
        "enabled": false
      }
    }
  },
  "wizard": {
    "lastRunAt": "2026-04-08T18:12:22.052Z",
    "lastRunCommand": "onboard",
    "lastRunMode": "local",
    "lastRunVersion": "2026.4.8"
  }
}

启动openclaw网关

1	openclaw gateway run

打开openclaw页面(浏览器)

1	openclaw dashboard

文生图大模型

编译stable-diffusion.cpp

https://github.com/leejet/stable-diffusion.cpp/tree/master

mkdir build
cd build
cmake .. -DSD_CUDA=O
cmake --build . --config Release -j 6

下载模型

1	https://modelscope.cn/models/black-forest-labs/FLUX.2-klein-4B/summary?version=master

直接使用ComfyUI

直接下载comfyUI，按照对应的模板需要的模型文件下载放在指定文件夹就好了。

hf下载模型

需要先登陆，否则就会下载很慢

生成token，然后配置

1	hf auth login

下载指定文件

setproxy
export HF_HOME="/work/ext-storage/hf/cache"
HF_XET_HIGH_PERFORMANCE=1 hf download Youssofal/Qwen3.6-35B-A3B-Abliterated-Heretic-GGUF Qwen3.6-35B-A3B-Abliterated-Heretic-Q4_K_M/Qwen3.6-35B-A3B-Abliterated-Heretic-Q4_K_M.gguf

qwen的越狱模型
md5sum信息
dd5eab43fd631e4e7876ef565e74910d Qwen3.6-35B-A3B-Abliterated-Heretic-Q4_K_M/Qwen3.6-35B-A3B-Abliterated-Heretic-Q4_K_M.gguf
fcb53d69b82f47aba12ce48dbc38057f mmproj-Qwen3.6-35B-A3B-Abliterated-Heretic.gguf

指定cpu占用启动

1
2

export LLAMA_CHAT_TEMPLATE_KWARGS='{"enable_thinking": false}'
./llama-server -t 6 -tb 6 --reasoning off --model /work/ext-storage/hf/cache/hub/models--Youssofal--Qwen3.6-35B-A3B-Abliterated-Heretic-GGUF/snapshots/4c22107061e656fb2a87a3ec2491bb61975eb581/Qwen3.6-35B-A3B-Abliterated-Heretic-Q4_K_M/Qwen3.6-35B-A3B-Abliterated-Heretic-Q4_K_M.gguf --mmproj /work/ext-storage/hf/cache/hub/models--Youssofal--Qwen3.6-35B-A3B-Abliterated-Heretic-GGUF/snapshots/4c22107061e656fb2a87a3ec2491bb61975eb581/mmproj-Qwen3.6-35B-A3B-Abliterated-Heretic.gguf --ctx-size 1024

Next post: mp4视频获取截图并配置UI管理

long blogs

进一步有进一步惊喜

概述