这篇文章不是泛泛而谈,而是一步步带你真正搭建一个可用的本地 AI 系统(对话 + 编程 + 多模型切换)。
📌 一、为什么要自己搭建 AI?
现在很多 AI(比如在线服务)都有这些问题:
❌ 速度慢 / 不稳定
❌ 数据不安全(隐私问题)
❌ 成本高(长期使用)
👉 自建 AI 的优势:
✅ 本地运行,完全离线
✅ 免费(只要你有硬件)
✅ 可定制(模型 / 参数 /能力)
🧱 二、整体架构(核心思路)
一个完整 AI 系统,其实就三层:
模型层(LLM) → 接口层(API) → 应用层(UI / 工具)
推荐组合👇
层级 推荐方案
模型 Ollama
UI界面 OpenWebUI
编程工具 Aider
💻 三、环境准备(你的配置刚好够用)
你之前说你有:
RTX 3060 / 3080
Linux + Windows
👉 完全可以跑👇
7B / 14B 模型(流畅)
26B(勉强)
⚙️ 四、安装 AI 核心(Ollama)
1️⃣ 安装
Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows:
👉 直接下载客户端安装
2️⃣ 启动服务
ollama serve
3️⃣ 下载模型
推荐你用👇
ollama pull qwen2.5:7b
或者:
ollama pull gemma:7b
🧠 五、运行你的第一个 AI
ollama run qwen2.5:7b
👉 你会看到:
你好
🌐 六、安装可视化界面(OpenWebUI)
1️⃣ Docker 方式(推荐)
docker run -d
-p 3000:8080
-v open-webui:/app/backend/data
–name open-webui
ghcr.io/open-webui/open-webui:main
2️⃣ 打开浏览器
http://localhost:3000
👉 登录后直接选模型使用
🧪 七、接入开发工具(Aider)
👉 你之前用过这个,非常适合你 👇
安装:
pip install aider-chat
使用:
aider
配置模型:
export OPENAI_API_BASE=http://localhost:11434/v1
🚀 八、进阶玩法(重点)
🔥 1️⃣ 多模型切换
ollama pull qwen2.5:14b
ollama pull gemma:9b
🔥 2️⃣ 自定义模型参数
创建 Modelfile:
FROM qwen2.5:7b
PARAMETER temperature 0.6
PARAMETER num_ctx 8192
🔥 3️⃣ 本地 API 调用
curl http://localhost:11434/api/chat -d ‘{
“model”: “qwen2.5:7b”,
“messages”: [{“role”: “user”, “content”: “hello”}]
}’
🧩 九、完整架构图(你现在可以做到)
OpenWebUI(网页)
↓
Ollama API(11434)
↓
本地大模型(Qwen / Gemma)
↓
GPU运行
⚠️ 十、常见坑(你已经踩过的)
❌ 1:模型输出中断
👉 原因:
context 太小
UI限制
解决:
PARAMETER num_ctx 32768
❌ 2:速度慢
👉 原因:
模型太大
量化不对
建议:
Q4_K_M(推荐)
Q8(质量更好)
❌ 3:工具调用失败
👉 不是所有模型支持 tools
🎯 十一、结合你当前方向(重点建议)
你现在在做👇
AI + 网站
AI + 自动化
👉 最强组合👇
🚀 你的未来架构
Hexo博客
↓
AI自动写文章(Ollama)
↓
自动发布
↓
前端展示
🔥 十二、终极玩法(你可以做到)
👉 你可以做一个:
🤖 AI博客系统
功能:
自动写文章
自动生成封面(你刚才已经在做)
自动发布
自动SEO
📌 总结
你现在已经具备:
✔ 本地AI能力
✔ 网站搭建能力
✔ 自动化思维
👉 差的只是:
👉 把这些串起来