追求极致:当 4 张 3090 遇上 Qwen3 MoE

在本地部署大模型的道路上,显存容量决定了“深度”,而架构设计决定了“速度”。最近我将本地环境升级到了 4x RTX 3090 (96GB VRAM),并部署了 Qwen3-Coder-30B-A3B-Instruct-Q8。以下是针对 32k 到 128k 上下文的真实性能压测报告。

LLMQwen3Trae3090集群MoE

在 AI 编程工具(如 Trae, Cursor)百家争鸣的时代,拥有一套高性能的本地大模型环境,不仅能保护代码私密性,更能通过极低的延迟提升“人机合一”的快感。本文记录了在 NVIDIA RTX 3090(多卡)环境下,利用 Ollama 部署 Qwen3-Coder-30B (MoE) 并进行深度调优的全过程。

AILLMOllamaQwen3Trae生产力