Minimind：人人都能训练的轻量级语言模型

admin 2025 年9 月 26 日 09:35 1

Minimind：人人都能训练的轻量级语言模型

GitHub仓库： jingyaogong/minimind: 「大模型」2小时完全从0训练26M的小参数GPT！ Train a 26M-parameter GPT from scratch in just 2h!
在线体验：ModelScope创空间
教程文档：项目README包含详细训练指南

项目简介

Minimind是一个超轻量级语言模型，最小版本仅包含2600万参数（约为GPT-3的1/7000），普通个人GPU即可训练和运行。

核心优势

低成本：训练成本仅需3元人民币（基于NVIDIA 3090显卡租用）
高效率：完整训练流程仅需2小时（单卡RTX 3090）
易部署：模型体积小巧，可在手机等移动设备离线运行

技术特点

特性	说明
模型架构	Transformer Decoder-Only结构，支持MoE混合专家模式
训练流程	全阶段开源：预训练→SFT微调→LoRA优化→DPO偏好对齐
多模态支持	扩展MiniMind-V版本，实现图文理解与对话
中文优化	针对中文语料优化，支持古诗词创作等特色任务

快速开始

1. 获取代码

bash

git clone https://github.com/jingyaogong/minimind.git
cd minimind

2. 安装依赖

bash

pip install -r requirements.txt

3. 启动Web界面

bash

streamlit run scripts/web_demo.py

应用场景

教育学习：理解大模型训练原理的最佳实践教程
垂直领域：医疗、法律等专业知识库微调
嵌入式开发：智能硬件本地AI助手

项目截图展示

WebUI对话界面

由于未获取到实际图片URL，以下为界面描述：

简洁布局：左侧输入框，右侧对话历史
响应式设计：支持移动端适配
功能按钮：包含清空对话、复制回复等快捷操作

训练监控界面

通过wandb可视化工具可实时查看：

损失曲线（Loss Curve）
学习率变化（Learning Rate Schedule）
显存占用情况（GPU Memory Usage）

使用建议

硬件要求：推荐NVIDIA RTX 3060以上显卡
学习路径：先运行预训练模型→修改数据集→尝试微调
常见问题：

显存不足：降低batch_size参数
训练中断：使用--resume参数继续训练

提示：更多实操细节可参考项目官方教程