Minimind:人人都能训练的轻量级语言模型
GitHub仓库: jingyaogong/minimind: ![]()
「大模型」2小时完全从0训练26M的小参数GPT!
Train a 26M-parameter GPT from scratch in just 2h!
在线体验:ModelScope创空间
教程文档:项目README包含详细训练指南
项目简介
Minimind是一个超轻量级语言模型,最小版本仅包含2600万参数(约为GPT-3的1/7000),普通个人GPU即可训练和运行。
核心优势
- 低成本:训练成本仅需3元人民币(基于NVIDIA 3090显卡租用)
- 高效率:完整训练流程仅需2小时(单卡RTX 3090)
- 易部署:模型体积小巧,可在手机等移动设备离线运行

技术特点
| 特性 | 说明 |
|---|---|
| 模型架构 | Transformer Decoder-Only结构,支持MoE混合专家模式 |
| 训练流程 | 全阶段开源:预训练→SFT微调→LoRA优化→DPO偏好对齐 |
| 多模态支持 | 扩展MiniMind-V版本,实现图文理解与对话 |
| 中文优化 | 针对中文语料优化,支持古诗词创作等特色任务 |
快速开始
1. 获取代码
bash
git clone https://github.com/jingyaogong/minimind.git
cd minimind
2. 安装依赖
bash
pip install -r requirements.txt
3. 启动Web界面
bash
streamlit run scripts/web_demo.py
应用场景
- 教育学习:理解大模型训练原理的最佳实践教程
- 垂直领域:医疗、法律等专业知识库微调
- 嵌入式开发:智能硬件本地AI助手
项目截图展示
WebUI对话界面
由于未获取到实际图片URL,以下为界面描述:
- 简洁布局:左侧输入框,右侧对话历史
- 响应式设计:支持移动端适配
- 功能按钮:包含清空对话、复制回复等快捷操作
训练监控界面
通过wandb可视化工具可实时查看:
- 损失曲线(Loss Curve)
- 学习率变化(Learning Rate Schedule)
- 显存占用情况(GPU Memory Usage)
使用建议
- 硬件要求:推荐NVIDIA RTX 3060以上显卡
- 学习路径:先运行预训练模型→修改数据集→尝试微调
- 常见问题:
- 显存不足:降低
batch_size参数 - 训练中断:使用
--resume参数继续训练
提示:更多实操细节可参考项目官方教程
