Minimind:人人都能训练的轻量级语言模型

Minimind:人人都能训练的轻量级语言模型

GitHub仓库jingyaogong/minimind: :rocket::rocket: 「大模型」2小时完全从0训练26M的小参数GPT!:globe_showing_asia_australia: Train a 26M-parameter GPT from scratch in just 2h!
在线体验ModelScope创空间
教程文档:项目README包含详细训练指南

项目简介

Minimind是一个超轻量级语言模型,最小版本仅包含2600万参数(约为GPT-3的1/7000),普通个人GPU即可训练和运行。

核心优势

  • 低成本:训练成本仅需3元人民币(基于NVIDIA 3090显卡租用)
  • 高效率:完整训练流程仅需2小时(单卡RTX 3090)
  • 易部署:模型体积小巧,可在手机等移动设备离线运行
    minimind2

技术特点

特性 说明
模型架构 Transformer Decoder-Only结构,支持MoE混合专家模式
训练流程 全阶段开源:预训练→SFT微调→LoRA优化→DPO偏好对齐
多模态支持 扩展MiniMind-V版本,实现图文理解与对话
中文优化 针对中文语料优化,支持古诗词创作等特色任务

快速开始

1. 获取代码

bash

git clone https://github.com/jingyaogong/minimind.git
cd minimind

2. 安装依赖

bash

pip install -r requirements.txt

3. 启动Web界面

bash

streamlit run scripts/web_demo.py

应用场景

  • 教育学习:理解大模型训练原理的最佳实践教程
  • 垂直领域:医疗、法律等专业知识库微调
  • 嵌入式开发:智能硬件本地AI助手

项目截图展示

WebUI对话界面

由于未获取到实际图片URL,以下为界面描述:

  • 简洁布局:左侧输入框,右侧对话历史
  • 响应式设计:支持移动端适配
  • 功能按钮:包含清空对话、复制回复等快捷操作

训练监控界面

通过wandb可视化工具可实时查看:

  • 损失曲线(Loss Curve)
  • 学习率变化(Learning Rate Schedule)
  • 显存占用情况(GPU Memory Usage)

使用建议

  1. 硬件要求:推荐NVIDIA RTX 3060以上显卡
  2. 学习路径:先运行预训练模型→修改数据集→尝试微调
  3. 常见问题
  • 显存不足:降低batch_size参数
  • 训练中断:使用--resume参数继续训练

提示:更多实操细节可参考项目官方教程