这是一个受 nanoGPT 和 Stanford CS336 启发的 LLM 学习项目。致力于从零实现整个大模型训练流程,包括Tokenizer的训练、数据清洗、模型预训练、SFT、GRPO 等。
uv run python -m scripts.train_tokenizer,耗时3分钟uv run python -m scripts.tokenize,耗时6分钟uv run python -m scripts.pretrain,耗时35分钟uv run python -m scripts.eval_pretrain
(注:所有耗时基于 Mac 笔记本电脑评测,数据集为 TinyStories-train)huggingface_models 文件夹内。uv run python -m scripts.test_qwen2_5,即可将开源权重加载到你自己的从零实现的大语言模型中并生成文本。待更新。
data/txt 文件夹下。scripts/configs/train_tokenizer.yaml 配置文件。uv run python -m scripts.test_train_tokenizer,即可从零训练你的分词器。tokenizer_dir 指定的目录下。待更新。
data 文件夹下下载好预训练数据。uv run python -m scripts.test_pretrain,可以对自己的大语言模型进行从零预训练。uv run python -m scripts.test_eval_pretrain,对预训练好的语言模型进行评估。待更新。
本仓库采用 Apache-2.0 License 许可证.