主题
这里是我边读边想的地方。读得慢,想得杂,慢慢积累。
和 AI 协作者一起拆解的过程记录。不是听书,是带着自己的问题去翻译。
做项目时长出来的想法和教训。Harness Engineering 是我目前在折腾的方向。
不追求完美,先占坑,后面慢慢更新。这本身就是设计哲学。
DIY-LLM 课程打卡 · 2026-04-19
这章教的不是技能,是直觉——看着代码,30 秒估出它烧多少显存、耗多少算力。两个公式钉死一切:训练时间 ≈ 6·N·tokens / (FLOPS·MFU)、训练显存 ≈ 16·N 字节。手动验证了 16 字节公式精确命中;作业题 2 全做完——单卡 A100 训 GPT-2 XL 400K 步要 6354 天(17 年) 🤯
这章教的不是技能,是直觉——看着代码,30 秒估出它烧多少显存、耗多少算力。
两个公式钉死一切:训练时间 ≈ 6·N·tokens / (FLOPS·MFU)、训练显存 ≈ 16·N 字节。手动验证了 16 字节公式精确命中;作业题 2 全做完——单卡 A100 训 GPT-2 XL 400K 步要 6354 天(17 年) 🤯