本项目模型仅供学习,旨在对大模型祛魅。 让你能最简单的看到大模型的结构以及最简单的训练。 让你了解:大语言模型的核心其实只是一个预测器。 它会根据“上文 + 因果 + 注意力”去预测下一个 token 的概率。 这就是大模型的本质。 Transformer 的注意力机制 ...