LLM | Chenatu's blog

一、大模型架构与训练流程核心知识 1. Transformer 架构核心机制（Attention、Positional Encoding 等） Transformer 架构是现代大模型的基石，其核心在于自注意力机制（self-attention）和位置编码（positional encoding）等创新1。Transformer 通过完全基于注意力的网络架构，实现了并行高效训练并在机器翻译等任务上超越传统模型12。理解多头注意力、前馈网络和编码器-解码器结构对掌握大模型至关重要。核心资料: 论文: Attention Is All You Need（Vaswani 等, 2017）提出Transformer架构，首次用纯注意力机制取代循环和卷积网络3。该论文详述了多头注意力和位置编码等关键设计3。开源项目: 谷歌的 Tensor2Tensor 提供了Transformer的TensorFlow实现；哈佛NLP的 Annotated Transformer 项目以PyTorch代码注释论文2，方便工程师对照学习实现细节。教程博客: Jay Alammar 的《The Illustrated Transformer》通过插图直观解释Transformer模型原理1。博客提供逐层示意图，从高层结构到细节如自注意力计算过程，适合深入浅出理解。视频课程: Stanford CS25（2024/2025）中有关于Transformer和大型语言模型原理的系列讲座，可结合课程V4/V5章节学习注意力机制等。DeepLearningAI 短课程《How Transformer LLMs Work》由 Jay Alammar 主讲，1.5小时深入讲解Transformer架构及最新改进4。 2. 预训练目标及数据采样策略（语言模型、自回归/填空等）大模型预训练通常采用语言模型目标，如自回归下一词预测（GPT系列）或填空式的掩码语言模型（BERT系列）。例如，BERT使用双向掩码语言建模预训练来学习上下文表示5；GPT则以自回归方式预测下一个词，以学习生成文本的能力。理解这些预训练任务及其数据采样策略对于构建预训练语料库至关重要。例如，如何混合不同来源的数据、平衡多领域语料，或使用curriculum learning等策略都会影响模型性能和泛化。近期的实践（如 Chinchilla 和 LLaMA）强调了数据规模与模型规模的平衡及高质量数据的重要性6。核心资料: 论文: BERT: Pre-training of Deep Bidirectional Transformers（Devlin 等, 2018）和 GPT-3: Language Models are Few-Shot Learners（Brown 等, 2020）分别介绍了掩码语言模型和自回归语言模型的预训练目标及效果。T5: Exploring the Limits of Transfer Learning（2019）则提出统一的填空文本生成预训练目标。 ...