计算机组成原理笔记:第五章 中央处理器(上)
本文详细解析了中央处理器的组成架构与工作流程。涵盖了控制部件与执行部件的区分、中断与异常的处理机制、指令周期的状态流转、以及数据通路(总线结构 vs 专用结构)的设计与微操作(μOP)控制逻辑,对比了单周期与多周期CPU的设计差异。
用 PyTorch 写一个 NanoGPT (2): MultiheadAttention 模块以及 RoPE 相对位置编码
本文是 NanoGPT 系列的第二部分,详细讲解了 MultiheadAttention 模块的 PyTorch 实现,并深入探讨了 RoPE 旋转位置编码的数学原理与代码实现。 (Scaled Dot-Product) 与 PyTorch 代码实现 (Masking, Linear Layers).
用 PyTorch 写一个 NanoGPT (1): Attention 模块
本文参照 NanoGPT, 从零实现 GPT 语言模型. 第一部分详细讲解 Self-Attention 模块的数学原理 (Scaled Dot-Product) 与 PyTorch 代码实现 (Masking, Linear Layers).




