名词解释

Embedding 的中文名字

它的标准中文翻译是 “嵌入” 或 “向量嵌入”。

在深度学习语境下，你可以把它理解为 “特征升维映射”。

形象比喻：就像把一个平面上的“点”（低维数据），嵌入到一个巨大的、多维的“果冻”里（高维空间）。在这个果冻里，原本孤立的点有了上下左右、前后等 128 个方向的联系，这让模型能通过计算向量之间的距离和角度，读懂数据背后的“深意”。

num_heads=4 是一个非常合理且平衡的设置，尤其是配合你目前的 EMBED_DIM = 128 和 RTX 3070 显卡。在 Transformer 中，EMBED_DIM 必须能被 num_heads 整除。

$128 / 4 = 32$ 。
这意味着每个“头”拥有 32 维 的独立空间去寻找变量间的关系。32 维足够承载一个复杂的约束逻辑（比如：变量 $x_1$ 与 $x_5$ 是否属于同一个并集约束组）。

性能上的考量：

我们可以把它拆解为三个动作：

这就像是根据蓝图（类定义）组装一台精密的机器。

这是最关键的一步，也是你昨晚死磕环境的原因。

逻辑：默认情况下，模型是创建在 CPU 和 系统内存 里的。
执行：.to(device)（这里 device 是 "cuda"）会将这成千上万个权重矩阵，从你的内存一并搬运到 RTX 3070 的 8GB 显存 中。
意义：只有模型在显存里，接下来的矩阵乘法才能调用显卡上的几千个 CUDA 核心。如果没有这一步，你的 3070 只能干看着 CPU 在那里慢吞吞地算。

Future and Now