内存对齐的目的


195

诚然我不明白。假设您有一个存储器,其存储器字的长度为1个字节。为什么不能在未对齐地址(即不能被4整除)的单次存储器访问中访问4字节长的变量,因为对齐地址就是这种情况?


17
在进行了一些额外的谷歌搜索之后,我发现了这个很好的链接,很好地解释了问题。
方舟

请查看这篇小文章,了解那些开始学习此技巧的
darkgaze

3
@ark链接已损坏
John Jiang

2
@JohnJiang我想我在这里找到了新的链接:developer.ibm.com/technologies/systems/articles/pa-dalign
ejohnso49

Answers:


62

这是许多基础处理器的局限性。通常可以通过执行4次低效率的单字节读取而不是一次有效的字读取来解决此问题,但是许多语言说明者认为,将它们取缔并强制所有内容对齐将更容易。

OP 在此链接中发现了更多信息。


310

现代处理器上的内存子系统仅限于按其字长的粒度和对齐方式来访问内存。这是有多种原因的。

速度

现代处理器具有多个级别的高速缓存,必须将数据拉入高速缓存。支持单字节读取将使内存子系统的吞吐量与执行单元的吞吐量紧密绑定(也称为cpu绑定);这完全使人想起了硬盘驱动器中出于许多相同原因而DMA超越PIO模式的情况

CPU 始终以其字长读取(32位处理器上为4字节),因此,如果在未对齐的地址访问中(在支持它的处理器上),则该处理器将读取多个字。CPU将读取您请求的地址跨越的每个内存字。这导致访问请求的数据所需的内存事务数量最多增加2倍。

因此,读取两个字节要比读取四个字节慢得多。例如,假设您的内存中有一个结构如下:

struct mystruct {
    char c;  // one byte
    int i;   // four bytes
    short s; // two bytes
}

在32位处理器上,它很可能按照如下所示对齐:

结构布局

处理器可以在一个事务中读取这些成员中的每个成员。

假设您有一个结构的压缩版本,也许是从打包网络的地方获取的,以提高传输效率;它可能看起来像这样:

包装结构

读取第一个字节将是相同的。

当您要求处理器为您提供0x0005的16位数据时,它将不得不从0x0004读取一个字并将其左移1个字节以将其放入16位寄存器中。一些额外的工作,但大多数可以一次完成。

当您从0x0001请求32位时,您将获得2倍的放大倍数。处理器将从0x0000读入结果寄存器并向左移1个字节,然后再次从0x0004读入一个临时寄存器,向右移3个字节,然后OR与结果寄存器一起移入。

范围

对于任何给定的地址空间,如果体系结构可以假定2个LSB始终为0(例如32位计算机),则它可以访问4倍以上的内存(2个保存的位可以表示4个不同的状态),或者相同数量2位的内存用于标记之类的东西。从地址中减去2个LSB,将使您达到4字节对齐;也称为4字节跨度。每次地址增加时,它实际上是在增加位2,而不是位0,即,最后2位将始终为00

这甚至会影响系统的物理设计。如果地址总线需要少2位,则CPU上可以减少2个引脚,电路板上可以减少2条迹线。

原子性

CPU可以原子操作对齐的内存字,这意味着没有其他指令可以中断该操作。这对于许多无锁数据结构和其他并发范例的正确操作至关重要。

结论

处理器的存储系统比此处描述的要复杂得多,涉及的也更多。关于x86处理器如何实际寻址内存的讨论会有所帮助(许多处理器的工作方式类似)。

可以从这篇IBM文章中了解到遵守内存对齐的更多好处。

计算机的主要用途是转换数据。现代内存架构和技术经过数十年的优化,以一种高度可靠的方式促进了在更多和更快的执行单元之间进,出,出更多的数据。

奖励:缓存

我之前提到的另一个性能对齐方式是在(例如在某些CPU上)64B的高速缓存行上对齐。

有关利用缓存可获取多少性能的更多信息,请参阅处理器缓存效果库;从这个关于缓存行大小的问题

对于某些类型的程序优化,了解缓存行可能很重要。例如,数据的对齐可以确定操作是触摸一条还是两条高速缓存行。正如我们在上面的示例中看到的那样,这很容易意味着在未对齐的情况下,操作将慢两倍。


以下结构xyz具有不同的大小,因为每个成员的规则必须以其大小的倍数开头的地址开始,而strcut必须以结构成员的最大大小的倍数结尾的地址结尾。struct x {short s; // 2个字节和2个填充tyint int i; // 4个字节的char c; // 1个字节和3个填充字节long long l; }; 结构y {int i; // 4个字节char c; // 1个字节和1个填充字节short s; // 2个字节}; struct z {int i; // 4个字节short s; // 2个字节的char c; // 1个字节和1个填充字节};
加文2014年

1
如果我理解正确,为什么计算机不能一步一步读取未对齐字的原因是因为地址使用的是30位而不是32位?
GetFree 2014年

1
@chux是的,绝对绝对不成立。8088是一项有关速度和成本之间折衷的有趣研究,它基本上是一个16位的8086(具有完整的16位外部总线),但是只有一半的总线可以节省生产成本。因此,访问8088所需的时钟周期是8086的两倍,因为它必须进行两次读取才能获得完整的16位字。有趣的是,8086可以在单个周期内完成一个字对齐的 16位读取操作,而未对齐的读取则需要2个操作。8088具有半字总线的事实掩盖了这种减速。
2014年

2
@joshperry:稍作纠正:8086可以在四个周期内完成字对齐的16位读取,而未对齐的读取则需要八次。由于慢速的内存接口,基于8088的计算机上的执行时间通常由指令提取决定。像“ MOV AX,BX”这样的指令名义上要比“ XCHG AX,BX”快一个周期,但是除非在该指令的前面或之后执行每个代码字节超过四个周期的指令,否则要花更长的四个周期才能完成。执行。在8086上,代码提取有时可以跟上执行的步伐,但是在8088上,除非使用以下命令...
supercat

1
非常真实,@ martin。我省略了这些填充字节以使讨论集中在结构内,但最好将它们包括在内。
joshperry

22

您可以使用某些处理器(nehalem可以做到这一点),但是以前所有内存访问都在64位(或32位)线上对齐,因为总线为64位宽,因此您必须一次获取64位,并且以64位对齐的“块”来获取这些数据要容易得多。

因此,如果您想获得一个字节,则获取64位块,然后屏蔽掉不需要的位。如果字节位于正确的末端,则容易又快速,但是如果该字节位于该64位块的中间,则必须屏蔽掉不需要的位,然后将数据移至正确的位置。更糟糕的是,如果您想要一个2字节的变量,但是将其分成2个块,则需要两倍的所需内存访问。

因此,由于每个人都认为内存便宜,他们只是让编译器根据处理器的块大小对齐数据,从而使代码更快,更高效地运行,但浪费了内存。


5

从根本上讲,原因是因为内存总线具有一些特定长度,该长度远小于内存大小。

因此,CPU会从片上L1高速缓存中读取数据,目前这些数据通常为32KB。但是,将L1高速缓存连接到CPU的内存总线的高速缓存行大小的宽度要小得多。这将是128 位的数量级

所以:

262,144 bits - size of memory
    128 bits - size of bus

对齐错误的访问有时会重叠两条高速缓存行,这将需要读取一个全新的高速缓存才能获取数据。它甚至可能会一直丢失到DRAM。

此外,CPU的某些部分将不得不站起来,以将这两个不同的高速缓存行中的单个对象放在一起,每个高速缓存行都具有一个数据。在一行中,它将是非常高的位,而在另一行中,它将是非常低的位。

将有完全集成到管道中的专用硬件,该硬件可以将对齐的对象移动到CPU数据总线的必要位上,但是此类对象可能缺少对齐的硬件,因为使用这些晶体管加速正确优化的速度可能更有意义程式。

无论如何,无论有多少专用硬件(假想地和愚蠢地)专用于修补未对齐的内存操作,有时都需要进行第二次内存读取,这会减慢管道的速度。


5

@joshperry对这个问题给出了很好的答案。除了他的回答,我还有一些数字以图形方式显示了所描述的效果,尤其是2X放大。这是指向Google电子表格的链接,该链接显示了不同单词对齐方式的效果。此外,这是带有测试代码的Github要点的链接。测试代码改编自Jonathan Rentzsch撰写的文章该文章引用了@joshperry。测试是在Macbook Pro上运行的,该Macbook Pro具有2.8 GHz四核Intel Core i7 64位处理器和16GB RAM。

在此处输入图片说明


4
做什么xy坐标是什么意思?
舒瓦

1
哪一代酷睿i7?(感谢发布代码链接!)
Nick Desaulniers

2

如果具有字节可寻址内存的系统具有32位宽的内存总线,则意味着实际上有四个字节宽的内存系统,所有这些系统都连接在一起以读取或写入相同的地址。对齐的32位读取将需要在所有四个存储系统中的相同地址中存储信息,因此所有系统都可以同时提供数据。不对齐的32位读取将需要某些存储系统从一个地址返回数据,而另一些则需要从下一个较高地址返回数据。尽管有些内存系统经过优化可以满足此类请求(除了它们的地址之外,它们实际上还具有“加一”信号,这使它们使用的地址比指定的地址高一个),但是这种功能增加了可观的成本存储系统的复杂性;


2

如果您具有32位数据总线,则连接到内存的地址总线地址线将从A 2开始,因此在单个总线周期中只能访问32位对齐的地址。

因此,如果一个字跨越地址对齐边界-即16/32位数据的A 0或32位数据的A 1不为零,则需要两个总线周期来获取数据。

一些体系结构/指令集不支持不对齐访问,并且会在此类尝试中生成异常,因此编译器生成的不对齐访问代码不仅需要额外的总线周期,还需要额外的指令,从而使其效率更低。


0

在PowerPC上,您可以从奇数地址加载整数而没有问题。

当您尝试执行此操作时,Sparc和I86和(我认为)Itatnium会引发硬件异常。

在大多数现代处理器上,一个32位负载与四个8位负载不会产生很大的不同。数据是否已经在缓存中将产生更大的影响。


在Sparc上,这是一个“公共汽车错误”,因此在Peter Van der Linden的“专家C编程:C的深层秘密”一章中,“公共汽车错误,坐火车”一章
jjg
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.