在C / C ++中进行无符号左移之前的掩盖是否过于偏执？

Question 1

这个问题的动机是由我在C / C ++中实现加密算法（例如SHA-1），编写与平台无关的可移植代码以及彻底避免未定义的行为引起的。

假设标准的加密算法要求您实现此目的：

b = (a << 31) & 0xFFFFFFFF

其中a和b是无符号的32位整数。注意，在结果中，我们丢弃了最低有效32位以上的任何位。

作为第一个幼稚的近似值，我们可以假设int在大多数平台上该宽度为32位，因此我们可以这样写：

unsigned int a = (...);
unsigned int b = a << 31;

我们知道该代码不会在任何地方都起作用，因为int在某些系统上为16位宽，在其他系统上为64位，甚至可能为36位。但是使用stdint.h，我们可以使用以下uint32_t类型来改进此代码：

uint32_t a = (...);
uint32_t b = a << 31;

这样我们就完成了，对吧？这就是我多年以来的想法。... 不完全的。假设在某个平台上，我们有：

// stdint.h
typedef unsigned short uint32_t;

在C / C ++中执行算术运算的规则是，如果类型（例如short）比窄int，则将其扩展到int所有值都适合的范围，unsigned int否则。

假设编译器定义short为32位（有符号）和int48位（有符号）。然后这些代码行：

uint32_t a = (...);
uint32_t b = a << 31;

实际上将意味着：

unsigned short a = (...);
unsigned short b = (unsigned short)((int)a << 31);

请注意，a之所以被提升为，是int因为所有ushort（即uint32）都适合int（即int48）。

但是现在我们有一个问题：将非零位左移到有符号整数类型的符号位中是未定义的行为。发生此问题的原因是我们uint32被提升为int48-而不是提升为uint48（这里可以左移）。

这是我的问题：

我的推理正确吗，这在理论上是合理的问题吗？
是否可以忽略此问题，因为在每个平台上，下一个整数类型都是宽度的两倍？
是一个好主意，以正确地抵御这种病态情况下通过屏蔽预这样？：输入b = (a & 1) << 31;。（这在每个平台上都必定是正确的。但是，这可能会使对速度要求严格的加密算法慢于必要。）

澄清/修改：

我会接受C或C ++或两者的答案。我想知道至少一种语言的答案。
预屏蔽逻辑可能会损害位旋转。例如，GCC将以汇编b = (a << 31) | (a >> 1);语言编译为32位的位旋转指令。但是，如果我们预先屏蔽了左移，则新逻辑可能不会转换为位旋转，这意味着现在执行4个操作而不是1个。

Question 2

说到问题的C面，

我的推理正确吗，这在理论上是合理的问题吗？

我以前没有考虑过这个问题，但我同意您的分析。C<<根据提升后的左操作数的类型定义了运算符的行为，并且可以想象，int当该操作数的原始类型为时，整数提升会导致该运算符被（带符号）uint32_t。我不希望在任何现代机器上都能看到这种效果，但是我全都按照实际标准编程，而不是个人期望。

是否可以忽略此问题，因为在每个平台上，下一个整数类型都是宽度的两倍？

尽管实际上无处不在，但C不需要整数类型之间的这种关系。但是，如果您确定仅依赖于标准-也就是说，如果您正在努力编写严格符合标准的代码-那么您就不能依赖这种关系。

通过像这样预先掩盖输入来正确防御这种病理情况是一个好主意吗？：b =（a＆1）<< 31;。（这在每个平台上都必定是正确的。但是，这可能会使对速度要求严格的加密算法变得比必要的慢。）

unsigned long保证该类型至少具有32个值位，并且在整数提升下它不能提升为任何其他类型。在许多常见平台上，它的表示形式uint32_t与完全相同，甚至可能是相同的类型。因此，我倾向于这样写表达式：

uint32_t a = (...);
uint32_t b = (unsigned long) a << 31;

或者，如果您a只需要在计算中作为中间值b，则将其声明为unsigned long开始。

Question 3

问题1：在移位之前进行屏蔽确实可以防止OP担心的不确定行为。

问题2：“ ...因为在每个平台上，下一个整数类型是宽度的两倍？” ->不。“下一个”整数类型可以小于2x甚至相同的大小。

对于具有的所有兼容C编译器，下面的定义都很好uint32_t。

uint32_t a; 
uint32_t b = (a & 1) << 31;

问题3：uint32_t a; uint32_t b = (a & 1) << 31;预计不会产生执行掩码的代码-可执行文件中不需要-仅在源代码中。如果确实出现了掩码，则应该以更快的速度获得更好的编译器。

如建议的那样，最好强调这些转变带来的无符号性。

uint32_t b = (a & 1U) << 31;

@John Bollinger很好的回答很好，详细说明了如何处理OP的特定问题。

一个普遍的问题是如何形成一个至少有n位数，一定符号度且不受令人惊讶的整数提升影响的数字-这是OP困境的核心。下面通过调用unsigned不更改值的操作来实现此目的-有效执行除类型问题以外的其他操作。乘积的宽度至少为unsigned或uint32_t。通常，铸造可能会缩小类型。除非确定不会变窄，否则需要避免铸造。优化编译器不会创建不必要的代码。

uint32_t a;
uint32_t b = (a + 0u) << 31;
uint32_t b = (a*1u) << 31;

Question 4

从这个问题中获得关于uint32 * uint32算术可能的UB的线索，以下简单方法应在C和C ++中起作用：

uint32_t a = (...);
uint32_t b = (uint32_t)((a + 0u) << 31);

整数常量的0u类型为unsigned int。这促进了除a + 0u到uint32_t或unsigned int，取其宽。因为类型具有等级int或更高级别，所以不再发生提升，并且可以在左操作数为uint32_t或的情况下应用移位unsigned int。

最终uint32_t转换为只会抑制有关变窄转换的潜在警告（例如，是否int为64位）。

体面的C编译器应该能够看到添加零是无操作，这比看到无符号移位后的预屏蔽没有效果要轻。

Question 5

为了避免不必要的提升，您可以将更大的类型与一些typedef一起使用，例如

using my_uint_at_least32 = std::conditional_t<(sizeof(std::uint32_t) < sizeof(unsigned)),
                                              unsigned,
                                              std::uint32_t>;

Question 6

对于这段代码：

uint32_t a = (...);
uint32_t b = a << 31;

要提升a为无符号类型而不是有符号类型，请使用：

uint32_t b = a << 31u;

当<<运算符的两端均为无符号类型时，则适用6.3.1.8（C标准草案n1570）中的这一行：

否则，如果两个操作数都具有符号整数类型或都具有无符号整数类型，则将具有较小整数转换等级的操作数转换为具有较大等级的操作数的类型。

您描述的问题是由您引起的，31这是signed int type6.3.1.8中的另一行

否则，如果带符号整数类型的操作数的类型可以表示带无符号整数类型的操作数的所有值，则带无符号整数类型的操作数将转换为带符号整数类型的操作数的类型。

强制a升格为签名型

更新：

这个答案是不正确的，因为6.3.1.1（2）（强调我的）：

...

如果一个int可以表示原始类型的所有值（对于位字段，受宽度限制），则该值将转换为int；否则，它将转换为unsigned int。这些被称为整数promotions.58）所有其他类型是由不变的整数 促销。

和脚注58（重点为我）：

58）整数提升仅适用于：作为常规算术转换的一部分，应用于某些参数表达式，一元+，-和〜运算符的操作数以及移位运算符的两个操作数（由它们各自指定）条款。

由于仅发生整数提升，而不发生普通的算术转换，因此使用31u不能保证如上所述a将其转换unsigned int为。