在python中将字符串转换为二进制

106

我需要一种方法来获取python中字符串的二进制表示形式。例如

st = "hello world"
toBinary(st)

是否有一些巧妙的方法来做到这一点？

python string binary

— 用户名
source

8

具体来说，您期望输出是什么？

— NPE 2013年

“二进制”是指0101010类型还是其中ord每个字符的索引号（例如十六进制）？

— cdarke

假设您实际上是指二进制（零和一），是否要一个接一个地对每个字符（每个字符8位）进行二进制表示？例如，h是ascii值104，二进制

— 格式

：这个问题已经回答了计算器上多次 stackoverflow.com/questions/11599226/... stackoverflow.com/questions/8553310/...

— 0xcaff

转换二进制为ASCII的

— jfs 2014年

124

像这样吗

>>> st = "hello world"
>>> ' '.join(format(ord(x), 'b') for x in st)
'1101000 1100101 1101100 1101100 1101111 100000 1110111 1101111 1110010 1101100 1100100'

#using `bytearray`
>>> ' '.join(format(x, 'b') for x in bytearray(st, 'utf-8'))
'1101000 1100101 1101100 1101100 1101111 100000 1110111 1101111 1110010 1101100 1100100'

— 阿什维尼乔杜里（Ashwini Chaudhary）
source

21

或者，如果您希望每个二进制数字为1个字节：''.join（format（ord（i），'b'）。zfill（8）for st in i）

— ChrisProsser 2013年

5

对于完整字节，您还可以使用' '.join('{0:08b}'.format(ord(x), 'b') for x in st)，它比zfill(8)解决方案快大约35％（至少在我的机器上）。

— 最多

转换多于一个字节的字符（例如）β，例如，在我看来由11001110 10110010内部表示，该怎么办？

— 谢尔盖·布什曼诺夫

1

我知道这是很久以前发布的，但是非ASCII字符呢？

— pkqxdd

48

作为一种更pythonic的方式，您可以先将字符串转换为字节数组，然后在其中使用binfunction map：

>>> st = "hello world"
>>> map(bin,bytearray(st))
['0b1101000', '0b1100101', '0b1101100', '0b1101100', '0b1101111', '0b100000', '0b1110111', '0b1101111', '0b1110010', '0b1101100', '0b1100100']

或者您可以加入它：

>>> ' '.join(map(bin,bytearray(st)))
'0b1101000 0b1100101 0b1101100 0b1101100 0b1101111 0b100000 0b1110111 0b1101111 0b1110010 0b1101100 0b1100100'

请注意，在python3中，您需要为bytearrayfunction 指定编码：

>>> ' '.join(map(bin,bytearray(st,'utf8')))
'0b1101000 0b1100101 0b1101100 0b1101100 0b1101111 0b100000 0b1110111 0b1101111 0b1110010 0b1101100 0b1100100'

您也可以binascii在python 2中使用模块：

>>> import binascii
>>> bin(int(binascii.hexlify(st),16))
'0b110100001100101011011000110110001101111001000000111011101101111011100100110110001100100'

hexlify返回二进制数据的十六进制表示形式，然后可以通过将16指定为基数将其转换为int，然后使用转换为int bin。

— 卡斯拉文
source

5

对于多字节非ASCII字符串，这不仅更像Python，而且更“正确”。

— 谢尔盖·布什曼诺夫

请注意（至少对于当前版本而言3.7.4）：（1）bytearray期望编码（不仅是字符串），并且（2）map(bin, ...)将返回map对象。对于第一点，我使用bob@Tao建议的.encoding（'ascii'）`。第二点，使用join@Kasramvd的其他示例中的方法，将显示所需的结果。

— Antoine

35

我们只需要对其编码。

'string'.encode('ascii')

— 陶
source

对于我（v3.7.4），这将返回一个bytes对象（具有每个字节的ascii表示，如果可用的话），并且为了显示其二进制表示，我需要使用bin，例如with ' '.join(item[2:] for item in map(bin, 'bob'.encode('ascii')))（请注意，0b需要在二进制表示的开头将其删除每个字符）。

— Antoine

15

您可以使用ord()内置函数访问字符串中字符的代码值。如果然后需要以二进制格式设置此格式，则该string.format()方法将完成此工作。

a = "test"
print(' '.join(format(ord(x), 'b') for x in a))

（感谢Ashwini Chaudhary发布了该代码段。）

尽管以上代码在Python 3中有效，但是如果您假设使用除UTF-8之外的任何其他编码，则此问题将变得更加复杂。在Python 2中，字符串是字节序列，默认情况下采用ASCII编码。在Python 3中，字符串被假定为Unicode，并且还有一个单独的bytes类型，其行为更像Python 2字符串。如果您希望采用UTF-8以外的任何其他编码，则需要指定编码。

然后，在Python 3中，您可以执行以下操作：

a = "test"
a_bytes = bytes(a, "ascii")
print(' '.join(["{0:b}".format(x) for x in a_bytes]))

对于简单的字母数字字符串，UTF-8和ascii编码之间的区别不会很明显，但是如果您要处理包含不在ascii字符集中的字符的文本，它将变得很重要。

— 马克·R·威尔金斯
source

2

在Python 3.6及更高版本中，您可以使用f-string格式化结果。

str = "hello world"
print(" ".join(f"{ord(i):08b}" for i in str))

01101000 01100101 01101100 01101100 01101111 00100000 01110111 01101111 01110010 01101100 01100100

冒号的左侧ord（i）是实际对象，其值将被格式化并插入到输出中。使用ord（）可为您提供单个str字符的以10为底的代码点。
冒号的右侧是格式说明符。08表示宽度8，填充0，b表示输出以2为底的数字（二进制）的符号。

— 弗拉德·贝兹登
source

1

这是对现有答案的更新，该答案已使用bytearray()并且无法再以这种方式工作：

>>> st = "hello world"
>>> map(bin, bytearray(st))
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: string argument without an encoding

因为，如上面的链接所述，如果源是字符串，则 还必须提供编码：

>>> map(bin, bytearray(st, encoding='utf-8'))
<map object at 0x7f14dfb1ff28>

— 比拉·贝格拉吉
source

0

def method_a(sample_string):
    binary = ' '.join(format(ord(x), 'b') for x in sample_string)

def method_b(sample_string):
    binary = ' '.join(map(bin,bytearray(sample_string,encoding='utf-8')))


if __name__ == '__main__':

    from timeit import timeit

    sample_string = 'Convert this ascii strong to binary.'

    print(
        timeit(f'method_a("{sample_string}")',setup='from __main__ import method_a'),
        timeit(f'method_b("{sample_string}")',setup='from __main__ import method_b')
    )

# 9.564299999998184 2.943955828988692

method_b转换为字节数组的效率更高，因为它进行低级函数调用，而不是手动将每个字符转换为整数，然后将该整数转换为其二进制值。

— 本
source

-1

a = list(input("Enter a string\t: "))
def fun(a):
    c =' '.join(['0'*(8-len(bin(ord(i))[2:]))+(bin(ord(i))[2:]) for i in a])
    return c
print(fun(a))

— 单船
source

1

您是否想通过一些解释来扩充这个仅可读代码的答案？这将有助于消除人们对StackOverflow是一种免费代码编写服务的误解。如果您想提高可读性，请尝试此处提供的信息：stackoverflow.com/editing-help

— Yunnosch '19