在python中将字符串转换为二进制


106

我需要一种方法来获取python中字符串的二进制表示形式。例如

st = "hello world"
toBinary(st)

是否有一些巧妙的方法来做到这一点?


8
具体来说,您期望输出是什么?
NPE 2013年

“二进制”是指0101010类型还是其中ord每个字符的索引号(例如十六进制)?
cdarke

假设您实际上是指二进制(零和一),是否要一个接一个地对每个字符(每个字符8位)进行二进制表示?例如,h是ascii值104,二进制
格式


Answers:


124

像这样吗

>>> st = "hello world"
>>> ' '.join(format(ord(x), 'b') for x in st)
'1101000 1100101 1101100 1101100 1101111 100000 1110111 1101111 1110010 1101100 1100100'

#using `bytearray`
>>> ' '.join(format(x, 'b') for x in bytearray(st, 'utf-8'))
'1101000 1100101 1101100 1101100 1101111 100000 1110111 1101111 1110010 1101100 1100100'

21
或者,如果您希望每个二进制数字为1个字节:''.join(format(ord(i),'b')。zfill(8)for st in i)
ChrisProsser 2013年

5
对于完整字节,您还可以使用' '.join('{0:08b}'.format(ord(x), 'b') for x in st),它比zfill(8)解决方案快大约35%(至少在我的机器上)。
最多

转换多于一个字节的字符(例如)β,例如,在我看来由11001110 10110010内部表示,该怎么办?
谢尔盖·布什曼诺夫

1
我知道这是很久以前发布的,但是非ASCII字符呢?
pkqxdd

48

作为一种更pythonic的方式,您可以先将字符串转换为字节数组,然后在其中使用binfunction map

>>> st = "hello world"
>>> map(bin,bytearray(st))
['0b1101000', '0b1100101', '0b1101100', '0b1101100', '0b1101111', '0b100000', '0b1110111', '0b1101111', '0b1110010', '0b1101100', '0b1100100']

或者您可以加入它:

>>> ' '.join(map(bin,bytearray(st)))
'0b1101000 0b1100101 0b1101100 0b1101100 0b1101111 0b100000 0b1110111 0b1101111 0b1110010 0b1101100 0b1100100'

请注意,在python3中,您需要为bytearrayfunction 指定编码:

>>> ' '.join(map(bin,bytearray(st,'utf8')))
'0b1101000 0b1100101 0b1101100 0b1101100 0b1101111 0b100000 0b1110111 0b1101111 0b1110010 0b1101100 0b1100100'

您也可以binascii在python 2中使用模块:

>>> import binascii
>>> bin(int(binascii.hexlify(st),16))
'0b110100001100101011011000110110001101111001000000111011101101111011100100110110001100100'

hexlify返回二进制数据的十六进制表示形式,然后可以通过将16指定为基数将其转换为int,然后使用转换为int bin


5
对于多字节非ASCII字符串,这不仅更像Python,而且更“正确”。
谢尔盖·布什曼诺夫

请注意(至少对于当前版本而言3.7.4):(1)bytearray期望编码(不仅是字符串),并且(2)map(bin, ...)将返回map对象。对于第一点,我使用bob@Tao建议的.encoding('ascii')`。第二点,使用join@Kasramvd的其他示例中的方法,将显示所需的结果。
Antoine

35

我们只需要对其编码。

'string'.encode('ascii')

对于我(v3.7.4),这将返回一个bytes对象(具有每个字节的ascii表示,如果可用的话),并且为了显示其二进制表示,我需要使用bin,例如with ' '.join(item[2:] for item in map(bin, 'bob'.encode('ascii')))(请注意,0b需要在二进制表示的开头将其删除每个字符)。
Antoine

15

您可以使用ord()内置函数访问字符串中字符的代码值。如果然后需要以二进制格式设置此格式,则该string.format()方法将完成此工作。

a = "test"
print(' '.join(format(ord(x), 'b') for x in a))

(感谢Ashwini Chaudhary发布了该代码段。)

尽管以上代码在Python 3中有效,但是如果您假设使用除UTF-8之外的任何其他编码,则此问题将变得更加复杂。在Python 2中,字符串是字节序列,默认情况下采用ASCII编码。在Python 3中,字符串被假定为Unicode,并且还有一个单独的bytes类型,其行为更像Python 2字符串。如果您希望采用UTF-8以外的任何其他编码,则需要指定编码。

然后,在Python 3中,您可以执行以下操作:

a = "test"
a_bytes = bytes(a, "ascii")
print(' '.join(["{0:b}".format(x) for x in a_bytes]))

对于简单的字母数字字符串,UTF-8和ascii编码之间的区别不会很明显,但是如果您要处理包含不在ascii字符集中的字符的文本,它将变得很重要。


2

在Python 3.6及更高版本中,您可以使用f-string格式化结果。

str = "hello world"
print(" ".join(f"{ord(i):08b}" for i in str))

01101000 01100101 01101100 01101100 01101111 00100000 01110111 01101111 01110010 01101100 01100100
  • 冒号的左侧ord(i)是实际对象,其值将被格式化并插入到输出中。使用ord()可为您提供单个str字符的以10为底的代码点。

  • 冒号的右侧是格式说明符。08表示宽度8,填充0,b表示输出以2为底的数字(二进制​​)的符号。


1

这是对现有答案的更新,该答案已使用bytearray()并且无法再以这种方式工作:

>>> st = "hello world"
>>> map(bin, bytearray(st))
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: string argument without an encoding

因为,如上面的链接所述,如果源是字符串,则 还必须提供编码

>>> map(bin, bytearray(st, encoding='utf-8'))
<map object at 0x7f14dfb1ff28>

0
def method_a(sample_string):
    binary = ' '.join(format(ord(x), 'b') for x in sample_string)

def method_b(sample_string):
    binary = ' '.join(map(bin,bytearray(sample_string,encoding='utf-8')))


if __name__ == '__main__':

    from timeit import timeit

    sample_string = 'Convert this ascii strong to binary.'

    print(
        timeit(f'method_a("{sample_string}")',setup='from __main__ import method_a'),
        timeit(f'method_b("{sample_string}")',setup='from __main__ import method_b')
    )

# 9.564299999998184 2.943955828988692

method_b转换为字节数组的效率更高,因为它进行低级函数调用,而不是手动将每个字符转换为整数,然后将该整数转换为其二进制值。


-1
a = list(input("Enter a string\t: "))
def fun(a):
    c =' '.join(['0'*(8-len(bin(ord(i))[2:]))+(bin(ord(i))[2:]) for i in a])
    return c
print(fun(a))

1
您是否想通过一些解释来扩充这个仅可读代码的答案?这将有助于消除人们对StackOverflow是一种免费代码编写服务的误解。如果您想提高可读性,请尝试此处提供的信息:stackoverflow.com/editing-help
Yunnosch '19
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.