将numpy dtypes转换为本地python类型


238

如果我有numpy dtype,如何将其自动转换为最接近的python数据类型?例如,

numpy.float32 -> "python float"
numpy.float64 -> "python float"
numpy.uint32  -> "python int"
numpy.int16   -> "python int"

我可以尝试提出所有这些情况的映射,但是numpy是否提供了一些自动方式将其dtypes转换为最接近的本机python类型?该映射不必详尽无遗,但它应该转换具有类似python类似物的常见dtypes。我认为这已经发生在numpy的某个地方。

Answers:


325

使用val.item()最NumPy的值转换成原来的Python类型:

import numpy as np

# for example, numpy.float32 -> python float
val = np.float32(0)
pyval = val.item()
print(type(pyval))         # <class 'float'>

# and similar...
type(np.float64(0).item()) # <class 'float'>
type(np.uint32(0).item())  # <class 'long'>
type(np.int16(0).item())   # <class 'int'>
type(np.cfloat(0).item())  # <class 'complex'>
type(np.datetime64(0, 'D').item())  # <class 'datetime.date'>
type(np.datetime64('2001-01-01 00:00:00').item())  # <class 'datetime.datetime'>
type(np.timedelta64(0, 'D').item()) # <class 'datetime.timedelta'>
...

(另一种方法是np.asscalar(val),但是从NumPy 1.16开始不推荐使用)。


出于好奇,请为您的系统构建NumPy数组标量的转换表:

for name in dir(np):
    obj = getattr(np, name)
    if hasattr(obj, 'dtype'):
        try:
            if 'time' in name:
                npn = obj(0, 'D')
            else:
                npn = obj(0)
            nat = npn.item()
            print('{0} ({1!r}) -> {2}'.format(name, npn.dtype.char, type(nat)))
        except:
            pass

有迹象表明,有没有原生的Python相当于在某些系统上,包括一些NumPy的类型:clongdoubleclongfloatcomplex192complex256float128longcomplexlongdoublelongfloat。在使用之前,需要将它们转换为最接近的NumPy等效项.item()


我正在使用熊猫(0.23.0)。至少对于该版本,np.str没有.item()方法,所以我看到的唯一方法是将.item()包装在try块中。
罗伯特·拉格

3
@RobertLugg np.str不是Numpy类型,也就是说np.str is str,它只是标准Python类型的别名。同样的,np.floatnp.intnp.boolnp.complex,和np.object。Numpy类型带有尾随_,例如np.str_
Mike T

我明白。因此,问题是“如果可以的话,那会很好” np.float64(0).item(),并且np.float(0).item()。换句话说,对于知道该怎么做的情况,.item()即使该方法仅返回相同的值,也应支持该方法。这样,我可以.item()在没有特殊大小写的情况下应用更多的numpy标量。实际上,由于底层实现,似乎并行的概念有所不同。我完全理解为什么这样做。但这是图书馆用户的烦恼。
罗伯特·拉格

45

发现自己混合了numpy类型和标准python。由于所有numpy类型都源自numpy.generic,因此您可以将所有内容转换为python标准类型:

if isinstance(obj, numpy.generic):
    return numpy.asscalar(obj)

5
作为公认的答案NumPy 1.16已弃用该np.asscalar()方法。为什么?可能没有明显的理由。尽管有十多年的相对稳定性,NumPy API现在还是一个不稳定的移动目标,需要对下游应用程序进行不断维护。至少他们暂时把item()方法留给了我们
Cecil Curry

自numpy v1.6以来,asscalar方法已贬值
Eswar

您可以轻松地用替换答案, if isinstance(o, numpy.generic): return o.item() raise TypeError然后它又变成一个不建议使用的答案:D
Buggy

19

如果要将(numpy.array或numpy标量或本机类型或numpy.darray)转换为本机类型,则可以执行以下操作:

converted_value = getattr(value, "tolist", lambda: value)()

tolist会将标量或数组转换为python本机类​​型。默认的lambda函数处理值已经是本机的情况。


2
混合类型(本机和非本机)的最干净方法,做得好!对于那些想知道的人,是的,当您在单个值上调用tolist时,它只会返回一个值(标量),而不是您可能想到的列表。值得注意的是,编写lambda的更简单方法是lambda: value因为我们不需要任何输入。
fgblomqvist

getattr+ tolist组合不仅是通用的,而且甚至是矢量化的!(取消链接.item())
mirekphd

11

怎么样:

In [51]: dict([(d, type(np.zeros(1,d).tolist()[0])) for d in (np.float32,np.float64,np.uint32, np.int16)])
Out[51]: 
{<type 'numpy.int16'>: <type 'int'>,
 <type 'numpy.uint32'>: <type 'long'>,
 <type 'numpy.float32'>: <type 'float'>,
 <type 'numpy.float64'>: <type 'float'>}

1
我在问题的结尾提到了这种解决方案。但是,我正在寻找一种系统的解决方案,而不是仅涵盖少数情况的硬编码解决方案。例如,如果numpy将来添加更多dtype,则解决方案将中断。因此,我对该解决方案不满意。
conradlee

可能的dtypes的数量是无限的。考虑np.dtype('mint8')任何正整数m。不可能有详尽的映射。(我也不相信有内置函数可以为您完成此转换。我可能错了,但我不这么认为:))
unutbu 2012年

2
Python将numpy dtypes映射为python类型,我不确定如何使用,但我想使用它们执行的任何方法。我认为这一定是为了允许在numpy dtypes和python类型之间进行乘法(和其他操作)。我猜他们的方法并没有详尽地映射所有可能的numpy类型,但至少是有意义的最常见类型。
conradlee

它不能始终如一地工作:>>> print([numpy.asscalar(x) for x in numpy.linspace(1.0, 0.0, 21)]) [1.0, 0.95, 0.9, 0.85, 0.8, 0.75, 0.7, 0.6499999999999999, 0.6, 0.55, 0.5, 0.44999999999999996, 0.3999999999999999, 0.35, 0.29999999999999993, 0.25, 0.19999999999999996, 0.1499999999999999, 0.09999999999999998, 0.04999999999999993, 0.0]如您所见,并非所有值都已正确转换。
亚历克斯·F

按照我之前的评论,奇怪的是,此方法可行,尽管我本来需要将Python本机类​​型而不是Numpy本机类型放到一轮: >>> print([numpy.asscalar(round(x,2)) for x in numpy.linspace(1.0, 0.0, 21)]) [1.0, 0.95, 0.9, 0.85, 0.8, 0.75, 0.7, 0.65, 0.6, 0.55, 0.5, 0.45, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0]
Alex F

9

tolist()是实现此目的的更通用的方法。它适用于任何原始dtype以及数组或矩阵。

如果从原始类型调用,我实际上不会产生一个列表:

numpy的= = 1.15.2

>>> import numpy as np

>>> np_float = np.float64(1.23)
>>> print(type(np_float), np_float)
<class 'numpy.float64'> 1.23

>>> listed_np_float = np_float.tolist()
>>> print(type(listed_np_float), listed_np_float)
<class 'float'> 1.23

>>> np_array = np.array([[1,2,3.], [4,5,6.]])
>>> print(type(np_array), np_array)
<class 'numpy.ndarray'> [[1. 2. 3.]
 [4. 5. 6.]]

>>> listed_np_array = np_array.tolist()
>>> print(type(listed_np_array), listed_np_array)
<class 'list'> [[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]]


6

我认为您可以像这样编写通用类型转换函数:

import numpy as np

def get_type_convert(np_type):
   convert_type = type(np.zeros(1,np_type).tolist()[0])
   return (np_type, convert_type)

print get_type_convert(np.float32)
>> (<type 'numpy.float32'>, <type 'float'>)

print get_type_convert(np.float64)
>> (<type 'numpy.float64'>, <type 'float'>)

这意味着没有固定的列表,您的代码将使用更多类型进行扩展。


您是否知道将numpy类型映射到python类型的tolist()方法的一部分的源代码在哪里?我快速看了一下,但是找不到。
conradlee 2012年

我正在做的是一点技巧numpy.ndarray,它使用zeros()并调用ndarrays tolist()函数以将其转换为本机类型来生成一个带有1 0的值。一旦进入本地类型,我会要求类型返回它。 tolist()是功能的ndarray
马特·阿尔

是的,我明白了-它能满足我的需求,因此我接受了您的解决方案。但是我不知道tolist()是如何确定要强制转换为哪种类型的,而我不确定如何找到源。
conradlee

记录函数的位置是numpy.sourceforge.net/numdoc/HTML/numdoc.htm#pgfId-36588。我认为检查可能能够帮助您找到更多信息,但没有任何乐趣。下一步,我尝试克隆github.com/numpy/numpy.git并运行grep -r 'tolist' numpy。(仍在进行中,numpy很大!)
Matt Alcock 2012年

3

numpy将信息保留在公开的映射中,typeDict因此您可以执行以下操作:

>>> import __builtin__
>>> import numpy as np
>>> {v: k for k, v in np.typeDict.items() if k in dir(__builtin__)}
{numpy.object_: 'object',
 numpy.bool_: 'bool',
 numpy.string_: 'str',
 numpy.unicode_: 'unicode',
 numpy.int64: 'int',
 numpy.float64: 'float',
 numpy.complex128: 'complex'}

如果您想要实际的python类型而不是它们的名称,可以执行::

>>> {v: getattr(__builtin__, k) for k, v in np.typeDict.items() if k in vars(__builtin__)}
{numpy.object_: object,
 numpy.bool_: bool,
 numpy.string_: str,
 numpy.unicode_: unicode,
 numpy.int64: int,
 numpy.float64: float,
 numpy.complex128: complex}

3

抱歉,部分迟到了,但是我正在研究仅转换numpy.float64为常规Python 的问题float。我看到了3种方法:

  1. npValue.item()
  2. npValue.astype(float)
  3. float(npValue)

以下是IPython的相关计时:

In [1]: import numpy as np

In [2]: aa = np.random.uniform(0, 1, 1000000)

In [3]: %timeit map(float, aa)
10 loops, best of 3: 117 ms per loop

In [4]: %timeit map(lambda x: x.astype(float), aa)
1 loop, best of 3: 780 ms per loop

In [5]: %timeit map(lambda x: x.item(), aa)
1 loop, best of 3: 475 ms per loop

听起来float(npValue)好像快得多。


1

我的方法有点用力,但似乎在所有情况下都很好:

def type_np2py(dtype=None, arr=None):
    '''Return the closest python type for a given numpy dtype'''

    if ((dtype is None and arr is None) or
        (dtype is not None and arr is not None)):
        raise ValueError(
            "Provide either keyword argument `dtype` or `arr`: a numpy dtype or a numpy array.")

    if dtype is None:
        dtype = arr.dtype

    #1) Make a single-entry numpy array of the same dtype
    #2) force the array into a python 'object' dtype
    #3) the array entry should now be the closest python type
    single_entry = np.empty([1], dtype=dtype).astype(object)

    return type(single_entry[0])

用法:

>>> type_np2py(int)
<class 'int'>

>>> type_np2py(np.int)
<class 'int'>

>>> type_np2py(str)
<class 'str'>

>>> type_np2py(arr=np.array(['hello']))
<class 'str'>

>>> type_np2py(arr=np.array([1,2,3]))
<class 'int'>

>>> type_np2py(arr=np.array([1.,2.,3.]))
<class 'float'>

我认为这与Matt Alcock的回答基本相同。
Simon Streicher

1

对于那些不需要自动转换并且知道该值的numpy dtype的人的数组标量的补充说明:

数组标量与Python标量不同,但是它们在大多数情况下可以互换使用(主要的例外是v2.x之前的Python版本,其中整数数组标量不能用作列表和元组的索引)。有一些例外,例如,当代码需要标量的非常特定的属性时,或者当代码专门检查值是否为Python标量时。通常,通过使用相应的Python类型函数(例如,int,float,complex,str,unicode)将数组标量显式转换为Python标量,即可轻松解决问题。

资源

因此,在大多数情况下,可能根本不需要转换,并且可以直接使用数组标量。效果应与使用Python标量相同:

>>> np.issubdtype(np.int64, int)
True
>>> np.int64(0) == 0
True
>>> np.issubdtype(np.float64, float)
True
>>> np.float64(1.1) == 1.1
True

但是,如果由于某种原因需要显式转换,则可以使用相应的Python内置函数。如另一个答案所示,它也比数组标量item()方法快。


0

翻译整个ndarray而不是一个单位数据对象:

def trans(data):
"""
translate numpy.int/float into python native data type
"""
result = []
for i in data.index:
    # i = data.index[0]
    d0 = data.iloc[i].values
    d = []
    for j in d0:
        if 'int' in str(type(j)):
            res = j.item() if 'item' in dir(j) else j
        elif 'float' in str(type(j)):
            res = j.item() if 'item' in dir(j) else j
        else:
            res = j
        d.append(res)
    d = tuple(d)
    result.append(d)
result = tuple(result)
return result

但是,处理大型数据帧需要花费几分钟。我也在寻找一种更有效的解决方案。希望有一个更好的答案。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.