如何将熊猫系列或索引转换为Numpy数组？

264

您是否知道如何以NumPy数组或python列表的形式获取DataFrame的索引或列？

python pandas

— 埃里克姆
source

此外，还涉及到：将熊猫数据帧转换为NumPy数组

— cs95

这回答了你的问题了吗？将熊猫数据帧转换为NumPy数组

— AMC

1

注意：必须像这样将Pandas DataFrame转换为数组（或列表），才能表明存在其他问题。我强烈建议确保一个数据帧是您的特定用例合适的数据结构，而熊猫不包括执行你感兴趣的操作的任何方式。

— AMC

353

要获取NumPy数组，应使用以下values属性：

In [1]: df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['a', 'b', 'c']); df
   A  B
a  1  4
b  2  5
c  3  6

In [2]: df.index.values
Out[2]: array(['a', 'b', 'c'], dtype=object)

这样可以访问数据的存储方式，因此无需进行转换。
注意：此属性也可用于其他许多熊猫的对象。

In [3]: df['A'].values
Out[3]: Out[16]: array([1, 2, 3])

要将索引作为列表获取，请致电tolist：

In [4]: df.index.tolist()
Out[4]: ['a', 'b', 'c']

同样，对于列。

— 安迪·海登（Andy Hayden）
source

注意：.values不.to_numpy()建议使用，如果需要NumPy数组，建议使用该替换。您是否可以在This上扩展访问数据的存储方式，因此无需进行转换？

— AMC

在通过cs95答案给出了很好的解释.values，.to_numpy()和.array。

— AMC

75

您可以使用df.index访问索引对象，然后使用来获取列表中的值df.index.tolist()。同样，您可以将其df['col'].tolist()用于Series。

— 迪亚曼特
source

它返回instanceMethod而不是列表数组

— V Shreyas

12

@VShreyas，怎么样df.index.values.tolist()

— LancelotHolmes

3

df.index.tolist()不返回实例方法。它返回索引列表。这是在熊猫索引上定义的方法。虽然首先调用值是一种可能，但将作业委派给numpy并不是一种更正-只是一种替代。

— ayhan

51

熊猫> = 0.24

`.values`不赞成使用这些方法，而推荐使用这些方法！

从v0.24.0开始，我们将有两个崭新的品牌，从获得与NumPy阵列的优选方法Index，Series和DataFrame对象：他们是to_numpy()和.array。关于用法，文档提到：

我们尚未删除或弃用Series.values或 DataFrame.values，但我们强烈建议您使用.array或 .to_numpy()代替。

有关更多信息，请参见v0.24.0发行说明的这一部分。

to_numpy() 方法

df.index.to_numpy()
# array(['a', 'b'], dtype=object)

df['A'].to_numpy()
#  array([1, 4])

默认情况下，返回一个视图。所做的任何修改都会影响原件。

v = df.index.to_numpy()
v[0] = -1

df
    A  B
-1  1  2
b   4  5

如果您需要副本，请使用to_numpy(copy=True）;

v = df.index.to_numpy(copy=True)
v[-1] = -123

df
   A  B
a  1  2
b  4  5

请注意，此功能也适用于DataFrames（而不适用于.array）。

array属性
此属性返回一个ExtensionArray支持索引/系列的对象。

pd.__version__
# '0.24.0rc1'

# Setup.
df = pd.DataFrame([[1, 2], [4, 5]], columns=['A', 'B'], index=['a', 'b'])
df

   A  B
a  1  2
b  4  5

df.index.array    
# <PandasArray>
# ['a', 'b']
# Length: 2, dtype: object

df['A'].array
# <PandasArray>
# [1, 4]
# Length: 2, dtype: int64

在这里，可以使用来获取列表list：

list(df.index.array)
# ['a', 'b']

list(df['A'].array)
# [1, 4]

或者，直接致电.tolist()：

df.index.tolist()
# ['a', 'b']

df['A'].tolist()
# [1, 4]

关于返回的内容，文档中提到，

对于由常规NumPy数组支持的Series和Index，Series.array 将返回一个new arrays.PandasArray，它是一个薄的（无副本）包装numpy.ndarray。arrays.PandasArray本身并不是特别有用，但它确实提供了与pandas或第三方库中定义的任何扩展数组相同的接口。

因此，总而言之，.array将返回

现有ExtensionArray的索引/系列支持，或
如果有支持该系列的NumPy数组，则将新ExtensionArray对象创建为基础数组上的精简包装。

添加两种新方法的原理
这些功能是在GitHub两个问题GH19954和GH23623下进行讨论的结果而添加的。

具体来说，文档提到了基本原理：

[...] .values目前尚不清楚返回的值是实际数组，它的某种转换还是熊猫自定义数组之一（如Categorical）。例如，使用PeriodIndex，每次都会.values 生成一个新ndarray的周期对象。[...]

这两个功能旨在提高API的一致性，这是朝正确方向迈出的重要一步。

最后，.values不会在当前版本中弃用，但我希望这种情况将来可能会发生，因此，我敦促用户尽快迁移到较新的API。

— cs95
source

48

如果要处理多索引数据框，则可能只对提取多索引一个名称的列感兴趣。您可以这样做

df.index.get_level_values('name_sub_index')

并且当然name_sub_index必须是FrozenList df.index.names

— gg349
source

16

从pandas v0.13开始，您还可以使用get_values：

df.index.get_values()

— 耶母
source

5

此值与.value之间有区别吗？（我更新了版本信息，因为此功能从0.13.0文档出现。）

— Andy Hayden 2014年

@Andy Hayden：.get_values是仅获取当前值的正式方法，而.values（例如在多索引上）可能返回已删除行或列的索引值，这不是一个区别吗？

— Ezekiel Kruglick

@EzekielKruglick，所以它总是一个副本吗？与文档的链接非常简短，我不认为您会收到像这样的虚假信息（即使它们位于MI中，它们也不会位于.values中）会很高兴看到一个示例来证明这一点！

— 安迪·海登

@AndyHayden：我想我读错了你的评论。没错，.values很好，.level给出了过时的值，而get_values给出了正确的当前值，但不包括丢弃的行/列。原始的github问题：github.com/pydata/pandas/issues/3686但我刚刚检查了一下，看起来.values（当然！）以与我想的不同的形式放弃了最新的信息

— Ezekiel Kruglick 2015年

1

@AndyHayden不，没有区别。get_values只是打电话.values。输入的字符更多。

— cs95

0

我将大熊猫转换dataframe为list，然后使用基本list.index()。像这样：

dd = list(zone[0]) #Where zone[0] is some specific column of the table
idx = dd.index(filename[i])

您将索引值设为idx。

— 萨尔瓦吉·古普塔（Sarvagya Gupta）
source

然后使用基本的list.index（）与将Series转换为列表的问题有什么关系？

— AMC

0

最近执行此操作的方法是使用.to_numpy（）函数。

如果我的数据框的价格为“价格”列，则可以按以下方式进行转换：

priceArray = df['price'].to_numpy()

您还可以将数据类型（例如float或object）作为函数的参数传递

— 乔恩·R
source

-1

以下是将dataframe列转换为numpy数组的简单方法。

df = pd.DataFrame(somedict) 
ytrain = df['label']
ytrain_numpy = np.array([x for x in ytrain['label']])

ytrain_numpy是一个numpy数组。

我尝试过，to.numpy()但是给了我以下错误： TypeError：在使用线性SVC进行二进制相关性分类时，不支持类型转换：（dtype（'O'），）。to.numpy（）正在将dataFrame转换为numpy数组，但是内部元素的数据类型为list，因此会观察到上述错误。

— Kumar Shubham
source

我尝试使用to.numpy（），但它给了我以下错误：TypeError：使用线性SVC进行二进制相关性分类时，不支持类型的转换：（dtype（'O'），）。to.numpy（）正在将dataFrame转换为numpy数组，但是内部元素的数据类型为list，因此会观察到上述错误。不过，这并不是真正的错to_numpy。

— AMC

如何将熊猫系列或索引转换为Numpy数组？

熊猫> = 0.24

.values不赞成使用这些方法，而推荐使用这些方法！

`.values`不赞成使用这些方法，而推荐使用这些方法！