通过整数索引选择一行熊猫系列/数据框


395

我很好奇,为什么df[2]不支持,而df.ix[2]df[2:3]这两个工作。

In [26]: df.ix[2]
Out[26]: 
A    1.027680
B    1.514210
C   -1.466963
D   -0.162339
Name: 2000-01-03 00:00:00

In [27]: df[2:3]
Out[27]: 
                  A        B         C         D
2000-01-03  1.02768  1.51421 -1.466963 -0.162339

我希望df[2]df[2:3]与Python索引约定一致的方式进行工作。是否有设计原因不支持按单个整数索引行?


4
df.ix[2]不起作用-至少不起作用pandas version '0.19.2'
Zahra

9
要查看通过索引运算符选择行和列的区别[]请参阅下面的答案。也永不使用.ix,已弃用
Ted Petrou

Answers:


551

回显@HYRY,请参阅0.11中的新文档

http://pandas.pydata.org/pandas-docs/stable/indexing.html

在这里,我们有了新的运算符,.iloc以明确支持仅整数索引,并且.loc明确支持仅标签索引

例如,想象这种情况

In [1]: df = pd.DataFrame(np.random.rand(5,2),index=range(0,10,2),columns=list('AB'))

In [2]: df
Out[2]: 
          A         B
0  1.068932 -0.794307
2 -0.470056  1.192211
4 -0.284561  0.756029
6  1.037563 -0.267820
8 -0.538478 -0.800654

In [5]: df.iloc[[2]]
Out[5]: 
          A         B
4 -0.284561  0.756029

In [6]: df.loc[[2]]
Out[6]: 
          A         B
2 -0.470056  1.192211

[] 仅对行进行切片(按标签位置)


7
如果您想要第二行,第三行和第四行怎么办?
FaCoffee

1
您只需传递索引器列表即可;docs指向上方
Jeff

2
有没有人为这些名字辩护?我发现这些很难记住,因为我不确定为什么iloc是行和loc标签。
千焦耳

3
@kilojoules .iloc按照索引中的顺序查找事物(例如.iloc[[2]])是中的第二个“行” df。该行恰好在索引位置4.loc通过索引值查找它们。所以也许“ iloc”就像“ i”一样A[i]?:)
Jim K.

1
@Jeff-这很好用,但是当您要从数据框中复制一行(例如df.loc[-1] = df.iloc[[0]])并将其插入时,会发生什么呢?该框架带有一个附加的索引列给错误ValueError: cannot set a row with mismatched columns (见stackoverflow.com/questions/47340571/...
咆哮

63

DataFrame索引运算符的主要目的[]是选择列。

当索引运算符传递字符串或整数时,它将尝试查找具有该特定名称的列并将其作为Series返回。

因此,在上述问题中:df[2]搜索与整数值匹配的列名2。该列不存在,并且KeyError引发a。


使用切片符号时,DataFrame索引运算符完全更改行为以选择行

奇怪的是,当给定切片时,DataFrame索引运算符选择行,并且可以按整数位置或按索引标签来选择行。

df[2:3]

这将从整数位置为2的行开始切为3,最后一个元素除外。因此,只需一行。下面的代码选择从整数位置6开始的行,直到每第三行从20开始但不包括20的行。

df[6:20:3]

如果DataFrame索引中包含字符串,则还可以使用由字符串标签组成的切片。有关更多详细信息,请参见.iloc与.loc上的此解决方案

我几乎从未将这种切片符号与索引运算符一起使用,因为它不是显式的,而且几乎从未使用过。按行切片时,请坚持使用.loc/.iloc


尝试使用indxeing运算符将行添加到另一个数据框,但另一个数据框保持为空。为什么?
FindOutIslamNow18年

23

您可以将DataFrame视为Series的字典。df[key]尝试通过选择列索引key并返回Series对象。

但是,在[]内切片会对行进行切片,因为这是非常常见的操作。

您可以阅读文档以了解详细信息:

http://pandas.pydata.org/pandas-docs/stable/indexing.html#basics


谢谢你的提示。有趣的是,这种事情有时仍然使大熊猫感到困惑。在某些情况下,为行为添加例外,对我来说,这有点像为了一点方便而牺牲一致性。
卡尔·伯杰

15

要基于索引访问熊猫表,还可以考虑使用numpy.as_array选项将表转换为Numpy数组,方法如下:

np_df = df.as_matrix()

然后

np_df[i] 

会工作。


11
来击败dataframes指标和其他一切大熊猫提供的全部目的
法比奥·迪亚斯

6

您可以看一下源代码

DataFrame具有对_slice()进行切片的私有函数DataFrame,并且它允许参数axis确定要切片的轴。在__getitem__()DataFrame不设置轴,同时调用_slice()。因此_slice(),默认情况下将其切片为轴0。

您可以进行一个简单的实验,这可能对您有所帮助:

print df._slice(slice(0, 2))
print df._slice(slice(0, 2), 0)
print df._slice(slice(0, 2), 1)

5

您可以像这样遍历数据帧。

for ad in range(1,dataframe_c.size):
    print(dataframe_c.values[ad])
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.