使用方括号或点来访问列有什么区别?


73

在以下两种情况下:

import pandas

d = {'col1': 2, 'col2': 2.5}
df = pandas.DataFrame(data=d, index=[0])

print(df['col2'])
print(df.col2)

两种方法都可用于在列上建立索引并产生相同的结果,所以它们之间有什么区别吗?


除非列名包含空格或其他非字母数字字符(是,允许)。如果是这样,则只剩下方括号符号。
Paulo Scardine

Answers:


62

“点符号”,即为方便起见公开df.col2属性访问

您可以直接作为属性访问“系列”上的索引,“数据框架”上的列以及“面板”上的项目:

df['col2']做同样的事情:它返回pd.Series列的a。

关于属性访问的一些警告:

  • 您不能添加一列(df.new_col = x将无法工作,更糟糕的是:它会默默地实际上创建一个新属性而不是一列-请在此处进行猴子修补)
  • 如果列名中有空格或列名是整数,则将无法使用。

4
它确实会默默地创建一个新属性而不是一个列。对我来说就是这种情况,感谢警告!
巴拉特·拉姆·安姆

2
如果列名是'name',它也将不起作用,因为name是数据框的方法
Bruno Vermeulen

19

只要您使用简单的名称访问单个列,它们就相同,但是您可以使用方括号表示法做更多的事情。您只能df.col在列名是有效的Python标识符(例如,不包含空格和其他类似内容)的情况下使用。另外,如果您的列名与pandas方法名(例如sum)冲突,您可能会遇到意外。使用方括号,您可以选择多列(例如df[['col1', 'col2']])或添加新列(df['newcol'] = ...),而点访问不能做到这一点。

您链接到的另一个问题适用,但这是一个更通用的问题。Python对象可以定义.and[]运算符如何应用于它们。Pandas DataFrames已选择使其在访问单个列的这种有限情况下相同,并具有上述警告。


15

差异的简短答案:

  • []索引(方括号访问)具有对DataFrame列数据进行操作的全部功能。
  • 虽然属性访问(点访问)主要是为了方便访问现有的DataFrame列数据,但偶尔也有其局限性(例如,特殊的列名,创建新列)。

更多的解释是,Seires和DataFrame是熊猫的核心类和数据结构,当然它们也是Python类,因此在涉及熊猫DataFrame和普通Python对象之间的属性访问时,有一些细微的区别。但这是有据可查的,很容易理解。请注意以下几点:

  1. 在Python中,用户可以使用属性访问将自己的数据属性动态添加到实例对象。

    >>> class Dog(object):
    ...     pass
    >>> dog = Dog()
    >>> vars(dog)
    {}
    >>> superdog = Dog()
    >>> vars(superdog)
    {}
    >>> dog.legs = 'I can run.'
    >>> superdog.wings = 'I can fly.'
    >>> vars(dog)
    {'legs': 'I can run.'}
    >>> vars(superdog)
    {'wings': 'I can fly.'}
    
  2. 在熊猫,索引密切相关的数据结构,您可以访问在数据帧上的系列指数,列作为属性

    >>> import pandas as pd
    >>> import numpy as np
    >>> data = np.random.randint(low=0, high=10, size=(2,2))
    >>> df = pd.DataFrame(data, columns=['a', 'b'])
    >>> df
       a  b
    0  7  6
    1  5  8
    >>> vars(df)
    {'_is_copy': None, 
     '_data': BlockManager
        Items: Index(['a', 'b'], dtype='object')
        Axis 1: RangeIndex(start=0, stop=2, step=1)
        IntBlock: slice(0, 2, 1), 2 x 2, dtype: int64,
     '_item_cache': {}}
    
  3. 但是,熊猫属性访问主要是为了方便读取和修改DataFrame的Series或column的现有元素

    >>> df.a
    0    7
    1    5
    Name: a, dtype: int64
    >>> df.b = [1, 1]
    >>> df
       a  b
    0  7  1
    1  5  1
    
  4. 而且,便利性是对全部功能的折衷。例如,您可以使用列名创建一个DataFrame对象['space bar', '1', 'loc', 'min', 'index'],但是您不能将它们作为属性访问,因为它们不是有效的Python标识符1space bar或者与现有方法名冲突。

    >>> data = np.random.randint(0, 10, size=(2, 5))
    >>> df_special_col_names = pd.DataFrame(data, columns=['space bar', '1', 'loc', 'min', 'index'])
    >>> df_special_col_names
       space bar  1  loc  min  index
    0          4  4    4    8      9
    1          3  0    1    2      3
    
  5. 在这些情况下,.loc.iloc[]索引的定义方式,以完全接入/操作指数系列和数据帧的对象列。

    >>> df_special_col_names['space bar']
    0    4
    1    3
    Name: space bar, dtype: int64
    >>> df_special_col_names.loc[:, 'min']
    0    8
    1    2
    Name: min, dtype: int64
    >>> df_special_col_names.iloc[:, 1]
    0    4
    1    0
    Name: 1, dtype: int64
    
  6. 另一个重要的区别是在尝试为DataFrame创建新列时。如您所见,df.c = df.a + df.b只是在核心数据结构旁边创建了一个新属性,所以从版本0.21.0和更高版本开始,此行为将引发UserWarning(不再静音)。

    >>> df
       a  b
    0  7  1
    1  5  1
    >>> df.c = df.a + df.b
    __main__:1: UserWarning: Pandas doesn't allow columns to be created via a new attribute name - see https://pandas.pydata.org/pandas-docs/stable/indexing.html#attribute-access
    >>> df['d'] = df.a + df.b
    >>> df
       a  b  d
    0  7  1  8
    1  5  1  6
    >>> df.c
    0    8
    1    6
    dtype: int64
    >>> vars(df)
    {'_is_copy': None, 
     '_data': 
        BlockManager
        Items: Index(['a', 'b', 'd'], dtype='object')
        Axis 1: RangeIndex(start=0, stop=2, step=1)
        IntBlock: slice(0, 2, 1), 2 x 2, dtype: int64
        IntBlock: slice(2, 3, 1), 1 x 2, dtype: int64, 
     '_item_cache': {},
     'c': 0    8
          1    6
          dtype: int64}
    
  7. 最后,要为DataFrame创建新列,请不要使用属性访问,正确的方法是使用[].loc索引

    >>> df
       a  b
    0  7  6
    1  5  8
    >>> df['c'] = df.a + df.b 
    >>> # OR
    >>> df.loc[:, 'c'] = df.a + df.b
    >>> df # c is an new added column
       a  b   c
    0  7  6  13
    1  5  8  13
    
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.