如何跨熊猫的多个数据框列“选择不同”?


101

我正在寻找一种等效于SQL的方法

SELECT DISTINCT col1, col2 FROM dataframe_table

pandas sql比较与无关distinct

.unique() 仅适用于单个列,因此我想我可以合并这些列,或将它们放在列表/元组中并进行比较,但这似乎是熊猫应该以更原生的方式进行的操作。

我是否缺少明显的东西,还是没有办法做到这一点?


您必须执行类似的操作,df.apply(pd.Series.unique)但是如果各列之间唯一值的数量不同,则此操作将无效,因此您必须构造一个列名称作为键的键并将唯一值作为值的命令
EdChum

Answers:


172

您可以使用该drop_duplicates方法来获取DataFrame中的唯一行:

In [29]: df = pd.DataFrame({'a':[1,2,1,2], 'b':[3,4,3,5]})

In [30]: df
Out[30]:
   a  b
0  1  3
1  2  4
2  1  3
3  2  5

In [32]: df.drop_duplicates()
Out[32]:
   a  b
0  1  3
1  2  4
3  2  5

subset如果只想使用某些列来确定唯一性,则还可以提供关键字参数。请参阅文档字符串


3
可能值得注意的是df.drop_duplicates(),默认情况下不是inplace方法,因此返回一个新的DataFrame(保持df不变)。这是相当标准的行为,但可能仍然有用。
evophage

13

我尝试了不同的解决方案。首先是:

a_df=np.unique(df[['col1','col2']], axis=0)

并且适用于非对象数据,这也是另一种避免错误(针对对象列类型)的方法是应用drop_duplicates()

a_df=df.drop_duplicates(['col1','col2'])[['col1','col2']]

您也可以使用SQL来执行此操作,但是在我的情况下,它的运行速度非常慢:

from pandasql import sqldf
q="""SELECT DISTINCT col1, col2 FROM df;"""
pysqldf = lambda q: sqldf(q, globals())
a_df = pysqldf(q)

7

没有unique用于df的方法,如果每列的唯一值的数量相同,则可以进行以下操作:df.apply(pd.Series.unique)但是,如果不这样做,则会出现错误。另一种方法是将值存储在以列名称为键的dict中:

In [111]:
df = pd.DataFrame({'a':[0,1,2,2,4], 'b':[1,1,1,2,2]})
d={}
for col in df:
    d[col] = df[col].unique()
d

Out[111]:
{'a': array([0, 1, 2, 4], dtype=int64), 'b': array([1, 2], dtype=int64)}

是否可以检查多个列的唯一性?
Anoop D

使用numpy获得了另一个SO问题的答案np.unique(df[['column1','column2']].values)
Anoop D

6

为了解决类似的问题,我正在使用groupby

print(f"Distinct entries: {len(df.groupby(['col1', 'col2']))}")

不过,这是否合适将取决于您要对结果执行什么操作(在我的情况下,我只是想要与COUNT DISTINCT所示结果等效)。



-1

您可以采用列的集合,并从较大的集合中减去较小的集合:

distinct_values = set(df['a'])-set(df['b'])
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.