如何合并两个数据帧?


105

我正在使用Pandas数据框。我说有一个初始数据框D。我从中提取两个数据帧,如下所示:

A = D[D.label == k]
B = D[D.label != k]

然后我更改标签中AB

A.label = 1
B.label = -1

我想将A和B结合起来,这样我就可以将它们作为一个数据帧使用,类似于联合操作。数据的顺序并不重要。但是,当我们从D采样A和B时,它们保留了D的索引。

Answers:


148

我相信你可以使用该append方法

bigdata = data1.append(data2, ignore_index=True)

保持索引只是不使用ignore_index关键字...


1
这可行。它创建一个新的DataFrame。有没有办法内联?当我从数据库中批量加载大量数据时,这将非常有用,这样我就可以迭代地更新DataFrame而无需每次都创建一个副本。
安德鲁

1
是的,这是可能的,请参阅:stackoverflow.com/a/46661368/5717580
martin-martin

91

您还可以使用pd.concat,当您连接两个以上数据框时,这特别有用:

bigdata = pd.concat([data1, data2], ignore_index=True, sort=False)

我想使用它,但是我试图将两个具有相同名称o_O的列连接起来
lifelonglearner

45

如果有人发现它有用,可以考虑在此处添加它。@ostrokach已经提到了如何合并跨行的数据框,即

df_row_merged = pd.concat([df_a, df_b], ignore_index=True)

要跨列合并,可以使用以下语法:

df_col_merged = pd.concat([df_a, df_b], axis=1)

14

对于正在处理大数据并需要连接多个数据集的情况,还有另一种解决方案。concat可能会提高性能,因此,如果您不想每次都创建新的df,则可以使用列表推导

frames = [ process_file(f) for f in dataset_files ]
result = pd.append(frames)

(如本节底部文档中的此处所指出):

注意:但是,值得注意的是,concat(并因此append)制作了数据的完整副本,并且不断地重用此功能可能会严重影响性能。如果需要对多个数据集使用该操作,请使用列表推导。


2

如果要用df1第二个数据帧的值更新/替换第一个数据帧的值df2。您可以按照以下步骤进行操作-

步骤1:设置第一个数据帧(df1)的索引

df1.set_index('id')

步骤2:设置第二个数据帧(df2)的索引

df2.set_index('id')

最后使用以下代码段更新数据框-

df1.update(df2)

0

第一个数据帧

train.shape

结果:-

(31962, 3)

第二个数据帧

test.shape

结果:-

(17197, 2)

结合

new_data=train.append(test,ignore_index=True)

检查一下

new_data.shape

结果:-

(49159, 3)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.