如何从熊猫的两列中形成元组列


125

我有一个Pandas DataFrame,我想将'lat'和'long'列组合成一个元组。

<class 'pandas.core.frame.DataFrame'>
Int64Index: 205482 entries, 0 to 209018
Data columns:
Month           205482  non-null values
Reported by     205482  non-null values
Falls within    205482  non-null values
Easting         205482  non-null values
Northing        205482  non-null values
Location        205482  non-null values
Crime type      205482  non-null values
long            205482  non-null values
lat             205482  non-null values
dtypes: float64(4), object(5)

我尝试使用的代码是:

def merge_two_cols(series): 
    return (series['lat'], series['long'])

sample['lat_long'] = sample.apply(merge_two_cols, axis=1)

但是,这返回以下错误:

---------------------------------------------------------------------------
 AssertionError                            Traceback (most recent call last)
<ipython-input-261-e752e52a96e6> in <module>()
      2     return (series['lat'], series['long'])
      3 
----> 4 sample['lat_long'] = sample.apply(merge_two_cols, axis=1)
      5

...

AssertionError: Block shape incompatible with manager 

我怎么解决这个问题?

Answers:


201

适应吧zip。在处理列数据时,它很方便。

df['new_col'] = list(zip(df.lat, df.long))

与使用apply或相比,它不那么复杂且速度更快map。诸如此类的np.dstack速度是的两倍zip,但不会给您元组。


3
在python3中,您必须使用list。这应该起作用:df['new_col'] = list(zip(df.lat, df.long))
paulwasit

@paulwasit啊是的,我的爱恨与python 3的懒惰行为有关。谢谢。
Dale Jung

4
list(zip(df.lat, df.long))对于900k行,这种方法在124ms内比df[['lat', 'long']].apply(tuple, axis=1)在14.2 s内效率更高。的比率大于100
鹏举召

1
我正在尝试将其与更长的列列表一起使用,df['new_col'] = list(zip(df[cols_to_keep])) 但始终收到错误消息:有Length of values does not match length of index什么建议吗?
seeiespi

1
@PeterHansen的回答对我有所帮助,但认为可能没有将*排在首位即可-* df['new_col'] = list(zip(*[df[c] for c in cols_to_keep])
jedge

61
In [10]: df
Out[10]:
          A         B       lat      long
0  1.428987  0.614405  0.484370 -0.628298
1 -0.485747  0.275096  0.497116  1.047605
2  0.822527  0.340689  2.120676 -2.436831
3  0.384719 -0.042070  1.426703 -0.634355
4 -0.937442  2.520756 -1.662615 -1.377490
5 -0.154816  0.617671 -0.090484 -0.191906
6 -0.705177 -1.086138 -0.629708  1.332853
7  0.637496 -0.643773 -0.492668 -0.777344
8  1.109497 -0.610165  0.260325  2.533383
9 -1.224584  0.117668  1.304369 -0.152561

In [11]: df['lat_long'] = df[['lat', 'long']].apply(tuple, axis=1)

In [12]: df
Out[12]:
          A         B       lat      long                             lat_long
0  1.428987  0.614405  0.484370 -0.628298      (0.484370195967, -0.6282975278)
1 -0.485747  0.275096  0.497116  1.047605      (0.497115615839, 1.04760475074)
2  0.822527  0.340689  2.120676 -2.436831      (2.12067574274, -2.43683074367)
3  0.384719 -0.042070  1.426703 -0.634355      (1.42670326172, -0.63435462504)
4 -0.937442  2.520756 -1.662615 -1.377490     (-1.66261469102, -1.37749004179)
5 -0.154816  0.617671 -0.090484 -0.191906  (-0.0904840623396, -0.191905582481)
6 -0.705177 -1.086138 -0.629708  1.332853     (-0.629707821728, 1.33285348929)
7  0.637496 -0.643773 -0.492668 -0.777344   (-0.492667604075, -0.777344111021)
8  1.109497 -0.610165  0.260325  2.533383        (0.26032456699, 2.5333825651)
9 -1.224584  0.117668  1.304369 -0.152561     (1.30436900612, -0.152560909725)

太精彩了。谢谢。显然需要了解lambda函数。
elksie5000

这对您的数据有用吗?如果是这样,您可以共享您的熊猫版本和数据吗?我想知道为什么您的代码不起作用,应该这样做。
Wouter Overmeire

版本是0.10.1_20130131。对不起,请问,为您上传部分数据的最佳方法是什么?(还是一个相对的新手)。
elksie5000

我无法在0.10.1上重现。最好的上传方式?您可以创建代码来生成包含随机数据的框架,该问题具有相同的问题并共享该代码,也可以对上面的框架(示例)进行腌制,然后通过免费的大文件传输服务进行传输。如何腌制(两行,不带“,”):导入腌制,将open('sample.pickle','w')作为文件:pickle.dump(sample,file)
Wouter Overmeire

1
我已经对此表示赞同,因为我需要压缩10列,并且不想给数据框名称10次。只想给列名。
里希·ja那(Rishi Jain)


2

我想补充一下df.values.tolist()。(只要您不介意获取列表列而不是元组)

import pandas as pd
import numpy as np

size = int(1e+07)
df = pd.DataFrame({'a': np.random.rand(size), 'b': np.random.rand(size)}) 

%timeit df.values.tolist()
1.47 s ± 38.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit list(zip(df.a,df.b))
1.92 s ± 131 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

当您不仅拥有以下两列时:%timeit df[['a', 'b']].values.tolist()。它仍然要快得多。
ChaimG
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.