熊猫将数据框转换为元组数组

131

我已经使用熊猫处理了一些数据，现在我想将批处理保存回数据库。这要求我将数据帧转换为元组数组，每个元组都对应于数据帧的“行”。

我的DataFrame看起来像：

In [182]: data_set
Out[182]: 
  index data_date   data_1  data_2
0  14303 2012-02-17  24.75   25.03 
1  12009 2012-02-16  25.00   25.07 
2  11830 2012-02-15  24.99   25.15 
3  6274  2012-02-14  24.68   25.05 
4  2302  2012-02-13  24.62   24.77 
5  14085 2012-02-10  24.38   24.61

我想将其转换为元组数组，例如：

[(datetime.date(2012,2,17),24.75,25.03),
(datetime.date(2012,2,16),25.00,25.07),
...etc. ]

关于如何有效执行此操作的任何建议？

python pandas

— ri
source

21

对于那些在2017年或以后获得此答案的人，下面有一个新的惯用解决方案。您可以使用list(df.itertuples(index=False, name=None))

— Ted Petrou

3

当我遇到这个问题时，我需要寻找两件事：元组df.to_records(index=False)列表和字典列表：df.to_dict('records')

— Martin Thoma

@MartinThoma to_records和to_dict（'records'）都是我的数据类型。已知错误，但使该解决方案毫无价值...

— Jochen

206

怎么样：

subset = data_set[['data_date', 'data_1', 'data_2']]
tuples = [tuple(x) for x in subset.to_numpy()]

大熊猫<0.24使用

tuples = [tuple(x) for x in subset.values]

— 韦斯·麦金尼
source

2

请使用@ksindi的答案，请参见下面的答案.itertuples，它比将值作为数组并将其细化为元组更有效。

— vy32

1

稍微干净一点的是：tuples = map（tuple，subset.values）

— RufusVS

但这可以将值转换为其他类型，对吗？

— AMC

159

list(data_set.itertuples(index=False))

从17.1开始，以上代码将返回namedtuples列表。

如果需要普通元组的列表，请name=None作为参数传递：

list(data_set.itertuples(index=False, name=None))

— 卡米尔·辛迪
source

39

这应该是恕我直言的公认答案（因为现在存在专用功能）。顺便说一句，如果您希望迭代器中使用法线tuples zip（而不是namedtuples），请致电：data_set.itertuples(index=False, name=None)

— Axel

2

实际上，它不应该。itertuples很慢。尽可能避免。在这些情况下，for循环（如所示的可接受的答案）通常会更快。

— cs95

3

@coldspeed我从链接的问题中学到的一点是，itertuples很慢，因为转换为元组通常比矢量化/ cython操作要慢。鉴于问题要求转换为元组，是否有任何理由使我们认为接受的答案更快？我所做的快速测试表明itertuples版本更快。

— TC Proctor

2

我在此答案中

— TC Proctor

1

@johnDanger类似于python中的eval（）和globals（）的概念。每个人都知道它们的存在。每个人都还知道您通常不应该使用这些功能，因为它被认为是不好的形式。这里的原理是相似的，在熊猫中很少有使用iter *家族的情况，这可以说是其中之一。我仍然会使用其他方法（例如列表比较或映射），但这就是我。

— cs95

45

通用方式：

[tuple(x) for x in data_set.to_records(index=False)]

— 拉蒙·J·罗梅罗与维吉尔
source

1

data_set.to_records(index=False).tolist()好不好

— 阿米尔·沙巴尼

30

动机
许多数据集足够大，我们需要关注自身的速度/效率。因此，我本着这种精神提供此解决方案。它恰好也是简洁的。

为了比较，让我们删除该index列

df = data_set.drop('index', 1)

解决方案
我将建议使用zip和map

list(zip(*map(df.get, df)))

[('2012-02-17', 24.75, 25.03),
 ('2012-02-16', 25.0, 25.07),
 ('2012-02-15', 24.99, 25.15),
 ('2012-02-14', 24.68, 25.05),
 ('2012-02-13', 24.62, 24.77),
 ('2012-02-10', 24.38, 24.61)]

如果我们要处理特定的列子集，它也很灵活。我们假设已经显示的列是我们想要的子集。

list(zip(*map(df.get, ['data_date', 'data_1', 'data_2'])))

[('2012-02-17', 24.75, 25.03),
 ('2012-02-16', 25.0, 25.07),
 ('2012-02-15', 24.99, 25.15),
 ('2012-02-14', 24.68, 25.05),
 ('2012-02-13', 24.62, 24.77),
 ('2012-02-10', 24.38, 24.61)]

什么是更快？

转弯records最快，然后渐近收敛zipmap，iter_tuples

我将使用simple_benchmarks从这篇文章中获得的库

from simple_benchmark import BenchmarkBuilder
b = BenchmarkBuilder()

import pandas as pd
import numpy as np

def tuple_comp(df): return [tuple(x) for x in df.to_numpy()]
def iter_namedtuples(df): return list(df.itertuples(index=False))
def iter_tuples(df): return list(df.itertuples(index=False, name=None))
def records(df): return df.to_records(index=False).tolist()
def zipmap(df): return list(zip(*map(df.get, df)))

funcs = [tuple_comp, iter_namedtuples, iter_tuples, records, zipmap]
for func in funcs:
    b.add_function()(func)

def creator(n):
    return pd.DataFrame({"A": random.randint(n, size=n), "B": random.randint(n, size=n)})

@b.add_arguments('Rows in DataFrame')
def argument_provider():
    for n in (10 ** (np.arange(4, 11) / 2)).astype(int):
        yield n, creator(n)

r = b.run()

检查结果

r.to_pandas_dataframe().pipe(lambda d: d.div(d.min(1), 0))

        tuple_comp  iter_namedtuples  iter_tuples   records    zipmap
100       2.905662          6.626308     3.450741  1.469471  1.000000
316       4.612692          4.814433     2.375874  1.096352  1.000000
1000      6.513121          4.106426     1.958293  1.000000  1.316303
3162      8.446138          4.082161     1.808339  1.000000  1.533605
10000     8.424483          3.621461     1.651831  1.000000  1.558592
31622     7.813803          3.386592     1.586483  1.000000  1.515478
100000    7.050572          3.162426     1.499977  1.000000  1.480131

r.plot()

— 海盗
source

12

这是一种向量化方法（假设将数据帧data_set定义为df），它返回的listof tuples，如下所示：

>>> df.set_index(['data_date'])[['data_1', 'data_2']].to_records().tolist()

产生：

[(datetime.datetime(2012, 2, 17, 0, 0), 24.75, 25.03),
 (datetime.datetime(2012, 2, 16, 0, 0), 25.0, 25.07),
 (datetime.datetime(2012, 2, 15, 0, 0), 24.99, 25.15),
 (datetime.datetime(2012, 2, 14, 0, 0), 24.68, 25.05),
 (datetime.datetime(2012, 2, 13, 0, 0), 24.62, 24.77),
 (datetime.datetime(2012, 2, 10, 0, 0), 24.38, 24.61)]

将datetime列设置为索引轴的想法是，通过对数据帧使用其中的参数来帮助将Timestamp值转换为其对应的datetime.datetime等效格式。convert_datetime64DF.to_recordsDateTimeIndex

这会返回recarray，然后可以将其返回给listusing.tolist

根据用例，更通用的解决方案是：

df.to_records().tolist()                              # Supply index=False to exclude index

— 尼克·马维利（Nickil Maveli）
source

10

最有效，最简单的方法：

list(data_set.to_records())

您可以在此调用之前过滤所需的列。

— 古斯塔沃·贡萨尔维斯（GustavoGonçalves）
source

1

我认为应将“ index = False”作为to_records（）的参数。因此，list（data_set.to_records（index = False））

— user3415167

8

该答案不会添加尚未讨论的任何答案，但是这里提供了一些速度结果。我认为这应该可以解决评论中出现的问题。所有这些看起来都像是O（n）基于这三个值，。

TL; DR：tuples = list(df.itertuples(index=False, name=None))和tuples = list(zip(*[df[c].values.tolist() for c in df]))并列最快。

我对结果进行了快速速度测试，得出以下三个建议：

@pirsquared的zip答案： tuples = list(zip(*[df[c].values.tolist() for c in df]))
@ wes-mckinney接受的答案： tuples = [tuple(x) for x in df.values]
itertuples来自@ksindi的答案以及来自@Axel的name=None建议：tuples = list(df.itertuples(index=False, name=None))

from numpy import random
import pandas as pd


def create_random_df(n):
    return pd.DataFrame({"A": random.randint(n, size=n), "B": random.randint(n, size=n)})

小尺寸：

df = create_random_df(10000)
%timeit tuples = list(zip(*[df[c].values.tolist() for c in df]))
%timeit tuples = [tuple(x) for x in df.values]
%timeit tuples = list(df.itertuples(index=False, name=None))

给出：

1.66 ms ± 200 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
15.5 ms ± 1.52 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)
1.74 ms ± 75.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

较大：

df = create_random_df(1000000)
%timeit tuples = list(zip(*[df[c].values.tolist() for c in df]))
%timeit tuples = [tuple(x) for x in df.values]
%timeit tuples = list(df.itertuples(index=False, name=None))

给出：

202 ms ± 5.91 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
1.52 s ± 98.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
209 ms ± 11.8 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

尽我所能：

df = create_random_df(10000000)
%timeit tuples = list(zip(*[df[c].values.tolist() for c in df]))
%timeit tuples = [tuple(x) for x in df.values]
%timeit tuples = list(df.itertuples(index=False, name=None))

给出：

1.78 s ± 118 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
15.4 s ± 222 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
1.68 s ± 96.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

zip版本和itertuples版本彼此在置信区间内。我怀疑他们在幕后做着同样的事情。

这些速度测试可能无关紧要。突破计算机内存的限制并不需要花费大量时间，并且您实际上不应该对大型数据集执行此操作。完成这些操作后，使用这些元组将最终效率低下。这不太可能成为代码中的主要瓶颈，因此请坚持使用您认为最易读的版本。

— TC Proctor
source

我更新了陈旧的帖子。我已经使用[*zip(*map(df.get, df))]了一段时间了。无论如何，以为您会发现它很有趣。

— piRSquared

@piRSquared哦。我喜欢漂亮的情节。我猜看起来好像是O（n）。

— TC Proctor

2

#try this one:

tuples = list(zip(data_set["data_date"], data_set["data_1"],data_set["data_2"]))
print (tuples)

— Alsphere
source

2

将数据框架列表更改为元组列表。

df = pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})
print(df)
OUTPUT
   col1  col2
0     1     4
1     2     5
2     3     6

records = df.to_records(index=False)
result = list(records)
print(result)
OUTPUT
[(1, 4), (2, 5), (3, 6)]

— 哥瑟姆·巴卢萨米（Gowtham Balusamy）
source

1

请不要只发布代码作为答案，还请提供解释代码的作用以及如何解决问题的方法。带有解释的答案通常质量更高，并且更有可能吸引投票。

— Mark Rotteveel

1

更多pythonic方式：

df = data_set[['data_date', 'data_1', 'data_2']]
map(tuple,df.values)

— 安库·潘瓦尔
source

更多pythonic方式：完全相反。map()众所周知是不可思议的。

— AMC