Questions tagged «pandas»

Pandas是用于数据处理和分析的Python库,例如,在统计,实验科学结果,计量经济学或金融学中常见的数据框,多维时间序列和横截面数据集。Pandas是Python中主要的数据科学库之一。

8
将多个列表放入数据框
如何获取多个列表并将它们作为不同的列放在python数据框中?我尝试了此解决方案,但遇到了一些麻烦。 尝试1: 有三个列表,并将它们压缩在一起并使用 res = zip(lst1,lst2,lst3) 产量仅一栏 尝试2: percentile_list = pd.DataFrame({'lst1Tite' : [lst1], 'lst2Tite' : [lst2], 'lst3Tite' : [lst3] }, columns=['lst1Tite','lst1Tite', 'lst1Tite']) 产生一行3列(按上述方式),或者如果我转置则为3行1列 如何获得100行(每个独立列表的长度)乘3列(三个列表)的熊猫数据框?
164 python  numpy  pandas 

10
列表的熊猫列,为每个列表元素创建一行
我有一个数据框,其中某些单元格包含多个值的列表。我不想扩展一个单元格中的多个值,而是想扩展数据框,以便列表中的每个项目都有自己的行(所有其他列中的值都相同)。所以,如果我有: import pandas as pd import numpy as np df = pd.DataFrame( {'trial_num': [1, 2, 3, 1, 2, 3], 'subject': [1, 1, 1, 2, 2, 2], 'samples': [list(np.random.randn(3).round(2)) for i in range(6)] } ) df Out[10]: samples subject trial_num 0 [0.57, -0.83, 1.44] 1 1 1 [-0.01, 1.13, 0.36] 1 …
163 python  pandas  list 

13
比较两个DataFrame并并排输出它们的差异
我试图突出显示两个数据框之间到底发生了什么变化。 假设我有两个Python Pandas数据框: "StudentRoster Jan-1": id Name score isEnrolled Comment 111 Jack 2.17 True He was late to class 112 Nick 1.11 False Graduated 113 Zoe 4.12 True "StudentRoster Jan-2": id Name score isEnrolled Comment 111 Jack 2.17 True He was late to class 112 Nick 1.21 False Graduated 113 …
162 python  html  pandas  dataframe  panel 

5
从Python熊猫聚合结果格式化/抑制科学计数法
如何对熊猫的groupby运算输出的格式进行修改,从而产生大量的科学计数法? 我知道如何在python中进行字符串格式化,但是在这里应用它时我很茫然。 df1.groupby('dept')['data1'].sum() dept value1 1.192433e+08 value2 1.293066e+08 value3 1.077142e+08 如果我转换为字符串,这会抑制科学计数法,但是现在我只是想知道如何设置字符串格式并添加小数。 sum_sales_dept.astype(str)


5
按索引合并两个数据框
嗨,我有以下数据框: > df1 id begin conditional confidence discoveryTechnique 0 278 56 false 0.0 1 1 421 18 false 0.0 1 > df2 concept 0 A 1 B 如何合并索引以获取: id begin conditional confidence discoveryTechnique concept 0 278 56 false 0.0 1 A 1 421 18 false 0.0 1 B 我问,因为据我了解,merge()即df1.merge(df2)使用列进行匹配。实际上,这样做我得到: Traceback …

4
为什么2012年Pandas在python中的合并速度比data.table在R中的合并速度快?
最近,我遇到了python 的pandas库,根据该基准,该库执行非常快的内存中合并。它甚至比R(我选择分析的语言)中的data.table包还要快。 为什么pandas要比这快得多data.table?是因为python相对于R具有固有的速度优势,还是我不了解一些折衷方案?有没有一种方法可以执行内部和外部联接data.table而无需使用merge(X, Y, all=FALSE)and merge(X, Y, all=TRUE)? 这是用于对各种软件包进行基准测试的R代码和Python代码。
160 python  r  join  data.table  pandas 

8
NumPy或Pandas:具有NaN值时,将数组类型保持为整数
有没有一种首选的方法来将numpy数组的数据类型固定为int(int64或其他),同时仍将元素内部列出为numpy.NaN? 特别是,我正在将内部数据结构转换为Pandas DataFrame。在我们的结构中,我们有仍然具有NaN的整数类型的列(但该列的dtype是int)。如果我们将其设为DataFrame,似乎将所有内容重播为浮点数,但我们真的很希望成为int。 有什么想法吗? 尝试过的事情: 我尝试from_records()在pandas.DataFrame下使用该功能coerce_float=False,但这并没有帮助。我还尝试使用带有NaN fill_value的NumPy蒙版数组,该数组也无法正常工作。所有这些导致列数据类型变为浮点型。

12
python pandas:删除列A的重复项,将行的最高值保留在列B中
我在A列中有一个具有重复值的数据框。我想删除重复项,将行的最高值保留在B列中。 所以这: A B 1 10 1 20 2 30 2 40 3 10 应该变成这样: A B 1 20 2 40 3 10 Wes添加了一些不错的功能来删除重复项:http ://wesmckinney.com/blog/?p=340 。但是AFAICT是专为精确重复而设计的,因此没有提及选择保留哪些行的标准。 我猜想可能有一个简单的方法可以做到这一点-可能就像在删除重复项之前对数据帧进行排序一样简单-但我不知道groupby的内部逻辑足以弄清楚它。有什么建议?

6
熊猫数据框中的随机行选择
有没有一种方法可以从Pandas的DataFrame中选择随机行。 在R中,使用汽车包装,有一个有用的功能some(x, n),它类似于head,但在此示例中,从x中随机选择10行。 我也看过切片文档,似乎没有什么等效的。 更新资料 现在使用版本20。有一个示例方法。 df.sample(n)
159 python  pandas 

9
使用熊猫从txt加载数据
我正在加载一个包含浮点和字符串数据混合的txt文件。我想将它们存储在可以访问每个元素的数组中。现在我正在做 import pandas as pd data = pd.read_csv('output_list.txt', header = None) print data 这是输入文件的结构:1 0 2000.0 70.2836942112 1347.28369421 /file_address.txt。 现在,数据将作为唯一列导入。我如何划分它,以便分别存储不同的元素(所以我可以调用data[i,j])?以及如何定义标题?
159 python  io  pandas 

6
在Python Pandas中删除所有重复的行
该pandas drop_duplicates功能非常适合“统一”数据帧。但是,要传递的关键字参数之一是take_last=True或take_last=False,而我想删除所有在列的子集中重复的行。这可能吗? A B C 0 foo 0 A 1 foo 1 A 2 foo 1 B 3 bar 1 A 作为一个例子,我想下降匹配列的行A和C所以这应该丢弃的行0和1。

6
熊猫行动中的进度指示器
我定期对超过1500万行的数据帧执行熊猫操作,我很乐意能够访问特定操作的进度指示器。 是否存在基于文本的熊猫拆分应用合并操作进度指示器? 例如,类似: df_users.groupby(['userID', 'requestDate']).apply(feature_rollup) 其中feature_rollup包含一些DF列并通过各种方法创建新用户列的函数。对于大型数据帧,这些操作可能需要一段时间,因此我想知道是否有可能在iPython笔记本中提供基于文本的输出,从而使我了解进度。 到目前为止,我已经尝试了Python的规范循环进度指示器,但是它们并未以任何有意义的方式与熊猫互动。 我希望pandas库/文档中有一些被我忽略的东西,它使人们知道了split-apply-combine的进度。一个简单的实现方法可能是查看apply功能在其上起作用的数据帧子集的总数,并将进度报告为这些子集的完成部分。 这是否可能需要添加到库中?
157 python  pandas  ipython 


9
如何确定Pandas列是否包含特定值
我试图确定Pandas列中是否有一个具有特定值的条目。我试图用来做到这一点if x in df['id']。我以为这是行得通的,除非当我向它提供一个我不知道的值时,43 in df['id']它仍然返回True。当我将一个数据帧的子集仅包含与缺少的ID匹配的条目时df[df['id'] == 43],很显然,其中没有任何条目。如何确定Pandas数据框中的列是否包含特定值,为什么我的当前方法不起作用?(仅供参考,当我在类似问题的答案中使用实现时,也会遇到相同的问题)。
155 python  pandas 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.