Questions tagged «pandas»

Pandas是用于数据处理和分析的Python库,例如,在统计,实验科学结果,计量经济学或金融学中常见的数据框,多维时间序列和横截面数据集。Pandas是Python中主要的数据科学库之一。

9
“ ValueError:无法从重复轴重新索引”是什么意思?
我在ValueError: cannot reindex from a duplicate axis尝试将索引设置为某个值时遇到错误。我试图用一个简单的例子重现它,但是我做不到。 这是我ipdb跟踪中的会话。我有一个带有字符串索引和整数列,浮点值的DataFrame。但是,当我尝试为sum所有列的总和创建索引时,ValueError: cannot reindex from a duplicate axis出现错误。我创建了一个具有相同特征的小型DataFrame,但无法重现该问题,我可能会丢失什么? 我不太明白这ValueError: cannot reindex from a duplicate axis是什么意思,此错误消息是什么意思?也许这可以帮助我诊断问题,这是我问题中最容易回答的部分。 ipdb> type(affinity_matrix) <class 'pandas.core.frame.DataFrame'> ipdb> affinity_matrix.shape (333, 10) ipdb> affinity_matrix.columns Int64Index([9315684, 9315597, 9316591, 9320520, 9321163, 9320615, 9321187, 9319487, 9319467, 9320484], dtype='int64') ipdb> affinity_matrix.index Index([u'001', u'002', u'003', u'004', u'005', u'008', …
254 python  pandas 



9
熊猫索引列标题或名称
如何获取python pandas中的索引列名称?这是一个示例数据框: Column 1 Index Title Apples 1 Oranges 2 Puppies 3 Ducks 4 我想做的是获取/设置数据框索引标题。这是我尝试过的: import pandas as pd data = {'Column 1' : [1., 2., 3., 4.], 'Index Title' : ["Apples", "Oranges", "Puppies", "Ducks"]} df = pd.DataFrame(data) df.index = df["Index Title"] del df["Index Title"] print df 有人知道怎么做吗?


6
删除具有重复索引的行(Pandas DataFrame和TimeSeries)
我正在从网络上读取一些自动气象数据。观测每5分钟发生一次,并被汇总到每个气象站的月度文件中。解析完文件后,DataFrame如下所示: Sta Precip1hr Precip5min Temp DewPnt WindSpd WindDir AtmPress Date 2001-01-01 00:00:00 KPDX 0 0 4 3 0 0 30.31 2001-01-01 00:05:00 KPDX 0 0 4 3 0 0 30.30 2001-01-01 00:10:00 KPDX 0 0 4 3 4 80 30.30 2001-01-01 00:15:00 KPDX 0 0 3 2 5 90 30.30 …
251 python  pandas 

11
使用groupby获取分组中具有最大计数的行
count按['Sp','Mt']列分组后,如何找到熊猫数据框中所有具有列最大值的行? 示例1:以下数据框,我将其分组['Sp','Mt']: Sp Mt Value count 0 MM1 S1 a **3** 1 MM1 S1 n 2 2 MM1 S3 cb 5 3 MM2 S3 mk **8** 4 MM2 S4 bg **10** 5 MM2 S4 dgd 1 6 MM4 S2 rd 2 7 MM4 S2 cb 2 8 MM4 S2 uyi …

7
在iPython Notebook中将DataFrame显示为表格
我正在使用iPython笔记本。当我这样做时: df 我得到一张漂亮的桌子,上面有细胞。但是,如果我这样做: df1 df2 它不会打印出第一张漂亮的桌子。如果我尝试这样做: print df1 print df2 它以另一种格式打印表格,该表格会溢出列并使输出很高。 有没有一种方法可以强制它为两个数据集打印出漂亮的表格?

7
熊猫:从多级列索引中删除一级?
如果我有一个多级列索引: >>> cols = pd.MultiIndex.from_tuples([("a", "b"), ("a", "c")]) >>> pd.DataFrame([[1,2], [3,4]], columns=cols) 一个 --- +- b | C -+ --- +- 0 | 1 | 2 1 | 3 | 4 如何删除该索引的“ a”级,所以我得到以下结果: b | C -+ --- +- 0 | 1 | 2 1 | 3 | 4
242 python  pandas 

5
将Pandas列转换为DateTime
我在以字符串格式导入的pandas DataFrame中有一个字段。它应该是日期时间变量。如何将其转换为datetime列,然后根据日期进行过滤。 例: 数据框名称:raw_data 列名称:Mycol 列中的值格式:“ 05SEP2014:00:00:00.000”
241 python  datetime  pandas 

6
为什么我的Pandas的“应用”功能不能引用多个列?[关闭]
关闭。这个问题不能重现或由错别字引起。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow 的主题。 去年关闭。 改善这个问题 当将多个列与以下数据框一起使用时,Pandas Apply函数存在一些问题 df = DataFrame ({'a' : np.random.randn(6), 'b' : ['foo', 'bar'] * 3, 'c' : np.random.randn(6)}) 和以下功能 def my_test(a, b): return a % b 当我尝试使用以下功能时: df['Value'] = df.apply(lambda row: my_test(row[a], row[c]), axis=1) 我收到错误消息: NameError: ("global name 'a' is not defined", u'occurred at index …

3
熊猫读表不带标题
我如何使用熊猫读取.csv文件(无标题),并且只希望使用列的子集(例如总共20列中的第4和第7列)?我似乎无法做usecols
238 python  pandas 

4
如何从一列中排序熊猫数据框
我有一个像这样的数据框: print(df) 0 1 2 0 354.7 April 4.0 1 55.4 August 8.0 2 176.5 December 12.0 3 95.5 February 2.0 4 85.6 January 1.0 5 152 July 7.0 6 238.7 June 6.0 7 104.8 March 3.0 8 283.5 May 5.0 9 278.8 November 11.0 10 249.6 October 10.0 11 …
237 python  pandas  sorting 

4
从pandas.DataFrame使用复杂条件选择
例如,我有简单的DF: import pandas as pd from random import randint df = pd.DataFrame({'A': [randint(1, 9) for x in xrange(10)], 'B': [randint(1, 9)*10 for x in xrange(10)], 'C': [randint(1, 9)*100 for x in xrange(10)]}) 我可以使用熊猫的方法和惯用法从“ A”中选择与B对应的值大于50的值,对于C对应的值大于900的值吗?
234 python  pandas 

3
如何从pandas DataFrame中选择一个或多个null的行而不显式列出列?
我有一个约30万行和约40列的数据框。我想找出是否有任何行包含空值-并将这些“空”行放入单独的数据框中,以便我可以轻松地探索它们。 我可以显式创建一个遮罩: mask = False for col in df.columns: mask = mask | df[col].isnull() dfnulls = df[mask] 或者我可以做类似的事情: df.ix[df.index[(df.T == np.nan).sum() > 1]] 有没有更优雅的方法(找到行中包含null的行)?
232 python  pandas  null  nan 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.