程序设计 pandas

9

我在ValueError: cannot reindex from a duplicate axis尝试将索引设置为某个值时遇到错误。我试图用一个简单的例子重现它，但是我做不到。这是我ipdb跟踪中的会话。我有一个带有字符串索引和整数列，浮点值的DataFrame。但是，当我尝试为sum所有列的总和创建索引时，ValueError: cannot reindex from a duplicate axis出现错误。我创建了一个具有相同特征的小型DataFrame，但无法重现该问题，我可能会丢失什么？我不太明白这ValueError: cannot reindex from a duplicate axis是什么意思，此错误消息是什么意思？也许这可以帮助我诊断问题，这是我问题中最容易回答的部分。 ipdb> type(affinity_matrix) <class 'pandas.core.frame.DataFrame'> ipdb> affinity_matrix.shape (333, 10) ipdb> affinity_matrix.columns Int64Index([9315684, 9315597, 9316591, 9320520, 9321163, 9320615, 9321187, 9319487, 9319467, 9320484], dtype='int64') ipdb> affinity_matrix.index Index([u'001', u'002', u'003', u'004', u'005', u'008', …

254 python pandas

6

熊猫：如何对单个列使用apply（）函数？

我有两列的熊猫数据框。我需要在不影响第二列的情况下更改第一列的值，并只更改第一列的值即可获取整个数据帧。我该如何使用大熊猫应用程序？

254 python pandas dataframe python-3.5

3

如何按两列或更多列对python pandas中的dataFrame进行排序？

假设我有一个数据列a，其中包含，b和c，我想b按升序按列对数据帧进行排序，然后按c降序按列对数据帧进行排序，我该怎么做？

254 python pandas python-2.7 sorting data-analysis

9

熊猫索引列标题或名称

如何获取python pandas中的索引列名称？这是一个示例数据框： Column 1 Index Title Apples 1 Oranges 2 Puppies 3 Ducks 4 我想做的是获取/设置数据框索引标题。这是我尝试过的： import pandas as pd data = {'Column 1' : [1., 2., 3., 4.], 'Index Title' : ["Apples", "Oranges", "Puppies", "Ducks"]} df = pd.DataFrame(data) df.index = df["Index Title"] del df["Index Title"] print df 有人知道怎么做吗？

254 python pandas dataframe columnname

6

如何找到已安装的熊猫版本

我在使用某些熊猫功能时遇到了麻烦。如何检查我的安装版本是什么？

251 python pandas

6

删除具有重复索引的行（Pandas DataFrame和TimeSeries）

我正在从网络上读取一些自动气象数据。观测每5分钟发生一次，并被汇总到每个气象站的月度文件中。解析完文件后，DataFrame如下所示： Sta Precip1hr Precip5min Temp DewPnt WindSpd WindDir AtmPress Date 2001-01-01 00:00:00 KPDX 0 0 4 3 0 0 30.31 2001-01-01 00:05:00 KPDX 0 0 4 3 0 0 30.30 2001-01-01 00:10:00 KPDX 0 0 4 3 4 80 30.30 2001-01-01 00:15:00 KPDX 0 0 3 2 5 90 30.30 …

251 python pandas

11

使用groupby获取分组中具有最大计数的行

count按['Sp','Mt']列分组后，如何找到熊猫数据框中所有具有列最大值的行？示例1：以下数据框，我将其分组['Sp','Mt']： Sp Mt Value count 0 MM1 S1 a **3** 1 MM1 S1 n 2 2 MM1 S3 cb 5 3 MM2 S3 mk **8** 4 MM2 S4 bg **10** 5 MM2 S4 dgd 1 6 MM4 S2 rd 2 7 MM4 S2 cb 2 8 MM4 S2 uyi …

244 python pandas max pandas-groupby

7

在iPython Notebook中将DataFrame显示为表格

我正在使用iPython笔记本。当我这样做时： df 我得到一张漂亮的桌子，上面有细胞。但是，如果我这样做： df1 df2 它不会打印出第一张漂亮的桌子。如果我尝试这样做： print df1 print df2 它以另一种格式打印表格，该表格会溢出列并使输出很高。有没有一种方法可以强制它为两个数据集打印出漂亮的表格？

244 pandas printing ipython-notebook jupyter-notebook display

7

熊猫：从多级列索引中删除一级？

如果我有一个多级列索引： >>> cols = pd.MultiIndex.from_tuples([("a", "b"), ("a", "c")]) >>> pd.DataFrame([[1,2], [3,4]], columns=cols) 一个 --- +- b | C -+ --- +- 0 | 1 | 2 1 | 3 | 4 如何删除该索引的“ a”级，所以我得到以下结果： b | C -+ --- +- 0 | 1 | 2 1 | 3 | 4

242 python pandas

5

将Pandas列转换为DateTime

我在以字符串格式导入的pandas DataFrame中有一个字段。它应该是日期时间变量。如何将其转换为datetime列，然后根据日期进行过滤。例：数据框名称：raw_data 列名称：Mycol 列中的值格式：“ 05SEP2014：00：00：00.000”

241 python datetime pandas

6

为什么我的Pandas的“应用”功能不能引用多个列？[关闭]

关闭。这个问题不能重现或由错别字引起。它当前不接受答案。想改善这个问题吗？更新问题，使其成为Stack Overflow 的主题。去年关闭。改善这个问题当将多个列与以下数据框一起使用时，Pandas Apply函数存在一些问题 df = DataFrame ({'a' : np.random.randn(6), 'b' : ['foo', 'bar'] * 3, 'c' : np.random.randn(6)}) 和以下功能 def my_test(a, b): return a % b 当我尝试使用以下功能时： df['Value'] = df.apply(lambda row: my_test(row[a], row[c]), axis=1) 我收到错误消息： NameError: ("global name 'a' is not defined", u'occurred at index …

239 python python-2.7 pandas dataframe apply

3

熊猫读表不带标题

我如何使用熊猫读取.csv文件（无标题），并且只希望使用列的子集（例如总共20列中的第4和第7列）？我似乎无法做usecols

238 python pandas

4

如何从一列中排序熊猫数据框

我有一个像这样的数据框： print(df) 0 1 2 0 354.7 April 4.0 1 55.4 August 8.0 2 176.5 December 12.0 3 95.5 February 2.0 4 85.6 January 1.0 5 152 July 7.0 6 238.7 June 6.0 7 104.8 March 3.0 8 283.5 May 5.0 9 278.8 November 11.0 10 249.6 October 10.0 11 …

237 python pandas sorting

4

从pandas.DataFrame使用复杂条件选择

例如，我有简单的DF： import pandas as pd from random import randint df = pd.DataFrame({'A': [randint(1, 9) for x in xrange(10)], 'B': [randint(1, 9)*10 for x in xrange(10)], 'C': [randint(1, 9)*100 for x in xrange(10)]}) 我可以使用熊猫的方法和惯用法从“ A”中选择与B对应的值大于50的值，对于C对应的值大于900的值吗？

234 python pandas

3

如何从pandas DataFrame中选择一个或多个null的行而不显式列出列？

我有一个约30万行和约40列的数据框。我想找出是否有任何行包含空值-并将这些“空”行放入单独的数据框中，以便我可以轻松地探索它们。我可以显式创建一个遮罩： mask = False for col in df.columns: mask = mask | df[col].isnull() dfnulls = df[mask] 或者我可以做类似的事情： df.ix[df.index[(df.T == np.nan).sum() > 1]] 有没有更优雅的方法（找到行中包含null的行）？

232 python pandas null nan

Questions tagged «pandas»