程序设计 dataframe

6

当在apply中也计算出先前值时，Pandas中有没有一种方法可以使用dataframe.apply中的先前行值？

我有以下数据框： Index_Date A B C D =============================== 2015-01-31 10 10 Nan 10 2015-02-01 2 3 Nan 22 2015-02-02 10 60 Nan 280 2015-02-03 10 100 Nan 250 要求： Index_Date A B C D =============================== 2015-01-31 10 10 10 10 2015-02-01 2 3 23 22 2015-02-02 10 60 290 280 2015-02-03 …

97 python pandas dataframe for-loop iteration

4

如何使用点绘制熊猫数据框的两列？

我有一个pandas数据框，想绘制一列的值与另一列的值。幸运的是，有plot一种与数据帧相关的方法似乎可以满足我的需求： df.plot(x='col_name_1', y='col_name_2') 不幸的是，它看起来像打印样式（上市中这里后kind参数）有没有点。我可以使用线或条，甚至可以使用密度，但不能使用点。是否有解决方法可以帮助解决此问题。

96 python matplotlib plot pandas dataframe

5

如何使Pandas DataFrame列标题全部小写？

我想使我的pandas数据框中的所有列标题都小写例如果我有： data = country country isocode year XRAT tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 957299.91586 2 Canada CAN 2003 1.40105 1016902.00180 .... 我想通过执行以下操作将XRAT更改为xrat： data.headers.lowercase() 这样我得到： country country isocode year xrat tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 …

96 python pandas dataframe

6

数据帧的选定列中包含NA（缺失）值的行的子集

我们有一个来自CSV文件的数据框。数据框DF具有包含观察值的列和VaR2包含测量日期的列（）。如果未记录日期，则CSV文件包含值NA，用于丢失数据。 Var1 Var2 10 2010/01/01 20 NA 30 2010/03/01 我们想使用subset命令定义一个新的数据框new_DF，使其仅包含具有NA'列（VaR2）中的值的行。在给出的示例中，新行中仅包含第2行DF。命令 new_DF<-subset(DF,DF$Var2=="NA") 不起作用，结果数据框没有行条目。如果在原始CSV文件NA中交换了值NULL，则同一命令将产生所需的结果：new_DF<-subset(DF,DF$Var2=="NULL")。如果字符串的值NA在原始CSV文件中提供，如何使该方法起作用？

96 r csv dataframe subset na

7

通过标签选择的熊猫有时返回Series，有时返回DataFrame

在Pandas中，当我选择一个索引中仅包含一个条目的标签时，我会得到一个系列，但是当我选择一个具有多于一个条目的条目时，我就会得到一个数据框。这是为什么？有没有办法确保我总是取回数据帧？ In [1]: import pandas as pd In [2]: df = pd.DataFrame(data=range(5), index=[1, 2, 3, 3, 3]) In [3]: type(df.loc[3]) Out[3]: pandas.core.frame.DataFrame In [4]: type(df.loc[1]) Out[4]: pandas.core.series.Series

95 python pandas dataframe slice series

4

如何替换熊猫数据框的列中的文本？

我的数据框中有这样的一列： range "(2,30)" "(50,290)" "(400,1000)" ... 我想,用-破折号代替逗号。我目前正在使用此方法，但没有任何更改。 org_info_exc['range'].replace(',', '-', inplace=True) 有人可以帮忙吗？

95 python replace pandas dataframe

7

如何创建具有指定架构的空DataFrame？

我想DataFrame在Scala中使用指定的架构创建。我尝试使用JSON读取（我的意思是读取空文件），但我认为这不是最佳实践。

94 scala apache-spark dataframe apache-spark-sql

5

从列表中添加数据框中的列

我有一些像这样的数据框： A B C 0 4 5 6 7 7 6 5 A中值的可能范围仅为0到7。另外，我有一个8个元素的列表，如下所示： List=[2,5,6,8,12,16,26,32] //There are only 8 elements in this list 如果A列中的元素是n，我需要将List中的第n个元素插入新列，例如'D'。如何一口气做到这一点而又不遍历整个数据框？产生的数据框如下所示： A B C D 0 2 4 12 5 16 6 26 7 32 7 32 6 26 5 16 注意：数据框很大，迭代是最后一个选项。但是如果需要的话，我也可以将其他元素（例如dict）布置在“列表”中的元素中。

94 python pandas dataframe

17

如何选择每组中最大值的行

在一个针对每个主题具有多个观察值的数据集中，我想获取一个子集，其中每个记录的最大数据值都是最大的。例如，使用以下数据集： ID <- c(1,1,1,2,2,2,2,3,3) Value <- c(2,3,5,2,5,8,17,3,5) Event <- c(1,1,2,1,2,1,2,2,2) group <- data.frame(Subject=ID, pt=Value, Event=Event) 主题1、2和3的最大pt值分别为5、17和5。我如何首先找到每个主题的最大pt值，然后将这个观察值放在另一个数据框中？结果数据框应仅对每个主题具有最大的pt值。

94 r dataframe r-faq

11

如何将数据框单元格内的列表分解为单独的行

我正在寻找将包含列表的熊猫单元格变成每个值的行。因此，请采取以下措施：如果我想解压并堆叠nearest_neighbors列中的值，以使每个值在每个opponent索引内都是一行，那么我该如何做呢？是否有适用于此类操作的熊猫方法？

93 python pandas dataframe

5

在Spark Scala中重命名DataFrame的列名

我正在尝试转换DataFrameSpark-Scala 中a的所有标题/列名称。到目前为止，我想出了以下代码，该代码仅替换单个列名。 for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

6

将Pandas Series转换为DataFrame

我有一个熊猫系列科幻小说： email email1@email.com [1.0, 0.0, 0.0] email2@email.com [2.0, 0.0, 0.0] email3@email.com [1.0, 0.0, 0.0] email4@email.com [4.0, 0.0, 0.0] email5@email.com [1.0, 0.0, 3.0] email6@email.com [1.0, 5.0, 0.0] 我想将其转换为以下DataFrame： index | email | list _____________________________________________ 0 | email1@email.com | [1.0, 0.0, 0.0] 1 | email2@email.com | [2.0, 0.0, 0.0] 2 | email3@email.com …

92 python pandas dataframe series

11

将数据框拆分为多个数据框

我有一个非常大的数据框（大约一百万行），其中包含来自实验的数据（60位受访者）。我想将数据框分成60个数据框（每个参与者一个数据框）。在数据框中，data有一个名为的变量'name'，它是每个参与者的唯一代码。我已经尝试了以下方法，但是没有任何反应（或者执行不会在一小时内停止）。我打算做的是将其拆分data为较小的数据框，并将其附加到列表（datalist）： import pandas as pd def splitframe(data, name='name'): n = data[name][0] df = pd.DataFrame(columns=data.columns) datalist = [] for i in range(len(data)): if data[name][i] == n: df = df.append(data.iloc[i]) else: datalist.append(df) df = pd.DataFrame(columns=data.columns) n = data[name][i] df = df.append(data.iloc[i]) return datalist 我没有收到错误消息，该脚本似乎可以永远运行！有什么聪明的方法吗？

92 python split pandas dataframe

3

Python：基于某些行appers的pandas数据框中的两列（变量）获得频率计数

您好，我有以下数据框。 Group Size Short Small Short Small Moderate Medium Moderate Small Tall Large 我想计算同一行出现在数据框中的次数。 Group Size Time Short Small 2 Moderate Medium 1 Moderate Small 1 Tall Large 1

92 python pandas group-by dataframe

6

熊猫数据框/ numpy数组“轴”定义中的歧义

对于如何定义python轴以及它们是否引用DataFrame的行或列，我一直感到困惑。考虑下面的代码： >>> df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["col1", "col2", "col3", "col4"]) >>> df col1 col2 col3 col4 0 1 1 1 1 1 2 2 2 2 2 3 3 3 3 因此，如果调用df.mean(axis=1)，我们将在各行中获得均值： >>> df.mean(axis=1) 0 1 1 2 2 3 …

91 python arrays pandas numpy dataframe

Questions tagged «dataframe»