Questions tagged «dataframe»

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框”或“数据框”是几种语言用于此概念的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),但“表”是MATLAB和SQL。


4
如何使用点绘制熊猫数据框的两列?
我有一个pandas数据框,想绘制一列的值与另一列的值。幸运的是,有plot一种与数据帧相关的方法似乎可以满足我的需求: df.plot(x='col_name_1', y='col_name_2') 不幸的是,它看起来像打印样式(上市中这里后kind参数)有没有点。我可以使用线或条,甚至可以使用密度,但不能使用点。是否有解决方法可以帮助解决此问题。

5
如何使Pandas DataFrame列标题全部小写?
我想使我的pandas数据框中的所有列标题都小写 例 如果我有: data = country country isocode year XRAT tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 957299.91586 2 Canada CAN 2003 1.40105 1016902.00180 .... 我想通过执行以下操作将XRAT更改为xrat: data.headers.lowercase() 这样我得到: country country isocode year xrat tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 …

6
数据帧的选定列中包含NA(缺失)值的行的子集
我们有一个来自CSV文件的数据框。数据框DF具有包含观察值的列和VaR2包含测量日期的列()。如果未记录日期,则CSV文件包含值NA,用于丢失数据。 Var1 Var2 10 2010/01/01 20 NA 30 2010/03/01 我们想使用subset命令定义一个新的数据框new_DF,使其仅包含具有NA'列(VaR2)中的值的行。在给出的示例中,新行中仅包含第2行DF。 命令 new_DF<-subset(DF,DF$Var2=="NA") 不起作用,结果数据框没有行条目。 如果在原始CSV文件NA中交换 了值NULL,则同一命令将产生所需的结果:new_DF<-subset(DF,DF$Var2=="NULL")。 如果字符串的值NA在原始CSV文件中提供,如何使该方法起作用?
96 r  csv  dataframe  subset  na 

7
通过标签选择的熊猫有时返回Series,有时返回DataFrame
在Pandas中,当我选择一个索引中仅包含一个条目的标签时,我会得到一个系列,但是当我选择一个具有多于一个条目的条目时,我就会得到一个数据框。 这是为什么?有没有办法确保我总是取回数据帧? In [1]: import pandas as pd In [2]: df = pd.DataFrame(data=range(5), index=[1, 2, 3, 3, 3]) In [3]: type(df.loc[3]) Out[3]: pandas.core.frame.DataFrame In [4]: type(df.loc[1]) Out[4]: pandas.core.series.Series



5
从列表中添加数据框中的列
我有一些像这样的数据框: A B C 0 4 5 6 7 7 6 5 A中值的可能范围仅为0到7。 另外,我有一个8个元素的列表,如下所示: List=[2,5,6,8,12,16,26,32] //There are only 8 elements in this list 如果A列中的元素是n,我需要将List中的第n个元素插入新列,例如'D'。 如何一口气做到这一点而又不遍历整个数据框? 产生的数据框如下所示: A B C D 0 2 4 12 5 16 6 26 7 32 7 32 6 26 5 16 注意:数据框很大,迭代是最后一个选项。但是如果需要的话,我也可以将其他元素(例如dict)布置在“列表”中的元素中。

17
如何选择每组中最大值的行
在一个针对每个主题具有多个观察值的数据集中,我想获取一个子集,其中每个记录的最大数据值都是最大的。例如,使用以下数据集: ID <- c(1,1,1,2,2,2,2,3,3) Value <- c(2,3,5,2,5,8,17,3,5) Event <- c(1,1,2,1,2,1,2,2,2) group <- data.frame(Subject=ID, pt=Value, Event=Event) 主题1、2和3的最大pt值分别为5、17和5。 我如何首先找到每个主题的最大pt值,然后将这个观察值放在另一个数据框中?结果数据框应仅对每个主题具有最大的pt值。
94 r  dataframe  r-faq 



6
将Pandas Series转换为DataFrame
我有一个熊猫系列科幻小说: email email1@email.com [1.0, 0.0, 0.0] email2@email.com [2.0, 0.0, 0.0] email3@email.com [1.0, 0.0, 0.0] email4@email.com [4.0, 0.0, 0.0] email5@email.com [1.0, 0.0, 3.0] email6@email.com [1.0, 5.0, 0.0] 我想将其转换为以下DataFrame: index | email | list _____________________________________________ 0 | email1@email.com | [1.0, 0.0, 0.0] 1 | email2@email.com | [2.0, 0.0, 0.0] 2 | email3@email.com …

11
将数据框拆分为多个数据框
我有一个非常大的数据框(大约一百万行),其中包含来自实验的数据(60位受访者)。 我想将数据框分成60个数据框(每个参与者一个数据框)。 在数据框中,data有一个名为的变量'name',它是每个参与者的唯一代码。 我已经尝试了以下方法,但是没有任何反应(或者执行不会在一小时内停止)。我打算做的是将其拆分data为较小的数据框,并将其附加到列表(datalist): import pandas as pd def splitframe(data, name='name'): n = data[name][0] df = pd.DataFrame(columns=data.columns) datalist = [] for i in range(len(data)): if data[name][i] == n: df = df.append(data.iloc[i]) else: datalist.append(df) df = pd.DataFrame(columns=data.columns) n = data[name][i] df = df.append(data.iloc[i]) return datalist 我没有收到错误消息,该脚本似乎可以永远运行! 有什么聪明的方法吗?


6
熊猫数据框/ numpy数组“轴”定义中的歧义
对于如何定义python轴以及它们是否引用DataFrame的行或列,我一直感到困惑。考虑下面的代码: >>> df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["col1", "col2", "col3", "col4"]) >>> df col1 col2 col3 col4 0 1 1 1 1 1 2 2 2 2 2 3 3 3 3 因此,如果调用df.mean(axis=1),我们将在各行中获得均值: >>> df.mean(axis=1) 0 1 1 2 2 3 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.