Questions tagged «dataframe»

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框”或“数据框”是几种语言用于此概念的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),但“表”是MATLAB和SQL。

3
根据Python大熊猫中的数据框制作matplotlib散点图
使用Python中matplotlib的pandas数据框制作一系列散点图的最佳方法是什么? 例如,如果我的数据框df有一些感兴趣的列,我会发现自己通常将所有内容都转换为数组: import matplotlib.pylab as plt # df is a DataFrame: fetch col1 and col2 # and drop na rows if any of the columns are NA mydata = df[["col1", "col2"]].dropna(how="any") # Now plot with matplotlib vals = mydata.values plt.scatter(vals[:, 0], vals[:, 1]) 在绘制之前将所有内容都转换为数组的问题是,它迫使您脱离数据框。 考虑以下两个用例,其中完整的数据帧对于绘图至关重要: 例如,如果您现在想查看在col3调用中绘制的对应值的所有值scatter,并用该值为每个点(或大小)上色,该怎么办?您必须返回,拉出的非na值,col1,col2并检查它们对应的值。 在保留数据框的同时有一种绘制方法吗?例如: mydata = df.dropna(how="any", …

8
将列移到数据框中的第一位置
我想将数据框的最后一列移到开头(作为第一列)。我如何在R中做到这一点? 我的data.frame有大约一千列要更改的顺序。我只想选择一列并“将其移至开始”。
77 r  dataframe 

3
使用loc和仅使用方括号来过滤Pandas / Python中的列有什么区别?
我注意到在Pandas DataFrame中选择列的三种方法: 使用loc选择列的第一种方法: df_new = df.loc[:, 'col1'] 第二种方法-看起来更简单,更快: df_new = df['col1'] 第三种方法-最方便: df_new = df.col1 这三种方法之间有区别吗?我不这么认为,在这种情况下,我宁愿使用第三种方法。 我最奇怪的是为什么似乎有三种方法可以做同一件事。



4
如何对data.frame列值求和?
我有一个包含几列的数据框;一些数字和一些字符。如何计算特定列的总和?我GOOGLE了这一点,我看到无数的功能(sum,cumsum,rowsum,rowSums,colSums,aggregate,apply),但我不能让这一切的感觉。 例如,假设我有一个people包含以下各列的数据框 people <- read( text = "Name Height Weight Mary 65 110 John 70 200 Jane 64 115", header = TRUE ) … 如何获得所有权重的总和?

7
重复data.frame的行N次
我有以下数据框: data.frame(a = c(1,2,3),b = c(1,2,3)) a b 1 1 1 2 2 2 3 3 3 我想重复行n次。例如,这里的行重复了3次: a b 1 1 1 2 2 2 3 3 3 4 1 1 5 2 2 6 3 3 7 1 1 8 2 2 9 3 3 在R中有简单的功能可以做到这一点吗?谢谢!
76 r  dataframe 


11
如何在R中绘制数据框的所有列
数据框有n列,我想得到n个图,每列一个图。 我是一个新手,我不太熟练使用R,反正我找到了两种解决方案。 第一个有效,但是它不打印列名(我需要它们!): data <- read.csv("sample.csv",header=T,sep=",") for ( c in data ) plot( c, type="l" ) 第二个效果更好,因为它打印列名: data <- read.csv("sample.csv",header=T,sep=",") for ( i in seq(1,length( data ),1) ) plot(data[,i],ylab=names(data[i]),type="l") 有什么更好的解决方案(从R语言的角度来看)?
76 r  plot  dataframe 

4
熊猫版的rbind
在R中,您可以使用rbind将一个数据列粘贴到另一个数据列的底部,从而合并两个数据帧。在大熊猫中,您如何完成同一件事?看起来异常困难。 由于我不了解的原因,使用append会导致混乱,包括NaN和其他内容。我只是试图“ rbind”两个看起来像这样的相同框架: 编辑:我正在以一种愚蠢的方式创建DataFrames,这会导致问题。附加= rbind所有意图和目的。请参阅下面的答案。 0 1 2 3 4 5 6 7 0 ADN.L 20130220 437.4 442.37 436.5000 441.9000 2775364 2013-02-20 18:47:42 1 ADM.L 20130220 1279.0 1300.00 1272.0000 1285.0000 967730 2013-02-20 18:47:42 2 AGK.L 20130220 1717.0 1749.00 1709.0000 1739.0000 834534 2013-02-20 18:47:43 3 AMEC.L 20130220 1030.0 1040.00 1024.0000 1035.0000 …
76 python  r  dataframe  pandas 

2
计算数据框每一列中非NaN条目的数量
我有一个非常大的DataFrame,我想知道是否有一种简短的方法(一两个衬垫)来获取DataFrame中非NaN条目的计数。我不想一次做一列,因为我有将近1000列。 df1 = pd.DataFrame([(1,2,None),(None,4,None),(5,None,7),(5,None,None)], columns=['a','b','d'], index = ['A', 'B','C','D']) a b d A 1 2 NaN B NaN 4 NaN C 5 NaN 7 D 5 NaN NaN 输出: a: 3 b: 2 d: 1


2
用熊猫合并索引上的数据框
我有两个数据框,每个都有两个索引列。我想将它们合并。例如,第一个数据帧如下: V1 A 1/1/2012 12 2/1/2012 14 B 1/1/2012 15 2/1/2012 8 C 1/1/2012 17 2/1/2012 9 第二个数据帧如下: V2 A 1/1/2012 15 3/1/2012 21 B 1/1/2012 24 2/1/2012 9 D 1/1/2012 7 2/1/2012 16 因此,我想得到以下内容: V1 V2 A 1/1/2012 12 15 2/1/2012 14 N/A 3/1/2012 N/A 21 B 1/1/2012 15 …

11
在数据框中按组计算唯一/不同值
假设我有以下数据框: > myvec name order_no 1 Amy 12 2 Jack 14 3 Jack 16 4 Dave 11 5 Amy 12 6 Jack 16 7 Tom 19 8 Larry 22 9 Tom 19 10 Dave 11 11 Jack 17 12 Tom 20 13 Amy 23 14 Jack 16 我想order_no为每个计数不同值的数量name。它应该产生以下结果: name number_of_distinct_orders …

4
对于不规则的分隔符,如何使pandas read_csv中的分隔符更灵活wrt空格?
我需要通过使用read_csv方法从文件中读取数据来创建数据框。但是,分隔符不是很规则:一些列由制表符(\t)分隔,另一些则由空格分隔。此外,某些列可以用2或3个或更多的空格隔开,甚至可以用空格和制表符的组合分隔(例如3个空格,两个制表符然后是1个空格)。 有没有办法告诉熊猫正确对待这些文件? 顺便说一句,如果我使用Python,则不会出现此问题。我用: for line in file(file_name): fld = line.split() 而且效果很好。不管字段之间是否有2或3个空格。即使空格和制表符的组合也不会引起任何问题。熊猫可以做同样的事情吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.