程序设计 dataframe

3

使用Python中matplotlib的pandas数据框制作一系列散点图的最佳方法是什么？例如，如果我的数据框df有一些感兴趣的列，我会发现自己通常将所有内容都转换为数组： import matplotlib.pylab as plt # df is a DataFrame: fetch col1 and col2 # and drop na rows if any of the columns are NA mydata = df[["col1", "col2"]].dropna(how="any") # Now plot with matplotlib vals = mydata.values plt.scatter(vals[:, 0], vals[:, 1]) 在绘制之前将所有内容都转换为数组的问题是，它迫使您脱离数据框。考虑以下两个用例，其中完整的数据帧对于绘图至关重要：例如，如果您现在想查看在col3调用中绘制的对应值的所有值scatter，并用该值为每个点（或大小）上色，该怎么办？您必须返回，拉出的非na值，col1,col2并检查它们对应的值。在保留数据框的同时有一种绘制方法吗？例如： mydata = df.dropna(how="any", …

77 python matplotlib plot dataframe pandas

8

将列移到数据框中的第一位置

我想将数据框的最后一列移到开头（作为第一列）。我如何在R中做到这一点？我的data.frame有大约一千列要更改的顺序。我只想选择一列并“将其移至开始”。

77 r dataframe

3

使用loc和仅使用方括号来过滤Pandas / Python中的列有什么区别？

我注意到在Pandas DataFrame中选择列的三种方法：使用loc选择列的第一种方法： df_new = df.loc[:, 'col1'] 第二种方法-看起来更简单，更快： df_new = df['col1'] 第三种方法-最方便： df_new = df.col1 这三种方法之间有区别吗？我不这么认为，在这种情况下，我宁愿使用第三种方法。我最奇怪的是为什么似乎有三种方法可以做同一件事。

77 python pandas dataframe

3

Spark SQL：将聚合函数应用于列列表

在执行时，是否有办法将聚合函数应用于数据框的所有（或列表）列groupBy？换句话说，有一种方法可以避免对每一列都这样做： df.groupBy("col1") .agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...)

77 apache-spark dataframe apache-spark-sql aggregate-functions

6

提取熊猫值value_counts（）

假设我们使用的熊猫dataframe[column].value_counts()输出： apple 5 sausage 2 banana 2 cheese 1 您如何从max到min以上面显示的相同顺序提取值？例如： [apple,sausage,banana,cheese]

77 python pandas dataframe series

4

如何对data.frame列值求和？

我有一个包含几列的数据框；一些数字和一些字符。如何计算特定列的总和？我GOOGLE了这一点，我看到无数的功能（sum，cumsum，rowsum，rowSums，colSums，aggregate，apply），但我不能让这一切的感觉。例如，假设我有一个people包含以下各列的数据框 people <- read( text = "Name Height Weight Mary 65 110 John 70 200 Jane 64 115", header = TRUE ) … 如何获得所有权重的总和？

76 r dataframe sum aggregate-functions

7

重复data.frame的行N次

我有以下数据框： data.frame(a = c(1,2,3),b = c(1,2,3)) a b 1 1 1 2 2 2 3 3 3 我想重复行n次。例如，这里的行重复了3次： a b 1 1 1 2 2 2 3 3 3 4 1 1 5 2 2 6 3 3 7 1 1 8 2 2 9 3 3 在R中有简单的功能可以做到这一点吗？谢谢！

76 r dataframe

2

熊猫如何检查数据框中所有列的dtype？

看来dtype仅适用于pandas.DataFrame.Series，对吗？是否具有一次显示所有列的数据类型的功能？

76 python pandas dataframe

11

如何在R中绘制数据框的所有列

数据框有n列，我想得到n个图，每列一个图。我是一个新手，我不太熟练使用R，反正我找到了两种解决方案。第一个有效，但是它不打印列名（我需要它们！）： data <- read.csv("sample.csv",header=T,sep=",") for ( c in data ) plot( c, type="l" ) 第二个效果更好，因为它打印列名： data <- read.csv("sample.csv",header=T,sep=",") for ( i in seq(1,length( data ),1) ) plot(data[,i],ylab=names(data[i]),type="l") 有什么更好的解决方案（从R语言的角度来看）？

76 r plot dataframe

4

熊猫版的rbind

在R中，您可以使用rbind将一个数据列粘贴到另一个数据列的底部，从而合并两个数据帧。在大熊猫中，您如何完成同一件事？看起来异常困难。由于我不了解的原因，使用append会导致混乱，包括NaN和其他内容。我只是试图“ rbind”两个看起来像这样的相同框架：编辑：我正在以一种愚蠢的方式创建DataFrames，这会导致问题。附加= rbind所有意图和目的。请参阅下面的答案。 0 1 2 3 4 5 6 7 0 ADN.L 20130220 437.4 442.37 436.5000 441.9000 2775364 2013-02-20 18:47:42 1 ADM.L 20130220 1279.0 1300.00 1272.0000 1285.0000 967730 2013-02-20 18:47:42 2 AGK.L 20130220 1717.0 1749.00 1709.0000 1739.0000 834534 2013-02-20 18:47:43 3 AMEC.L 20130220 1030.0 1040.00 1024.0000 1035.0000 …

76 python r dataframe pandas

2

计算数据框每一列中非NaN条目的数量

我有一个非常大的DataFrame，我想知道是否有一种简短的方法（一两个衬垫）来获取DataFrame中非NaN条目的计数。我不想一次做一列，因为我有将近1000列。 df1 = pd.DataFrame([(1,2,None),(None,4,None),(5,None,7),(5,None,None)], columns=['a','b','d'], index = ['A', 'B','C','D']) a b d A 1 2 NaN B NaN 4 NaN C 5 NaN 7 D 5 NaN NaN 输出： a: 3 b: 2 d: 1

76 python pandas dataframe count nan

5

获取数据帧的当前分区数

有什么方法可以获取DataFrame的当前分区数？我检查了DataFrame javadoc（spark 1.6），却没有找到用于该方法的方法，还是只是错过了？（对于JavaRDD，有一个getNumPartitions（）方法。）

76 apache-spark dataframe apache-spark-sql

2

用熊猫合并索引上的数据框

我有两个数据框，每个都有两个索引列。我想将它们合并。例如，第一个数据帧如下： V1 A 1/1/2012 12 2/1/2012 14 B 1/1/2012 15 2/1/2012 8 C 1/1/2012 17 2/1/2012 9 第二个数据帧如下： V2 A 1/1/2012 15 3/1/2012 21 B 1/1/2012 24 2/1/2012 9 D 1/1/2012 7 2/1/2012 16 因此，我想得到以下内容： V1 V2 A 1/1/2012 12 15 2/1/2012 14 N/A 3/1/2012 N/A 21 B 1/1/2012 15 …

76 python pandas merge dataframe

11

在数据框中按组计算唯一/不同值

假设我有以下数据框： > myvec name order_no 1 Amy 12 2 Jack 14 3 Jack 16 4 Dave 11 5 Amy 12 6 Jack 16 7 Tom 19 8 Larry 22 9 Tom 19 10 Dave 11 11 Jack 17 12 Tom 20 13 Amy 23 14 Jack 16 我想order_no为每个计数不同值的数量name。它应该产生以下结果： name number_of_distinct_orders …

76 r dataframe distinct-values r-faq

4

对于不规则的分隔符，如何使pandas read_csv中的分隔符更灵活wrt空格？

我需要通过使用read_csv方法从文件中读取数据来创建数据框。但是，分隔符不是很规则：一些列由制表符（\t）分隔，另一些则由空格分隔。此外，某些列可以用2或3个或更多的空格隔开，甚至可以用空格和制表符的组合分隔（例如3个空格，两个制表符然后是1个空格）。有没有办法告诉熊猫正确对待这些文件？顺便说一句，如果我使用Python，则不会出现此问题。我用： for line in file(file_name): fld = line.split() 而且效果很好。不管字段之间是否有2或3个空格。即使空格和制表符的组合也不会引起任何问题。熊猫可以做同样的事情吗？

76 python csv pandas dataframe whitespace

Questions tagged «dataframe»