Questions tagged «dataframe»

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框”或“数据框”是几种语言用于此概念的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),但“表”是MATLAB和SQL。

5
PySpark 2.0 DataFrame的大小或形状
我试图找出PySpark中DataFrame的大小/形状。我看不到可以执行此操作的单个功能。 在Python中我可以做 data.shape() PySpark是否有类似的功能。这是我目前的解决方案,但我正在寻找一个要素 row_number = data.count() column_number = len(data.dtypes) 列数的计算不是理想的...


10
Spark Dataframe区分名称重复的列
因此,正如我在Spark Dataframe中所知道的那样,多个列可以具有相同的名称,如下面的dataframe快照所示: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=125231, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0047, 3: 0.0, 4: …

13
报告data.frame中缺失值的优雅方法
这是我编写的一小段代码,用于报告数据框中缺少值的变量。我正在尝试一种更优雅的方式来执行此操作,该方法可能返回一个data.frame,但我遇到了麻烦: for (Var in names(airquality)) { missing <- sum(is.na(airquality[,Var])) if (missing > 0) { print(c(Var,missing)) } } 编辑:我正在处理具有数十到数百个变量的data.frames,所以关键是我们只报告缺少值的变量。

9
在Pandas DataFrame中将无效值替换为None
None在Python的Pandas中,是否有任何方法可以替换值? 您可以使用df.replace('pre', 'post')另一个值并将其替换,但是如果要替换为None值,则无法完成此操作,如果尝试使用该值,则会得到奇怪的结果。 所以这是一个例子: df = DataFrame(['-',3,2,5,1,-5,-1,'-',9]) df.replace('-', 0) 返回成功的结果。 但, df.replace('-', None) 返回以下结果: 0 0 - // this isn't replaced 1 3 2 2 3 5 4 1 5 -5 6 -1 7 -1 // this is changed to `-1`... 8 9 为什么会返回如此奇怪的结果? 由于我想将此数据框倒入MySQL数据库,因此我不能将NaN值放入数据框的任何元素中,而是要放置None。当然,您可以先更改'-'为NaN,然后再转换NaN为None,但是我想知道为什么数据框以这种可怕的方式起作用。 已在Python 2.7和OS X 10.8的pandas 0.12.0开发人员上进行了测试。Python是OS …

5
将列表转换为Pandas数据框列
我需要将列表转换为一列熊猫数据框 当前列表(len = 3): ['Thanks You', 'Its fine no problem', 'Are you sure'] 所需的熊猫DF(形状= 3,): 0 Thank You 1 Its fine no problem 2 Are you sure 请注意,数字代表上述“必需熊猫” DF中的索引。

6
剥离/修剪数据框的所有字符串
清理python / pandas中的多类型数据框的值后,我要修剪字符串。我目前正在执行两条指令: import pandas as pd df = pd.DataFrame([[' a ', 10], [' c ', 5]]) df.replace('^\s+', '', regex=True, inplace=True) #front df.replace('\s+$', '', regex=True, inplace=True) #end df.values 这很慢,我可以改善什么?

10
如何将格式正确的数据框打印(打印到纸上)
我想将格式良好的数据帧打印到纸张上,最好是在脚本中打印。(我正在尝试使用仪器收集数据,并使用R脚本自动处理和打印数据)。 现在,我可以使用来将数据帧写入文本文件write.table(),但这有两个问题: 产生的文本文件格式不正确(列不一定与其标题对齐),并且 我不知道如何从R中打印文本文件。 我在寻找一般策略而不是特定代码(尽管代码也很棒!)。Sweave是最方便的解决方案吗?原则上,我可以使用它socketConnection()来打印到打印机上-如果可以的话,在哪里可以了解如何使用它(我发现文档没有什么帮助)。

3
创建一个data.frame,其中一列是列表
我知道如何添加列表列: > df <- data.frame(a=1:3) > df$b <- list(1:1, 1:2, 1:3) > df a b 1 1 1 2 2 1, 2 3 3 1, 2, 3 这可行,但不可行: > df <- data.frame(a=1:3, b=list(1:1, 1:2, 1:3)) Error in data.frame(1L, 1:2, 1:3, check.names = FALSE, stringsAsFactors = TRUE) : arguments imply differing …
79 r  list  dataframe 

4
在DataFrame索引上应用功能
在Pandas的索引上应用函数的最佳方法是什么DataFrame?目前,我正在使用这种冗长的方法: pd.DataFrame({"Month": df.reset_index().Date.apply(foo)}) 其中Date的索引foo名称和我正在应用的函数的名称。

1
子集数据框时选择了未定义的列
我有一个数据框,str(data)以显示有关我的数据框的更多信息,结果如下: > str(data) 'data.frame': 153 obs. of 6 variables: $ Ozone : int 41 36 12 18 NA 28 23 19 8 NA ... $ Solar.R: int 190 118 149 313 NA NA 299 99 19 194 ... $ Wind : num 7.4 8 12.6 11.5 14.3 14.9 8.6 13.8 …
79 r  dataframe  subset 

4
分组数据框并获得总和和计数?
我有一个看起来像这样的数据框: Company Name Organisation Name Amount 10118 Vifor Pharma UK Ltd Welsh Assoc for Gastro & Endo 2700.00 10119 Vifor Pharma UK Ltd Welsh IBD Specialist Group, 169.00 10120 Vifor Pharma UK Ltd West Midlands AHSN 1200.00 10121 Vifor Pharma UK Ltd Whittington Hospital 63.00 10122 Vifor Pharma UK Ltd …

7
尝试合并2个数据框但出现ValueError
这是我保存在两个变量中的两个数据框: > print(df.head()) > club_name tr_jan tr_dec year 0 ADO Den Haag 1368 1422 2010 1 ADO Den Haag 1455 1477 2011 2 ADO Den Haag 1461 1443 2012 3 ADO Den Haag 1437 1383 2013 4 ADO Den Haag 1386 1422 2014 > print(rankingdf.head()) > club_name ranking year 0 …



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.