程序设计 dataframe

5

我试图找出PySpark中DataFrame的大小/形状。我看不到可以执行此操作的单个功能。在Python中我可以做 data.shape() PySpark是否有类似的功能。这是我目前的解决方案，但我正在寻找一个要素 row_number = data.count() column_number = len(data.dtypes) 列数的计算不是理想的...

81 dataframe size pyspark shape

3

熊猫按列值拆分DataFrame

我有DataFrame专栏Sales。如何根据Sales价值将其分成2个？首先DataFrame将具有数据，'Sales' < s其次将具有'Sales' >= s

81 python pandas dataframe indexing split

10

Spark Dataframe区分名称重复的列

因此，正如我在Spark Dataframe中所知道的那样，多个列可以具有相同的名称，如下面的dataframe快照所示： [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=125231, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0047, 3: 0.0, 4: …

80 python apache-spark dataframe pyspark apache-spark-sql

13

报告data.frame中缺失值的优雅方法

这是我编写的一小段代码，用于报告数据框中缺少值的变量。我正在尝试一种更优雅的方式来执行此操作，该方法可能返回一个data.frame，但我遇到了麻烦： for (Var in names(airquality)) { missing <- sum(is.na(airquality[,Var])) if (missing > 0) { print(c(Var,missing)) } } 编辑：我正在处理具有数十到数百个变量的data.frames，所以关键是我们只报告缺少值的变量。

80 r dataframe missing-data

9

在Pandas DataFrame中将无效值替换为None

None在Python的Pandas中，是否有任何方法可以替换值？您可以使用df.replace('pre', 'post')另一个值并将其替换，但是如果要替换为None值，则无法完成此操作，如果尝试使用该值，则会得到奇怪的结果。所以这是一个例子： df = DataFrame(['-',3,2,5,1,-5,-1,'-',9]) df.replace('-', 0) 返回成功的结果。但， df.replace('-', None) 返回以下结果： 0 0 - // this isn't replaced 1 3 2 2 3 5 4 1 5 -5 6 -1 7 -1 // this is changed to `-1`... 8 9 为什么会返回如此奇怪的结果？由于我想将此数据框倒入MySQL数据库，因此我不能将NaN值放入数据框的任何元素中，而是要放置None。当然，您可以先更改'-'为NaN，然后再转换NaN为None，但是我想知道为什么数据框以这种可怕的方式起作用。已在Python 2.7和OS X 10.8的pandas 0.12.0开发人员上进行了测试。Python是OS …

80 python pandas dataframe replace nan

5

将列表转换为Pandas数据框列

我需要将列表转换为一列熊猫数据框当前列表（len = 3）： ['Thanks You', 'Its fine no problem', 'Are you sure'] 所需的熊猫DF（形状= 3，）： 0 Thank You 1 Its fine no problem 2 Are you sure 请注意，数字代表上述“必需熊猫” DF中的索引。

80 python list pandas dataframe

6

剥离/修剪数据框的所有字符串

清理python / pandas中的多类型数据框的值后，我要修剪字符串。我目前正在执行两条指令： import pandas as pd df = pd.DataFrame([[' a ', 10], [' c ', 5]]) df.replace('^\s+', '', regex=True, inplace=True) #front df.replace('\s+$', '', regex=True, inplace=True) #end df.values 这很慢，我可以改善什么？

80 python regex pandas dataframe trim

10

如何将格式正确的数据框打印（打印到纸上）

我想将格式良好的数据帧打印到纸张上，最好是在脚本中打印。（我正在尝试使用仪器收集数据，并使用R脚本自动处理和打印数据）。现在，我可以使用来将数据帧写入文本文件write.table()，但这有两个问题：产生的文本文件格式不正确（列不一定与其标题对齐），并且我不知道如何从R中打印文本文件。我在寻找一般策略而不是特定代码（尽管代码也很棒！）。Sweave是最方便的解决方案吗？原则上，我可以使用它socketConnection()来打印到打印机上-如果可以的话，在哪里可以了解如何使用它（我发现文档没有什么帮助）。

79 r dataframe formatting

3

创建一个data.frame，其中一列是列表

我知道如何添加列表列： > df <- data.frame(a=1:3) > df$b <- list(1:1, 1:2, 1:3) > df a b 1 1 1 2 2 1, 2 3 3 1, 2, 3 这可行，但不可行： > df <- data.frame(a=1:3, b=list(1:1, 1:2, 1:3)) Error in data.frame(1L, 1:2, 1:3, check.names = FALSE, stringsAsFactors = TRUE) : arguments imply differing …

79 r list dataframe

4

在DataFrame索引上应用功能

在Pandas的索引上应用函数的最佳方法是什么DataFrame？目前，我正在使用这种冗长的方法： pd.DataFrame({"Month": df.reset_index().Date.apply(foo)}) 其中Date的索引foo名称和我正在应用的函数的名称。

79 python pandas indexing dataframe

1

子集数据框时选择了未定义的列

我有一个数据框，str(data)以显示有关我的数据框的更多信息，结果如下： > str(data) 'data.frame': 153 obs. of 6 variables: $ Ozone : int 41 36 12 18 NA 28 23 19 8 NA ... $ Solar.R: int 190 118 149 313 NA NA 299 99 19 194 ... $ Wind : num 7.4 8 12.6 11.5 14.3 14.9 8.6 13.8 …

79 r dataframe subset

4

分组数据框并获得总和和计数？

我有一个看起来像这样的数据框： Company Name Organisation Name Amount 10118 Vifor Pharma UK Ltd Welsh Assoc for Gastro & Endo 2700.00 10119 Vifor Pharma UK Ltd Welsh IBD Specialist Group, 169.00 10120 Vifor Pharma UK Ltd West Midlands AHSN 1200.00 10121 Vifor Pharma UK Ltd Whittington Hospital 63.00 10122 Vifor Pharma UK Ltd …

79 python pandas dataframe group-by pandas-groupby

7

尝试合并2个数据框但出现ValueError

这是我保存在两个变量中的两个数据框： > print(df.head()) > club_name tr_jan tr_dec year 0 ADO Den Haag 1368 1422 2010 1 ADO Den Haag 1455 1477 2011 2 ADO Den Haag 1461 1443 2012 3 ADO Den Haag 1437 1383 2013 4 ADO Den Haag 1386 1422 2014 > print(rankingdf.head()) > club_name ranking year 0 …

79 python pandas dataframe

5

如何将PySpark中的表数据框导出到CSV？

我正在使用Spark 1.3.1（PySpark），并且已经使用SQL查询生成了一个表。我现在有一个对象是DataFrame。我想将此DataFrame对象（我称其为“表”）导出到一个csv文件，以便我可以操纵它并绘制列。如何将DataFrame“表格”导出到csv文件？谢谢！

79 python apache-spark dataframe apache-spark-sql export-to-csv

6

如何将熊猫数据框中的负数替换为零

我想知道是否有某种方式将所有DataFrame负数替换为零？

78 python pandas dataframe replace negative-number

Questions tagged «dataframe»