程序设计 dataframe

6

我想在Jupyter Notebook的数据框中显示所有列。Jupyter显示一些列，并在最后一列中添加点，如下图所示：如何显示所有列？

102 python python-3.x dataframe jupyter-notebook

8

在R中，我有一个操作会创建一些 Inf在转换数据框时值。我想将这些Inf价值观变成NA价值观。我拥有的代码处理大数据的速度很慢，有没有较快的方法呢？说我有以下数据框： dat <- data.frame(a=c(1, Inf), b=c(Inf, 3), d=c("a","b")) 以下情况仅适用于一种情况： dat[,1][is.infinite(dat[,1])] = NA 所以我用以下循环将其概括 cf_DFinf2NA <- function(x) { for (i in 1:ncol(x)){ x[,i][is.infinite(x[,i])] = NA } return(x) } 但是我不认为这确实是在使用R的功能。

101 r dataframe data.table

2

'DataFrame'对象没有属性'sort'

我在这里遇到一些问题，在我的python包中，我已经安装了numpy，但是我仍然遇到此错误'DataFrame'对象没有属性'sort' 任何人都可以给我一些想法。这是我的代码： final.loc[-1] =['', 'P','Actual'] final.index = final.index + 1 # shifting index final = final.sort() final.columns=[final.columns,final.iloc[0]] final = final.iloc[1:].reset_index(drop=True) final.columns.names = (None, None)

101 python pandas numpy dataframe

7

如何在Pandas DataFrame中移动列

我想在Pandas中移动一列DataFrame，但是我无法在不重写整个DF的情况下从文档中找到一种方法来做到这一点。有人知道怎么做吗？数据框： ## x1 x2 ##0 206 214 ##1 226 234 ##2 245 253 ##3 265 272 ##4 283 291 所需的输出： ## x1 x2 ##0 206 nan ##1 226 214 ##2 245 234 ##3 265 253 ##4 283 272 ##5 nan 291

100 python pandas dataframe

1

读取pandas数据框的前几行的方法

是否有内置的使用方式 read_csv仅读取n文件的前几行而无需提前知道行的长度？我有一个大文件，需要花费很长时间才能读取，偶尔只想使用前20行来获取它的样本（并且不希望加载完整的文件并花大头）。如果我知道总行数，则可以执行类似的操作footer_lines = total_lines - n并将其传递给skipfooter关键字arg。我当前的解决方案是n使用python和StringIO 手动将第一行抓取到熊猫： import pandas as pd from StringIO import StringIO n = 20 with open('big_file.csv', 'r') as f: head = ''.join(f.readlines(n)) df = pd.read_csv(StringIO(head)) 并没有那么糟，但是有没有更简洁的“ pandasic”（？）方式来处理关键字或其他内容呢？

100 python pandas csv dataframe

9

从熊猫返回多列apply（）

我有一个熊猫DataFrame ，df_test。它包含一列“大小”，以字节为单位表示大小。我已经使用以下代码计算了KB，MB和GB： df_test = pd.DataFrame([ {'dir': '/Users/uname1', 'size': 994933}, {'dir': '/Users/uname2', 'size': 109338711}, ]) df_test['size_kb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0, grouping=True) + ' KB') df_test['size_mb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0 ** 2, grouping=True) + ' MB') df_test['size_gb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0 ** 3, …

100 python pandas dataframe apply

2

使用熊猫查找最多两列或更多列

我有一个列的数据帧A，B。我需要创建一个列C，以便为每个记录/行： C = max(A, B)。我应该怎么做呢？

100 python dataframe pandas

2

用python熊猫装箱列

我有一个带有数值的数据框列： df['percentage'].head() 46.5 44.2 100.0 42.12 我想查看该列作为箱数： bins = [0, 1, 5, 10, 25, 50, 100] 我如何将结果作为垃圾箱value counts？ [0, 1] bin amount [1, 5] etc [5, 10] etc ......

99 python pandas numpy dataframe binning

5

如何在pyspark中将Dataframe列从String类型更改为Double类型

我有一个列为String的数据框。我想在PySpark中将列类型更改为Double type。以下是我的方法： toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) 只是想知道，这是正确的方法，就像通过Logistic回归运行时一样，我遇到了一些错误，所以我想知道，这是麻烦的原因。

99 python apache-spark dataframe pyspark apache-spark-sql

10

使用无值过滤Pyspark数据框列

我正在尝试过滤具有None作为行值的PySpark数据框： df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] 我可以使用字符串值正确过滤： df[df.dt_mvmt == '2016-03-31'] # some results here 但这失败了： df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 但是每个类别上肯定都有价值。这是怎么回事？

98 python apache-spark dataframe pyspark apache-spark-sql

5

在熊猫数据框中将NaN替换为None

我有桌子x： website 0 http://www.google.com/ 1 http://www.yahoo.com 2 None 我想用NaN替换python None。我试过了： x.replace(to_replace=None, value=np.nan) 但是我得到了： TypeError: 'regex' must be a string or a compiled regular expression or a list or dict of strings or regular expressions, you passed a 'bool' 我应该怎么做？

98 pandas dataframe replace nan nonetype

3

python pandas dataframe列转换为dict键和值

我有一个带有多列的pandas数据框，我想从两列构造一个dict：一个作为dict的键，另一个作为dict的值。我怎样才能做到这一点？数据框： area count co tp DE Lake 10 7 Forest 20 5 FR Lake 30 2 Forest 40 3 我需要将区域定义为键，在dict中计为值。先感谢您。

98 python pandas dataframe dictionary data-conversion

6

将熊猫数据框转换为序列

我对熊猫有些陌生。我有一个熊猫数据框，它是1行乘23列。我想将其转换为系列吗？我想知道最pythonic的方法是什么？我已经尝试过了，pd.Series(myResults)但是抱怨ValueError: cannot copy sequence with size 23 to array axis with dimension 1。它还不够聪明，无法意识到它仍然是数学上的“向量”。谢谢！

97 python pandas dataframe series

3

Python Pandas用第二列对应行中的值替换第一列中的NaN

我正在使用Python中的Pandas DataFrame。 File heat Farheit Temp_Rating 1 YesQ 75 N/A 1 NoR 115 N/A 1 YesA 63 N/A 1 NoT 83 41 1 NoY 100 80 1 YesZ 56 12 2 YesQ 111 N/A 2 NoR 60 N/A 2 YesA 19 N/A 2 NoT 106 77 2 NoY 45 21 …

97 python pandas dataframe nan fillna

9

按名称将列移动到熊猫表的前面

这是我的df： Net Upper Lower Mid Zsore Answer option More than once a day 0% 0.22% -0.12% 2 65 Once a day 0% 0.32% -0.19% 3 45 Several times a week 2% 2.45% 1.10% 4 78 Once a week 1% 1.63% -0.40% 6 65 如何将按名称（"Mid"）的列移动到表的前面，索引为0。结果应如下所示： Mid Upper Lower Net Zsore Answer …

97 python pandas move dataframe shift

Questions tagged «dataframe»