Questions tagged «dataframe»

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框”或“数据框”是几种语言用于此概念的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),但“表”是MATLAB和SQL。


8
从R数据帧中清除Inf值
在R中,我有一个操作会创建一些 Inf在转换数据框时值。 我想将这些Inf价值观变成NA价值观。我拥有的代码处理大数据的速度很慢,有没有较快的方法呢? 说我有以下数据框: dat <- data.frame(a=c(1, Inf), b=c(Inf, 3), d=c("a","b")) 以下情况仅适用于一种情况: dat[,1][is.infinite(dat[,1])] = NA 所以我用以下循环将其概括 cf_DFinf2NA <- function(x) { for (i in 1:ncol(x)){ x[,i][is.infinite(x[,i])] = NA } return(x) } 但是我不认为这确实是在使用R的功能。
101 r  dataframe  data.table 

2
'DataFrame'对象没有属性'sort'
我在这里遇到一些问题,在我的python包中,我已经安装了numpy,但是我仍然遇到此错误'DataFrame'对象没有属性'sort' 任何人都可以给我一些想法。 这是我的代码: final.loc[-1] =['', 'P','Actual'] final.index = final.index + 1 # shifting index final = final.sort() final.columns=[final.columns,final.iloc[0]] final = final.iloc[1:].reset_index(drop=True) final.columns.names = (None, None)

7
如何在Pandas DataFrame中移动列
我想在Pandas中移动一列DataFrame,但是我无法在不重写整个DF的情况下从文档中找到一种方法来做到这一点。有人知道怎么做吗?数据框: ## x1 x2 ##0 206 214 ##1 226 234 ##2 245 253 ##3 265 272 ##4 283 291 所需的输出: ## x1 x2 ##0 206 nan ##1 226 214 ##2 245 234 ##3 265 253 ##4 283 272 ##5 nan 291
100 python  pandas  dataframe 

1
读取pandas数据框的前几行的方法
是否有内置的使用方式 read_csv仅读取n文件的前几行而无需提前知道行的长度?我有一个大文件,需要花费很长时间才能读取,偶尔只想使用前20行来获取它的样本(并且不希望加载完整的文件并花大头)。 如果我知道总行数,则可以执行类似的操作footer_lines = total_lines - n并将其传递给skipfooter关键字arg。我当前的解决方案是n使用python和StringIO 手动将第一行抓取到熊猫: import pandas as pd from StringIO import StringIO n = 20 with open('big_file.csv', 'r') as f: head = ''.join(f.readlines(n)) df = pd.read_csv(StringIO(head)) 并没有那么糟,但是有没有更简洁的“ pandasic”(?)方式来处理关键字或其他内容呢?
100 python  pandas  csv  dataframe 

9
从熊猫返回多列apply()
我有一个熊猫DataFrame ,df_test。它包含一列“大小”,以字节为单位表示大小。我已经使用以下代码计算了KB,MB和GB: df_test = pd.DataFrame([ {'dir': '/Users/uname1', 'size': 994933}, {'dir': '/Users/uname2', 'size': 109338711}, ]) df_test['size_kb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0, grouping=True) + ' KB') df_test['size_mb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0 ** 2, grouping=True) + ' MB') df_test['size_gb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0 ** 3, …


2
用python熊猫装箱列
我有一个带有数值的数据框列: df['percentage'].head() 46.5 44.2 100.0 42.12 我想查看该列作为箱数: bins = [0, 1, 5, 10, 25, 50, 100] 我如何将结果作为垃圾箱value counts? [0, 1] bin amount [1, 5] etc [5, 10] etc ......

5
如何在pyspark中将Dataframe列从String类型更改为Double类型
我有一个列为String的数据框。我想在PySpark中将列类型更改为Double type。 以下是我的方法: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) 只是想知道,这是正确的方法,就像通过Logistic回归运行时一样,我遇到了一些错误,所以我想知道,这是麻烦的原因。

10
使用无值过滤Pyspark数据框列
我正在尝试过滤具有None作为行值的PySpark数据框: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] 我可以使用字符串值正确过滤: df[df.dt_mvmt == '2016-03-31'] # some results here 但这失败了: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 但是每个类别上肯定都有价值。这是怎么回事?

5
在熊猫数据框中将NaN替换为None
我有桌子x: website 0 http://www.google.com/ 1 http://www.yahoo.com 2 None 我想用NaN替换python None。我试过了: x.replace(to_replace=None, value=np.nan) 但是我得到了: TypeError: 'regex' must be a string or a compiled regular expression or a list or dict of strings or regular expressions, you passed a 'bool' 我应该怎么做?


6
将熊猫数据框转换为序列
我对熊猫有些陌生。我有一个熊猫数据框,它是1行乘23列。 我想将其转换为系列吗?我想知道最pythonic的方法是什么? 我已经尝试过了,pd.Series(myResults)但是抱怨ValueError: cannot copy sequence with size 23 to array axis with dimension 1。它还不够聪明,无法意识到它仍然是数学上的“向量”。 谢谢!


9
按名称将列移动到熊猫表的前面
这是我的df: Net Upper Lower Mid Zsore Answer option More than once a day 0% 0.22% -0.12% 2 65 Once a day 0% 0.32% -0.19% 3 45 Several times a week 2% 2.45% 1.10% 4 78 Once a week 1% 1.63% -0.40% 6 65 如何将按名称("Mid")的列移动到表的前面,索引为0。结果应如下所示: Mid Upper Lower Net Zsore Answer …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.