Questions tagged «dataframe»

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框”或“数据框”是几种语言用于此概念的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),但“表”是MATLAB和SQL。

15
从变量中的值构造pandas DataFrame会得到“ ValueError:如果使用所有标量值,则必须传递索引”
这可能是一个简单的问题,但是我不知道该怎么做。可以说我有两个变量,如下所示。 a = 2 b = 3 我想从中构造一个DataFrame: df2 = pd.DataFrame({'A':a,'B':b}) 这会产生一个错误: ValueError:如果使用所有标量值,则必须传递索引 我也尝试过这个: df2 = (pd.DataFrame({'a':a,'b':b})).reset_index() 这给出了相同的错误消息。

12
如何将函数应用于Pandas数据框的两列
假设我有一个df包含的列'ID', 'col_1', 'col_2'。我定义一个函数: f = lambda x, y : my_function_expression。 现在,我要应用f到df的两列'col_1', 'col_2',以逐元素的计算新列'col_3',有点像: df['col_3'] = df[['col_1','col_2']].apply(f) # Pandas gives : TypeError: ('<lambda>() takes exactly 2 arguments (1 given)' 怎么做 ? ** 如下添加详细样本 *** import pandas as pd df = pd.DataFrame({'ID':['1','2','3'], 'col_1': [0,2,3], 'col_2':[1,4,5]}) mylist = ['a','b','c','d','e','f'] def get_sublist(sta,end): return mylist[sta:end+1] #df['col_3'] …
368 python  pandas  dataframe 

6
系列的真值含糊不清。使用a.empty,a.bool(),a.item(),a.any()或a.all()
在用or条件过滤我的结果数据框时出现问题。我希望我的结果df提取var大于0.25且小于-0.25的所有列值。 下面的逻辑为我提供了一个模糊的真实值,但是当我将此过滤分为两个独立的操作时,它可以工作。这是怎么回事 不知道在哪里使用建议a.empty(), a.bool(), a.item(),a.any() or a.all()。 result = result[(result['var']>0.25) or (result['var']<-0.25)]

10
从数据框中提取特定列
我有一个包含6列的R数据框,并且我想创建一个仅包含三列的新数据框。 假设我的数据帧df,我想提列A,B和E,这是唯一的命令,我可以计算出: data.frame(df$A,df$B,df$E) 有没有更紧凑的方法可以做到这一点?
364 r  dataframe  r-faq 

14
如何按组对变量求和
我有两列的数据框。第一列包含诸如“第一”,“第二”,“第三”之类的类别,第二列具有代表我从“类别”中看到特定组的次数的数字。 例如: Category Frequency First 10 First 15 First 5 Second 2 Third 14 Third 20 Second 3 我想按类别对数据进行排序,并对所有频率求和: Category Frequency First 30 Second 5 Third 34 我将如何在R中执行此操作?
357 r  dataframe  aggregate  r-faq 

17
将data.frame列从因子转换为字符
我有一个数据框。叫他bob: > head(bob) phenotype exclusion GSM399350 3- 4- 8- 25- 44+ 11b- 11c- 19- NK1.1- Gr1- TER119- GSM399351 3- 4- 8- 25- 44+ 11b- 11c- 19- NK1.1- Gr1- TER119- GSM399352 3- 4- 8- 25- 44+ 11b- 11c- 19- NK1.1- Gr1- TER119- GSM399353 3- 4- 8- 25+ 44+ 11b- 11c- 19- …
351 r  dataframe 

11
如何从数据框的单元格获取值?
我构造了一个条件,可以从我的数据帧中准确提取一行: d2 = df[(df['l_ext']==l_ext) & (df['item']==item) & (df['wn']==wn) & (df['wd']==1)] 现在,我想从特定列中获取一个值: val = d2['col_name'] 但是结果是我得到一个包含一行一列(即一个单元格)的数据帧。这不是我所需要的。我需要一个值(一个浮点数)。我该如何在熊猫中做到这一点?
343 python  pandas  dataframe 

9
将数据帧列表转换为一个数据帧
我有一个代码,它在一处最终以一个数据帧列表结尾,我真的想将其转换为一个大数据帧。 我从一个先前的问题中得到了一些建议,该问题试图做类似但更复杂的事情。 这是我开始的示例(为说明起见,已大大简化了该示例): listOfDataFrames <- vector(mode = "list", length = 100) for (i in 1:100) { listOfDataFrames[[i]] <- data.frame(a=sample(letters, 500, rep=T), b=rnorm(500), c=rnorm(500)) } 我目前正在使用此: df <- do.call("rbind", listOfDataFrames)
336 list  r  dataframe 


14
熊猫:使用运算符链接过滤DataFrame的行
在大部分操作pandas可以与运营商链接(来完成groupby,aggregate,apply,等),但我发现过滤行唯一方法是通过正常的托架索引 df_filtered = df[df['column'] == value] 这没有吸引力,因为它要求我先分配df一个变量,然后才能根据其值进行过滤。还有以下内容吗? df_filtered = df.mask(lambda x: x['column'] == value)
329 python  pandas  dataframe 

17
熊猫-如何展平列中的层次结构索引
我有一个在轴1(列)中具有层次结构索引的数据框(来自groupby.agg操作): USAF WBAN year month day s_PC s_CL s_CD s_CNT tempf sum sum sum sum amax amin 0 702730 26451 1993 1 1 1 0 12 13 30.92 24.98 1 702730 26451 1993 1 2 0 0 13 13 32.00 24.98 2 702730 26451 1993 1 3 1 10 2 …
325 python  pandas  dataframe 


7
熊猫read_csv low_memory和dtype选项
打电话时 df = pd.read_csv('somefile.csv') 我得到: /Users/josh/anaconda/envs/py27/lib/python2.7/site-packages/pandas/io/parsers.py:1130:DtypeWarning:列(4,5,7,16)具有混合类型。在导入时指定dtype选项,或将low_memory = False设置为false。 为什么dtype选项与关联low_memory,为什么使它False有助于解决此问题?

11
如何使用熊猫存储数据框
现在,CSV每次运行脚本时,我都会导入一个相当大的数据框。是否有一个很好的解决方案,可以使数据帧在两次运行之间保持持续可用,因此我不必花费所有时间等待脚本运行?
317 python  pandas  dataframe 

8
熊猫有条件地创建系列/数据框列
我有下面的数据框: Type Set 1 A Z 2 B Z 3 B X 4 C Y 我想向数据框添加另一列(或生成一系列),该列的长度与数据框的长度相同(=记录/行的数目相等),如果Set ='Z'则设置为绿色,如果Set ='否则为'red' 。 最好的方法是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.