程序设计 dataframe

15

从变量中的值构造pandas DataFrame会得到“ ValueError：如果使用所有标量值，则必须传递索引”

这可能是一个简单的问题，但是我不知道该怎么做。可以说我有两个变量，如下所示。 a = 2 b = 3 我想从中构造一个DataFrame： df2 = pd.DataFrame({'A':a,'B':b}) 这会产生一个错误： ValueError：如果使用所有标量值，则必须传递索引我也尝试过这个： df2 = (pd.DataFrame({'a':a,'b':b})).reset_index() 这给出了相同的错误消息。

368 python pandas dataframe scalar

12

如何将函数应用于Pandas数据框的两列

假设我有一个df包含的列'ID', 'col_1', 'col_2'。我定义一个函数： f = lambda x, y : my_function_expression。现在，我要应用f到df的两列'col_1', 'col_2'，以逐元素的计算新列'col_3'，有点像： df['col_3'] = df[['col_1','col_2']].apply(f) # Pandas gives : TypeError: ('<lambda>() takes exactly 2 arguments (1 given)' 怎么做？ ** 如下添加详细样本 *** import pandas as pd df = pd.DataFrame({'ID':['1','2','3'], 'col_1': [0,2,3], 'col_2':[1,4,5]}) mylist = ['a','b','c','d','e','f'] def get_sublist(sta,end): return mylist[sta:end+1] #df['col_3'] …

368 python pandas dataframe

6

系列的真值含糊不清。使用a.empty，a.bool（），a.item（），a.any（）或a.all（）

在用or条件过滤我的结果数据框时出现问题。我希望我的结果df提取var大于0.25且小于-0.25的所有列值。下面的逻辑为我提供了一个模糊的真实值，但是当我将此过滤分为两个独立的操作时，它可以工作。这是怎么回事不知道在哪里使用建议a.empty(), a.bool(), a.item(),a.any() or a.all()。 result = result[(result['var']>0.25) or (result['var']<-0.25)]

366 python pandas dataframe boolean filtering

10

从数据框中提取特定列

我有一个包含6列的R数据框，并且我想创建一个仅包含三列的新数据框。假设我的数据帧df，我想提列A，B和E，这是唯一的命令，我可以计算出： data.frame(df$A,df$B,df$E) 有没有更紧凑的方法可以做到这一点？

364 r dataframe r-faq

14

如何按组对变量求和

我有两列的数据框。第一列包含诸如“第一”，“第二”，“第三”之类的类别，第二列具有代表我从“类别”中看到特定组的次数的数字。例如： Category Frequency First 10 First 15 First 5 Second 2 Third 14 Third 20 Second 3 我想按类别对数据进行排序，并对所有频率求和： Category Frequency First 30 Second 5 Third 34 我将如何在R中执行此操作？

357 r dataframe aggregate r-faq

17

将data.frame列从因子转换为字符

我有一个数据框。叫他bob： > head(bob) phenotype exclusion GSM399350 3- 4- 8- 25- 44+ 11b- 11c- 19- NK1.1- Gr1- TER119- GSM399351 3- 4- 8- 25- 44+ 11b- 11c- 19- NK1.1- Gr1- TER119- GSM399352 3- 4- 8- 25- 44+ 11b- 11c- 19- NK1.1- Gr1- TER119- GSM399353 3- 4- 8- 25+ 44+ 11b- 11c- 19- …

351 r dataframe

11

如何从数据框的单元格获取值？

我构造了一个条件，可以从我的数据帧中准确提取一行： d2 = df[(df['l_ext']==l_ext) & (df['item']==item) & (df['wn']==wn) & (df['wd']==1)] 现在，我想从特定列中获取一个值： val = d2['col_name'] 但是结果是我得到一个包含一行一列（即一个单元格）的数据帧。这不是我所需要的。我需要一个值（一个浮点数）。我该如何在熊猫中做到这一点？

343 python pandas dataframe

9

将数据帧列表转换为一个数据帧

我有一个代码，它在一处最终以一个数据帧列表结尾，我真的想将其转换为一个大数据帧。我从一个先前的问题中得到了一些建议，该问题试图做类似但更复杂的事情。这是我开始的示例（为说明起见，已大大简化了该示例）： listOfDataFrames <- vector(mode = "list", length = 100) for (i in 1:100) { listOfDataFrames[[i]] <- data.frame(a=sample(letters, 500, rep=T), b=rnorm(500), c=rnorm(500)) } 我目前正在使用此： df <- do.call("rbind", listOfDataFrames)

336 list r dataframe

11

在数据框中采样随机行

我正在努力寻找合适的函数，该函数将返回指定数量的行，这些行将随机抽取而不用R语言的数据帧替换？谁能帮我吗？

333 r dataframe sample r-faq

14

熊猫：使用运算符链接过滤DataFrame的行

在大部分操作pandas可以与运营商链接（来完成groupby，aggregate，apply，等），但我发现过滤行唯一方法是通过正常的托架索引 df_filtered = df[df['column'] == value] 这没有吸引力，因为它要求我先分配df一个变量，然后才能根据其值进行过滤。还有以下内容吗？ df_filtered = df.mask(lambda x: x['column'] == value)

329 python pandas dataframe

17

熊猫-如何展平列中的层次结构索引

我有一个在轴1（列）中具有层次结构索引的数据框（来自groupby.agg操作）： USAF WBAN year month day s_PC s_CL s_CD s_CNT tempf sum sum sum sum amax amin 0 702730 26451 1993 1 1 1 0 12 13 30.92 24.98 1 702730 26451 1993 1 2 0 0 13 13 32.00 24.98 2 702730 26451 1993 1 3 1 10 2 …

325 python pandas dataframe

23

如何使用熊猫从一个数据框中创建测试并训练样本？

我有一个数据框形式的相当大的数据集，我想知道如何将数据框分成两个随机样本（80％和20％）进行训练和测试。谢谢！

322 python python-2.7 pandas dataframe

7

熊猫read_csv low_memory和dtype选项

打电话时 df = pd.read_csv('somefile.csv') 我得到： /Users/josh/anaconda/envs/py27/lib/python2.7/site-packages/pandas/io/parsers.py:1130：DtypeWarning：列（4,5,7,16）具有混合类型。在导入时指定dtype选项，或将low_memory = False设置为false。为什么dtype选项与关联low_memory，为什么使它False有助于解决此问题？

320 python parsing numpy pandas dataframe

11

如何使用熊猫存储数据框

现在，CSV每次运行脚本时，我都会导入一个相当大的数据框。是否有一个很好的解决方案，可以使数据帧在两次运行之间保持持续可用，因此我不必花费所有时间等待脚本运行？

317 python pandas dataframe

8

熊猫有条件地创建系列/数据框列

我有下面的数据框： Type Set 1 A Z 2 B Z 3 B X 4 C Y 我想向数据框添加另一列（或生成一系列），该列的长度与数据框的长度相同（=记录/行的数目相等），如果Set ='Z'则设置为绿色，如果Set ='否则为'red' 。最好的方法是什么？

314 python pandas numpy dataframe

Questions tagged «dataframe»