程序设计 dataframe

6

我有两列的熊猫数据框。我需要在不影响第二列的情况下更改第一列的值，并只更改第一列的值即可获取整个数据帧。我该如何使用大熊猫应用程序？

254 python pandas dataframe python-3.5

9

如何获取python pandas中的索引列名称？这是一个示例数据框： Column 1 Index Title Apples 1 Oranges 2 Puppies 3 Ducks 4 我想做的是获取/设置数据框索引标题。这是我尝试过的： import pandas as pd data = {'Column 1' : [1., 2., 3., 4.], 'Index Title' : ["Apples", "Oranges", "Puppies", "Ducks"]} df = pd.DataFrame(data) df.index = df["Index Title"] del df["Index Title"] print df 有人知道怎么做吗？

254 python pandas dataframe columnname

15

将数据框字符串列拆分为多列

我想获取表格的数据 before = data.frame(attr = c(1,30,4,6), type=c('foo_and_bar','foo_and_bar_2')) attr type 1 1 foo_and_bar 2 30 foo_and_bar_2 3 4 foo_and_bar 4 6 foo_and_bar_2 并split()在type上方的“ ” 列上使用以获取如下内容： attr type_1 type_2 1 1 foo bar 2 30 foo bar_2 3 4 foo bar 4 6 foo bar_2 我想出了一些令人难以置信的复杂性，涉及某种形式的apply工作，但此后我放错了地方。似乎太复杂了，无法成为最佳方法。我可以strsplit按以下方式使用，但不清楚如何将其重新放入数据框中的2列。 > strsplit(as.character(before$type),'_and_') [[1]] [1] "foo" "bar" …

244 r string dataframe split r-faq

6

为什么我的Pandas的“应用”功能不能引用多个列？[关闭]

关闭。这个问题不能重现或由错别字引起。它当前不接受答案。想改善这个问题吗？更新问题，使其成为Stack Overflow 的主题。去年关闭。改善这个问题当将多个列与以下数据框一起使用时，Pandas Apply函数存在一些问题 df = DataFrame ({'a' : np.random.randn(6), 'b' : ['foo', 'bar'] * 3, 'c' : np.random.randn(6)}) 和以下功能 def my_test(a, b): return a % b 当我尝试使用以下功能时： df['Value'] = df.apply(lambda row: my_test(row[a], row[c]), axis=1) 我收到错误消息： NameError: ("global name 'a' is not defined", u'occurred at index …

239 python python-2.7 pandas dataframe apply

13

当它们具有不同的列集时，按行（rbind）组合两个数据帧

是否可以行绑定两个没有相同列集的数据帧？我希望在绑定后保留不匹配的列。

232 r dataframe r-faq

12

熊猫获取不在其他数据框中的行

我有两个大熊猫数据框，它们有一些共同点。假设dataframe2是dataframe1的子集。如何获取dataframe1中不在dataframe2中的行？ df1 = pandas.DataFrame(data = {'col1' : [1, 2, 3, 4, 5], 'col2' : [10, 11, 12, 13, 14]}) df2 = pandas.DataFrame(data = {'col1' : [1, 2, 3], 'col2' : [10, 11, 12]})

228 python pandas dataframe

19

标准化熊猫数据框的列

我在熊猫中有一个数据框，其中每一列都有不同的值范围。例如： df： A B C 1000 10 0.5 765 5 0.35 800 7 0.09 知道如何将每个值介于0和1之间的数据框的列标准化吗？我想要的输出是： A B C 1 1 1 0.765 0.5 0.7 0.8 0.7 0.18(which is 0.09/0.5)

226 python pandas dataframe normalize

6

从python pandas中的列名获取列索引

在R中，当您需要根据列名检索列索引时，可以执行此操作 idx <- which(names(my_data)==my_colum_name) 有没有办法对熊猫数据框做同样的事情？

220 python pandas dataframe indexing

8

熊猫用空白/空字符串替换NaN

我有一个Pandas Dataframe，如下所示： 1 2 3 0 a NaN read 1 b l unread 2 c NaN read 我想用一个空字符串删除NaN值，使其看起来像这样： 1 2 3 0 a "" read 1 b l unread 2 c "" read

216 python pandas dataframe nan

8

逐行迭代时更新熊猫数据框

我有一个看起来像这样的熊猫数据框（非常大） date exer exp ifor mat 1092 2014-03-17 American M 528.205 2014-04-19 1093 2014-03-17 American M 528.205 2014-04-19 1094 2014-03-17 American M 528.205 2014-04-19 1095 2014-03-17 American M 528.205 2014-04-19 1096 2014-03-17 American M 528.205 2014-05-17 现在我想逐行进行迭代，当我遍历每一行时，每行中的值ifor 可以根据某些条件而变化，因此我需要查找另一个数据帧。现在，如何在迭代时更新它。尝试了几项都不起作用的东西。 for i, row in df.iterrows(): if <something>: row['ifor'] = x else: …

213 python pandas updates dataframe

7

在熊猫中加入和合并有什么区别？

假设我有两个像这样的DataFrame： left = pd.DataFrame({'key1': ['foo', 'bar'], 'lval': [1, 2]}) right = pd.DataFrame({'key2': ['foo', 'bar'], 'rval': [4, 5]}) 我想合并它们，所以我尝试这样的事情： pd.merge(left, right, left_on='key1', right_on='key2') 我很开心 key1 lval key2 rval 0 foo 1 foo 4 1 bar 2 bar 5 但是我正在尝试使用join方法，我被认为这是非常相似的。 left.join(right, on=['key1', 'key2']) 我得到这个： //anaconda/lib/python2.7/site-packages/pandas/tools/merge.pyc in _validate_specification(self) 406 if self.right_index: 407 if …

208 python pandas dataframe join

7

熊猫分组和

我正在使用此数据框： Fruit Date Name Number Apples 10/6/2016 Bob 7 Apples 10/6/2016 Bob 8 Apples 10/6/2016 Mike 9 Apples 10/7/2016 Steve 10 Apples 10/7/2016 Bob 1 Oranges 10/7/2016 Bob 2 Oranges 10/6/2016 Tom 15 Oranges 10/6/2016 Mike 57 Oranges 10/6/2016 Bob 65 Oranges 10/7/2016 Tony 1 Grapes 10/7/2016 Bob 1 Grapes …

205 python pandas dataframe group-by aggregate

13

如何在Spark Dataframe中显示完整的列内容？

我正在使用spark-csv将数据加载到DataFrame中。我想做一个简单的查询并显示内容： val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() 上校似乎被截断了： scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 …

201 apache-spark dataframe spark-csv output-formatting

20

将熊猫数据框字符串条目拆分（分解）为单独的行

我有一个pandas dataframe文本字符串的一列包含逗号分隔的值。我想拆分每个CSV字段，并为每个条目创建一个新行（假设CSV干净并且只需要在'，'上拆分）。例如，a应变为b： In [7]: a Out[7]: var1 var2 0 a,b,c 1 1 d,e,f 2 In [8]: b Out[8]: var1 var2 0 a 1 1 b 1 2 c 1 3 d 2 4 e 2 5 f 2 到目前为止，我已经尝试了各种简单的函数，但是该.apply方法似乎只在轴上使用一行作为返回值，而我无法开始.transform工作。我们欢迎所有的建议！示例数据： from pandas import DataFrame import numpy as np a = …

200 python pandas numpy dataframe

11

如何将一列分为两列？

我有一个带有一列的数据框，我想将其分为两列，其中一列标题为' fips'，另一列为'row' 我的数据框df如下所示： row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 Barbour County, AL 我不知道如何使用df.row.str[:]以达到分割行单元的目的。我可以df['fips'] = hello用来添加一个新列，并用填充它hello。有任何想法吗？ fips row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 …

196 python dataframe pandas

Questions tagged «dataframe»