Questions tagged «dataframe»

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框”或“数据框”是几种语言用于此概念的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),但“表”是MATLAB和SQL。


9
熊猫索引列标题或名称
如何获取python pandas中的索引列名称?这是一个示例数据框: Column 1 Index Title Apples 1 Oranges 2 Puppies 3 Ducks 4 我想做的是获取/设置数据框索引标题。这是我尝试过的: import pandas as pd data = {'Column 1' : [1., 2., 3., 4.], 'Index Title' : ["Apples", "Oranges", "Puppies", "Ducks"]} df = pd.DataFrame(data) df.index = df["Index Title"] del df["Index Title"] print df 有人知道怎么做吗?

15
将数据框字符串列拆分为多列
我想获取表格的数据 before = data.frame(attr = c(1,30,4,6), type=c('foo_and_bar','foo_and_bar_2')) attr type 1 1 foo_and_bar 2 30 foo_and_bar_2 3 4 foo_and_bar 4 6 foo_and_bar_2 并split()在type上方的“ ” 列上使用以获取如下内容: attr type_1 type_2 1 1 foo bar 2 30 foo bar_2 3 4 foo bar 4 6 foo bar_2 我想出了一些令人难以置信的复杂性,涉及某种形式的apply工作,但此后我放错了地方。似乎太复杂了,无法成为最佳方法。我可以strsplit按以下方式使用,但不清楚如何将其重新放入数据框中的2列。 > strsplit(as.character(before$type),'_and_') [[1]] [1] "foo" "bar" …
244 r  string  dataframe  split  r-faq 

6
为什么我的Pandas的“应用”功能不能引用多个列?[关闭]
关闭。这个问题不能重现或由错别字引起。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow 的主题。 去年关闭。 改善这个问题 当将多个列与以下数据框一起使用时,Pandas Apply函数存在一些问题 df = DataFrame ({'a' : np.random.randn(6), 'b' : ['foo', 'bar'] * 3, 'c' : np.random.randn(6)}) 和以下功能 def my_test(a, b): return a % b 当我尝试使用以下功能时: df['Value'] = df.apply(lambda row: my_test(row[a], row[c]), axis=1) 我收到错误消息: NameError: ("global name 'a' is not defined", u'occurred at index …


12
熊猫获取不在其他数据框中的行
我有两个大熊猫数据框,它们有一些共同点。 假设dataframe2是dataframe1的子集。 如何获取dataframe1中不在dataframe2中的行? df1 = pandas.DataFrame(data = {'col1' : [1, 2, 3, 4, 5], 'col2' : [10, 11, 12, 13, 14]}) df2 = pandas.DataFrame(data = {'col1' : [1, 2, 3], 'col2' : [10, 11, 12]})
228 python  pandas  dataframe 

19
标准化熊猫数据框的列
我在熊猫中有一个数据框,其中每一列都有不同的值范围。例如: df: A B C 1000 10 0.5 765 5 0.35 800 7 0.09 知道如何将每个值介于0和1之间的数据框的列标准化吗? 我想要的输出是: A B C 1 1 1 0.765 0.5 0.7 0.8 0.7 0.18(which is 0.09/0.5)



8
逐行迭代时更新熊猫数据框
我有一个看起来像这样的熊猫数据框(非常大) date exer exp ifor mat 1092 2014-03-17 American M 528.205 2014-04-19 1093 2014-03-17 American M 528.205 2014-04-19 1094 2014-03-17 American M 528.205 2014-04-19 1095 2014-03-17 American M 528.205 2014-04-19 1096 2014-03-17 American M 528.205 2014-05-17 现在我想逐行进行迭代,当我遍历每一行时,每行中的值ifor 可以根据某些条件而变化,因此我需要查找另一个数据帧。 现在,如何在迭代时更新它。尝试了几项都不起作用的东西。 for i, row in df.iterrows(): if <something>: row['ifor'] = x else: …

7
在熊猫中加入和合并有什么区别?
假设我有两个像这样的DataFrame: left = pd.DataFrame({'key1': ['foo', 'bar'], 'lval': [1, 2]}) right = pd.DataFrame({'key2': ['foo', 'bar'], 'rval': [4, 5]}) 我想合并它们,所以我尝试这样的事情: pd.merge(left, right, left_on='key1', right_on='key2') 我很开心 key1 lval key2 rval 0 foo 1 foo 4 1 bar 2 bar 5 但是我正在尝试使用join方法,我被认为这是非常相似的。 left.join(right, on=['key1', 'key2']) 我得到这个: //anaconda/lib/python2.7/site-packages/pandas/tools/merge.pyc in _validate_specification(self) 406 if self.right_index: 407 if …
208 python  pandas  dataframe  join 

7
熊猫分组和
我正在使用此数据框: Fruit Date Name Number Apples 10/6/2016 Bob 7 Apples 10/6/2016 Bob 8 Apples 10/6/2016 Mike 9 Apples 10/7/2016 Steve 10 Apples 10/7/2016 Bob 1 Oranges 10/7/2016 Bob 2 Oranges 10/6/2016 Tom 15 Oranges 10/6/2016 Mike 57 Oranges 10/6/2016 Bob 65 Oranges 10/7/2016 Tony 1 Grapes 10/7/2016 Bob 1 Grapes …

13
如何在Spark Dataframe中显示完整的列内容?
我正在使用spark-csv将数据加载到DataFrame中。我想做一个简单的查询并显示内容: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() 上校似乎被截断了: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 …

20
将熊猫数据框字符串条目拆分(分解)为单独的行
我有一个pandas dataframe文本字符串的一列包含逗号分隔的值。我想拆分每个CSV字段,并为每个条目创建一个新行(假设CSV干净并且只需要在','上拆分)。例如,a应变为b: In [7]: a Out[7]: var1 var2 0 a,b,c 1 1 d,e,f 2 In [8]: b Out[8]: var1 var2 0 a 1 1 b 1 2 c 1 3 d 2 4 e 2 5 f 2 到目前为止,我已经尝试了各种简单的函数,但是该.apply方法似乎只在轴上使用一行作为返回值,而我无法开始.transform工作。我们欢迎所有的建议! 示例数据: from pandas import DataFrame import numpy as np a = …

11
如何将一列分为两列?
我有一个带有一列的数据框,我想将其分为两列,其中一列标题为' fips',另一列为'row' 我的数据框df如下所示: row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 Barbour County, AL 我不知道如何使用df.row.str[:]以达到分割行单元的目的。我可以df['fips'] = hello用来添加一个新列,并用填充它hello。有任何想法吗? fips row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 …
196 python  dataframe  pandas 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.