Questions tagged «dataframe»

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框”或“数据框”是几种语言用于此概念的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),但“表”是MATLAB和SQL。

6
从多索引熊猫中选择
我有一个带有列“ A”和“ B”的多索引数据框。 有没有一种方法可以通过在多索引的一列上进行过滤而不选择将索引重置为单列索引来选择行? 例如。 # has multi-index (A,B) df #can I do this? I know this doesn't work because the index is multi-index so I need to specify a tuple df.ix[df.A ==1]

1
熊猫“ Freq”标签的文档在哪里?[关闭]
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow的主题。 2年前关闭。 改善这个问题 我是Pandas的新手,正在尝试使用date_range。我遇到了各种各样的美好事物freq,例如BME和BMS而且我希望能够快速查找适当的字符串以得到我想要的东西。昨天我在文档中的某个地方找到了一个格式良好的表,但是该表的标题太钝了,以至于我今天无法使用搜索再次找到它。

9
导入CSV文件作为pandas DataFrame
将CSV文件读入pandas DataFrame的Python方法是什么(然后可以将其用于统计操作,可以具有不同类型的列等)? 我的CSV文件"value.txt"具有以下内容: Date,"price","factor_1","factor_2" 2012-06-11,1600.20,1.255,1.548 2012-06-12,1610.02,1.258,1.554 2012-06-13,1618.07,1.249,1.552 2012-06-14,1624.40,1.253,1.556 2012-06-15,1626.15,1.258,1.552 2012-06-16,1626.15,1.263,1.558 2012-06-17,1626.15,1.264,1.572 在R中,我们将使用以下命令读取此文件: price <- read.csv("value.txt") 这将返回R data.frame: > price <- read.csv("value.txt") > price Date price factor_1 factor_2 1 2012-06-11 1600.20 1.255 1.548 2 2012-06-12 1610.02 1.258 1.554 3 2012-06-13 1618.07 1.249 1.552 4 2012-06-14 1624.40 1.253 1.556 5 2012-06-15 1626.15 …
90 python  pandas  csv  dataframe 

5
从嵌套字典中的项目构造pandas DataFrame
假设我有一个嵌套的字典'user_dict',其结构为: 级别1: UserId(长整数) 级别2:类别(字符串) 级别3:各种属性(浮点数,整数等)。 例如,该词典的条目为: user_dict[12] = { "Category 1": {"att_1": 1, "att_2": "whatever"}, "Category 2": {"att_1": 23, "att_2": "another"}} 每个项目都user_dict具有相同的结构,并且user_dict包含大量项目,我希望将它们提供给pandas DataFrame,从而根据属性构造系列。在这种情况下,分层索引对于此目的将是有用的。 具体来说,我的问题是是否存在一种方法来帮助DataFrame构造函数理解应该从字典中“级别3”的值构建该系列的方法? 如果我尝试类似的方法: df = pandas.DataFrame(users_summary) “级别1”(用户ID)中的项目被视为列,这与我要实现的(将用户ID作为索引)相反。 我知道我可以在对字典条目进行迭代之后构造序列,但是如果有更直接的方法,这将非常有用。一个类似的问题是询问是否可以从文件中列出的json对象构造pandas DataFrame。

3
在Pandas条形图上用值注释条
我一直在寻找一种方法,用DataFrame中的四舍五入数值在Pandas条形图中标注条形。 >>> df=pd.DataFrame({'A':np.random.rand(2),'B':np.random.rand(2)},index=['value1','value2'] ) >>> df A B value1 0.440922 0.911800 value2 0.588242 0.797366 我想得到这样的东西: 我尝试使用此代码示例,但所有注释均以x刻度为中心: >>> ax = df.plot(kind='bar') >>> for idx, label in enumerate(list(df.index)): for acc in df.columns: value = np.round(df.ix[idx][acc],decimals=2) ax.annotate(value, (idx, value), xytext=(0, 15), textcoords='offset points')

13
比较两个数据框并获得差异
我有两个数据框。例子: df1: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green df2: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green 2013-11-25 Apple 22.1 Red 2013-11-25 Orange 8.6 …

5
替换数据框中的所有特定值
有了数据框,我该如何替换所有行和列中的所有特定值。举例来说,我想用替换所有空记录NA(无需输入位置): df <- data.frame(list(A=c("", "xyz", "jkl"), B=c(12, "", 100))) A B 1 12 2 xyz 3 jkl 100 预期结果: A B 1 NA 12 2 xyz NA 3 jkl 100
88 r  dataframe  replace 


5
如何在熊猫数据框中拆分元组列?
我有一个熊猫数据框(这只是一小块) >>> d1 y norm test y norm train len(y_train) len(y_test) \ 0 64.904368 116.151232 1645 549 1 70.852681 112.639876 1645 549 SVR RBF \ 0 (35.652207342877873, 22.95533537448393) 1 (39.563683797747622, 27.382483096332511) LCV \ 0 (19.365430594452338, 13.880062435173587) 1 (19.099614489458364, 14.018867136617146) RIDGE CV \ 0 (4.2907610988480362, 12.416745648065584) 1 (4.18864306788194, 12.980833914392477) RF \ …




1
将函数应用于DataFrame中的每个单元格
我有一个数据框可能看起来像这样: A B C foo bar foo bar bar foo foo bar 我想浏览每行的每个元素(或每列的每个元素)并应用以下函数来获取后续的DF: def foo_bar(x): return x.replace('foo', 'wow') A B C wow bar wow bar bar wow wow bar 是否有可以将功能应用于每个单元的简单单线? 这是一个简单的示例,因此除了应用函数外,可能还有一种更简单的方法来执行此特定示例,但是我真正要问的是如何在数据帧内的每个单元中应用函数。

3
根据列中的公共值将大数据帧拆分为数据帧列表
我有一个包含10列的数据框,收集“用户”的操作,其中一列包含一个ID(不是唯一的,标识用户)(第10列)。数据帧的长度约为750000行。我试图提取单个数据帧(以便获取数据帧的列表或向量),并按包含“用户”标识符的列进行拆分,以隔离单个参与者的动作。 ID | Data1 | Data2 | ... | UserID 1 | aaa | bbb | ... | u_001 2 | aab | bb2 | ... | u_001 3 | aac | bb3 | ... | u_001 4 | aad | bb4 | ... | u_002 导致 list( ID | …

5
将命名字符向量转换为data.frame
我有一个从xmlAttrs返回的命名字符向量,如下所示: testVect <- structure(c("11.2.0.3.0", "12.89", "12.71"), .Names = c("db_version", "elapsed_time", "cpu_time")) 我想将其转换为如下所示的数据框: testDF <- data.frame("db_version"="11.2.0.3.0","elapsed_time"=12.89,"cpu_time"=12.71) head(testDF) db_version elapsed_time cpu_time 1 11.2.0.3.0 12.89 12.71

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.