Questions tagged «dataframe»

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框”或“数据框”是几种语言用于此概念的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),但“表”是MATLAB和SQL。

4
Pandas DataFrame到字典列表
我有以下DataFrame: 客户item1 item2 item3 1个苹果牛奶番茄 2水橙土豆 3汁芒果片 我想将其翻译为每行词典列表 rows = [{'customer': 1, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'}, {'customer': 2, 'item1': 'water', 'item2': 'orange', 'item3': 'potato'}, {'customer': 3, 'item1': 'juice', 'item2': 'mango', 'item3': 'chips'}]

7
使用Pandas对同一工作簿的多个工作表进行pd.read_excel()
我有一个较大的电子表格文件(.xlsx),正在使用python pandas处理。碰巧我需要该大文件中两个选项卡中的数据。选项卡中的一个包含大量数据,另一个仅包含几个正方形单元格。 当我在任何工作表上使用pd.read_excel()时,在我看来整个文件都已加载(而不仅仅是我感兴趣的工作表)。因此,当我两次使用该方法(每张纸一次)时,我实际上不得不使整个工作簿被读两次(即使我们仅使用指定的工作表)。 我使用的是错误的还是仅限于这种方式? 谢谢!

7
为数据框中的组内的行编号
使用类似于以下内容的数据框: set.seed(100) df <- data.frame(cat = c(rep("aaa", 5), rep("bbb", 5), rep("ccc", 5)), val = runif(15)) df <- df[order(df$cat, df$val), ] df cat val 1 aaa 0.05638315 2 aaa 0.25767250 3 aaa 0.30776611 4 aaa 0.46854928 5 aaa 0.55232243 6 bbb 0.17026205 7 bbb 0.37032054 8 bbb 0.48377074 9 bbb 0.54655860 …
163 r  dataframe  r-faq 

7
从宽格式到长格式重塑data.frame
我很难将我data.frame的桌子从宽桌变成长桌。目前看起来像这样: Code Country 1950 1951 1952 1953 1954 AFG Afghanistan 20,249 21,352 22,532 23,557 24,555 ALB Albania 8,097 8,986 10,058 11,123 12,246 现在我想把它变data.frame长data.frame。像这样: Code Country Year Value AFG Afghanistan 1950 20,249 AFG Afghanistan 1951 21,352 AFG Afghanistan 1952 22,532 AFG Afghanistan 1953 23,557 AFG Afghanistan 1954 24,555 ALB Albania 1950 …
163 r  dataframe  reshape  r-faq 

11
将data.frame列转换为向量?
我有一个数据框,例如: a1 = c(1, 2, 3, 4, 5) a2 = c(6, 7, 8, 9, 10) a3 = c(11, 12, 13, 14, 15) aframe = data.frame(a1, a2, a3) 我尝试了以下将列之一转换为向量的方法,但是它不起作用: avector <- as.vector(aframe['a2']) class(avector) [1] "data.frame" 这是我唯一能想到的解决方案,但我假设必须有一种更好的方法来做到这一点: class(aframe['a2']) [1] "data.frame" avector = c() for(atmp in aframe['a2']) { avector <- atmp } class(avector) …

13
比较两个DataFrame并并排输出它们的差异
我试图突出显示两个数据框之间到底发生了什么变化。 假设我有两个Python Pandas数据框: "StudentRoster Jan-1": id Name score isEnrolled Comment 111 Jack 2.17 True He was late to class 112 Nick 1.11 False Graduated 113 Zoe 4.12 True "StudentRoster Jan-2": id Name score isEnrolled Comment 111 Jack 2.17 True He was late to class 112 Nick 1.21 False Graduated 113 …
162 python  html  pandas  dataframe  panel 

13
比较两个data.frame以找到data.frame 1中不存在的行data.frame 2
我有以下2个data.frames: a1 <- data.frame(a = 1:5, b=letters[1:5]) a2 <- data.frame(a = 1:3, b=letters[1:3]) 我想找到a1没有的行。 是否有针对此类操作的内置功能? (ps:我确实为此写了一个解决方案,我只是很好奇是否有人已经编写了更完善的代码) 这是我的解决方案: a1 <- data.frame(a = 1:5, b=letters[1:5]) a2 <- data.frame(a = 1:3, b=letters[1:3]) rows.in.a1.that.are.not.in.a2 <- function(a1,a2) { a1.vec <- apply(a1, 1, paste, collapse = "") a2.vec <- apply(a2, 1, paste, collapse = "") a1.without.a2.rows …
161 r  merge  compare  rows  dataframe 

5
按索引合并两个数据框
嗨,我有以下数据框: > df1 id begin conditional confidence discoveryTechnique 0 278 56 false 0.0 1 1 421 18 false 0.0 1 > df2 concept 0 A 1 B 如何合并索引以获取: id begin conditional confidence discoveryTechnique concept 0 278 56 false 0.0 1 A 1 421 18 false 0.0 1 B 我问,因为据我了解,merge()即df1.merge(df2)使用列进行匹配。实际上,这样做我得到: Traceback …


5
根据向量以特定顺序对数据帧行进行排序
是否有一种更简单的方法来确保数据框的行根据我在下面的简短示例中实现的“目标”矢量进行排序? df <- data.frame(name = letters[1:4], value = c(rep(TRUE, 2), rep(FALSE, 2))) df # name value # 1 a TRUE # 2 b TRUE # 3 c FALSE # 4 d FALSE target <- c("b", "c", "a", "d") 这似乎有点“复杂”,无法完成工作: idx <- sapply(target, function(x) { which(df$name == x) }) df <- …
158 r  sorting  dataframe 


9
通过逻辑条件过滤data.frame行
我想data.frame根据逻辑条件从中过滤行。假设我有像 expr_value cell_type 1 5.345618 bj fibroblast 2 5.195871 bj fibroblast 3 5.247274 bj fibroblast 4 5.929771 hesc 5 5.873096 hesc 6 5.665857 hesc 7 6.791656 hips 8 7.133673 hips 9 7.574058 hips 10 7.208041 hips 11 7.402100 hips 12 7.167792 hips 13 7.156971 hips 14 7.197543 hips 15 7.035404 …
155 r  subset  dataframe 

3
将Pandas Multi-Index转换为专栏
我有一个具有2个索引级别的数据框: value Trial measurement 1 0 13 1 3 2 4 2 0 NaN 1 12 3 0 34 我想变成这样: Trial measurement value 1 0 13 1 1 3 1 2 4 2 0 NaN 2 1 12 3 0 34 我怎样才能最好地做到这一点? 我需要这样做是因为我想按照此处的指示汇总数据,但是如果将它们用作索引,则无法选择这样的列。


8
每组汇总/汇总多个变量(例如,总和,均值)
从数据帧,是否有聚集(一个简单的方法sum,mean,max同时等c)中多个变量? 以下是一些示例数据: library(lubridate) days = 365*2 date = seq(as.Date("2000-01-01"), length = days, by = "day") year = year(date) month = month(date) x1 = cumsum(rnorm(days, 0.05)) x2 = cumsum(rnorm(days, 0.05)) df1 = data.frame(date, year, month, x1, x2) 我想同时按年份和月份汇总数据框中的x1和x2变量df2。以下代码汇总了x1变量,但是也可以同时汇总x2变量吗? ### aggregate variables by year month df2=aggregate(x1 ~ year+month, data=df1, sum, na.rm=TRUE) head(df2) …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.