程序设计 dataframe

11

如何更改此输入（按顺序：时间，输入，输出，文件）： Time In Out Files 1 2 3 4 2 3 4 5 输入到此输出（顺序为：时间，输出，输入，文件）？ Time Out In Files 1 3 2 4 2 4 3 5 这是虚拟R数据： table <- data.frame(Time=c(1,2), In=c(2,3), Out=c(3,4), Files=c(4,5)) table ## Time In Out Files ##1 1 2 3 4 ##2 2 3 4 5

311 r sorting dataframe r-faq

11

如何在数据框中按名称删除列

我的数据集很大，我想阅读特定的列或删除所有其他列。 data <- read.dta("file.dta") 我选择我不感兴趣的列： var.out <- names(data)[!names(data) %in% c("iden", "name", "x_serv", "m_serv")] 而且我想做些类似的事情： for(i in 1:length(var.out)) { paste("data$", var.out[i], sep="") <- NULL } 删除所有不需要的列。这是最佳解决方案吗？

304 r dataframe subset

15

将Python字典转换为数据框

我有如下的Python字典： {u'2012-06-08': 388, u'2012-06-09': 388, u'2012-06-10': 388, u'2012-06-11': 389, u'2012-06-12': 389, u'2012-06-13': 389, u'2012-06-14': 389, u'2012-06-15': 389, u'2012-06-16': 389, u'2012-06-17': 389, u'2012-06-18': 390, u'2012-06-19': 390, u'2012-06-20': 390, u'2012-06-21': 390, u'2012-06-22': 390, u'2012-06-23': 390, u'2012-06-24': 390, u'2012-06-25': 391, u'2012-06-26': 391, u'2012-06-27': 391, u'2012-06-28': 391, u'2012-06-29': 391, u'2012-06-30': 391, u'2012-07-01': 391, u'2012-07-02': …

298 python pandas dataframe

5

如何检查pandas DataFrame是否为空？

如何检查大熊猫是否DataFrame为空？就我而言，如果终端DataFrame为空，我想在终端打印一些消息。

295 python pandas dataframe

11

如何访问向量中的最后一个值？

假设我有一个向量嵌套在一个或两个级别的数据框中。有没有使用该length()函数的快速而肮脏的方法来访问最后一个值？是PERL的$#特殊变种吗？所以我想要这样的东西： dat$vec1$vec2[$#] 代替 dat$vec1$vec2[length(dat$vec1$vec2)]

288 r dataframe vector

4

将DataFrame列类型从字符串转换为日期时间，格式为dd / mm / yyyy

如何将字符串的DataFrame列（以dd / mm / yyyy格式）转换为日期时间？

283 python pandas dataframe datetime-format python-datetime

8

在熊猫中将两个系列组合到一个DataFrame中

我有两个Series，s1并且s2索引相同（非连续）。如何合并s1并s2成为DataFrame中的两列，并将其中一个索引保留为第三列？

278 python pandas series dataframe

3

如何检查熊猫中是否存在列

有没有一种方法可以检查Pandas DataFrame中是否存在列？假设我有以下DataFrame： >>> import pandas as pd >>> from random import randint >>> df = pd.DataFrame({'A': [randint(1, 9) for x in xrange(10)], 'B': [randint(1, 9)*10 for x in xrange(10)], 'C': [randint(1, 9)*100 for x in xrange(10)]}) >>> df A B C 0 3 40 100 1 6 30 200 …

274 python pandas dataframe

21

熊猫轴是什么意思？

这是我的生成数据框的代码： import pandas as pd import numpy as np dff = pd.DataFrame(np.random.randn(1,2),columns=list('AB')) 然后我得到了数据框： +------------+---------+--------+ | | A | B | +------------+---------+--------- | 0 | 0.626386| 1.52325| +------------+---------+--------+ 当我输入命令时： dff.mean(axis=1) 我有： 0 1.074821 dtype: float64 根据熊猫的参考，axis = 1代表列，我希望命令的结果是 A 0.626386 B 1.523255 dtype: float64 所以这是我的问题：大熊猫轴是什么意思？

269 python pandas numpy dataframe

6

从R中的data.frame中删除整列

有谁知道如何从R中的data.frame中删除整个列？例如，如果我得到此data.frame： > head(data) chr genome region 1 chr1 hg19_refGene CDS 2 chr1 hg19_refGene exon 3 chr1 hg19_refGene CDS 4 chr1 hg19_refGene exon 5 chr1 hg19_refGene CDS 6 chr1 hg19_refGene exon 我想删除第二列。

267 r dataframe

10

如何在熊猫中获取数据框的列切片

我从CSV文件加载了一些机器学习数据。前两列是观测值，其余两列是要素。目前，我执行以下操作： data = pandas.read_csv('mydata.csv') 它给出了类似的东西： data = pandas.DataFrame(np.random.rand(10,5), columns = list('abcde')) 我想两个dataframes切片此数据框：包含列一个a和b和包含一个列c，d和e。不可能写这样的东西 observations = data[:'c'] features = data['c':] 我不确定最好的方法是什么。我需要一个pd.Panel吗？顺便说一下，我发现数据帧索引非常不一致：data['a']允许，但data[0]不允许。另一方面，data['a':]不允许，但允许data[0:]。是否有实际原因？如果列是由Int索引的，这确实令人困惑，因为data[0] != data[0:1]

264 python pandas numpy dataframe slice

18

如何将数据框列转换为数字类型？

261 r dataframe type-conversion

6

如何将熊猫数据添加到现有的csv文件中？

我想知道是否可以使用pandas to_csv()函数将数据框添加到现有的csv文件中。csv文件与加载的数据具有相同的结构。

259 python pandas csv dataframe

9

同时合并列表中的多个数据框

我有许多要合并的data.frames的列表。这里的问题是，每个data.frame不同的行数和列数的条款，但他们都有着关键变量（我打过电话"var1"，并"var2"在下面的代码）。如果data.frames在列方面是相同的，我只能这样做rbind，而plyr的rbind.fill将为此工作，但这些数据并非如此。由于该merge命令仅适用于2个data.frames，因此我转向Internet寻求想法。我从这里得到了这个，它在R 2.7.2中可以完美运行，这就是我当时的情况： merge.rec <- function(.list, ...){ if(length(.list)==1) return(.list[[1]]) Recall(c(list(merge(.list[[1]], .list[[2]], ...)), .list[-(1:2)]), ...) } 我会这样调用该函数： df <- merge.rec(my.list, by.x = c("var1", "var2"), by.y = c("var1", "var2"), all = T, suffixes=c("", "")) 但是在2.7.2之后的任何R版本中，包括2.11和2.12，此代码都会失败，并出现以下错误： Error in match.names(clabs, names(xi)) : names do not match previous names （顺便说一句，我在其他地方看到了对此错误的其他参考，没有解决方法）。有什么办法可以解决这个问题？

258 r list merge dataframe r-faq

15

Spark中DataFrame，Dataset和RDD之间的区别

我只是想知道Apache Spark中的RDD和DataFrame （Spark 2.0.0 DataFrame是的唯一类型别名Dataset[Row]）之间的区别是什么？您可以将一个转换为另一个吗？

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

Questions tagged «dataframe»