程序设计 dataframe

5

我有一个熊猫数据框，我希望将其分为3组。我知道使用train_test_split从sklearn.cross_validation，一个可以在两个集（训练集和测试）分割数据。但是，我找不到将数据分为三组的任何解决方案。最好是，我想拥有原始数据的索引。我知道一种解决方法是使用train_test_split两次并以某种方式调整索引。但是，是否存在更标准/内置的方式将数据分为3组而不是2组？

145 pandas numpy dataframe machine-learning scikit-learn

2

在熊猫MultiIndex DataFrame中选择行

选择/过滤索引为MultiIndex的数据框的行的最常见的熊猫方法是什么？根据单个值/标签切片根据一个或多个级别的多个标签进行切片过滤布尔条件和表达式哪种方法在什么情况下适用为简单起见的假设：输入数据框没有重复的索引键下面的输入数据框只有两个级别。（此处显示的大多数解决方案一般都适用于N级）输入示例： mux = pd.MultiIndex.from_arrays([ list('aaaabbbbbccddddd'), list('tuvwtuvwtuvwtuvw') ], names=['one', 'two']) df = pd.DataFrame({'col': np.arange(len(mux))}, mux) col one two a t 0 u 1 v 2 w 3 b t 4 u 5 v 6 w 7 t 8 c u 9 v 10 …

145 python pandas dataframe slice multi-index

7

熊猫数据框fillna（）仅存在一些列

我试图只对某些列子集用0填充Pandas数据框中的任何值。当我做： import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df 输出： a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 3.0 NaN 7.0 3 NaN 6.0 8.0 a b c 0 1.0 4.0 0.0 1 2.0 5.0 0.0 2 3.0 0.0 7.0 …

144 python pandas dataframe

7

如何在Pandas数据框中查找哪些列包含任何NaN值

给定一个熊猫数据框，其中包含可能在此处和此处散布的NaN值：问题：如何确定哪些列包含NaN值？特别是，可以获取包含NaN的列名称的列表吗？

144 python pandas dataframe nan

8

如何选择每个组的第一行？

我有一个生成的DataFrame，如下所示： df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) 结果如下： +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| 5.3| | 2| cat56| 39.6| | 2| …

143 sql scala apache-spark dataframe apache-spark-sql

6

如何将pandas DataFrame的第一列作为系列？

我试过了： x=pandas.DataFrame(...) s = x.take([0], axis=1) 并s获取一个DataFrame，而不是一个Series。

142 python dataframe pandas series

14

确定列中NA值的数量

我想计算NA数据框列中的值数量。假设我的数据框被调用df，而我正在考虑的列的名称为col。我提出的方法如下： sapply(df$col, function(x) sum(length(which(is.na(x))))) 这是一种很好/最有效的方法吗？

142 r dataframe

8

重命名熊猫DataFrame索引

我有一个没有标头的csv文件，带有DateTime索引。我想重命名索引和列名，但是使用df.rename（）仅重命名了列名。虫子？我正在使用0.12.0版本 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 2002-06-30 0.093000 2002-07-04 0.098667 In [4]: df.rename(index={0:'Date'}, columns={1:'SM'}, inplace=True) In [5]: df.head() Out[5]: SM 0 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 2002-06-30 0.093000 2002-07-04 0.098667

142 python pandas dataframe

9

如何用熊猫DataFrame中的先前值替换NaN？

假设我有一个带有NaNs 的DataFrame ： >>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]]) >>> df 0 1 2 0 1 2 3 1 4 NaN NaN 2 NaN NaN 9 我需要做的是用上面同一列中NaN的第一个非NaN值替换每个值。假设第一行永远不会包含NaN。因此，对于前面的示例，结果将是 0 1 2 0 1 2 3 1 4 2 3 2 …

140 python python-3.x pandas dataframe nan

3

如何在R中保存data.frame？

我在R中创建了一个不是很大的data.frame，但是要花很多时间才能构建。我要将其另存为文件，然后可以再次在R中打开该文件吗？

137 r dataframe

2

如何在Spark DataFrame中添加常量列？

我想在中添加DataFrame具有任意值的列（每行相同）。使用withColumn以下内容时出现错误： dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, name=u'Alice', age2=4), Row(age=5, name=u'Bob', age2=7)] 1167 """ -> 1168 return self.select('*', col.alias(colName)) 1169 1170 @ignore_unicode_prefix AttributeError: 'int' object …

137 python apache-spark dataframe pyspark apache-spark-sql

7

查找名称包含特定字符串的列

我有一个带有列名称的数据框，我想找到一个包含特定字符串但与之不完全匹配的数据框。我在寻找'spike'列名喜欢'spike-2'，'hey spike'，'spiked-in'（该'spike'部分总是连续）。我希望列名以字符串或变量的形式返回，因此我以后可以使用df['name']或df[name]照常访问列。我试图找到方法，但没有成功。有小费吗？

137 python python-3.x string pandas dataframe

5

熊猫数据框获取每个组的第一行

我有DataFrame下面的熊猫。 df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) 我想通过[“ id”，“ value”]对此分组，并获得每个分组的第一行。 id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 first 6 3 third 7 3 fourth 8 3 fifth 9 4 second 10 4 fifth …

137 python pandas dataframe

6

用sklearn缩放的pandas数据框列

我有一个带有混合类型列的pandas数据框，我想将sklearn的min_max_scaler应用于某些列。理想情况下，我想就地进行这些转换，但还没有找到一种方法来进行。我编写了以下有效的代码： import pandas as pd import numpy as np from sklearn import preprocessing scaler = preprocessing.MinMaxScaler() dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],'B':[103.02,107.26,110.35,114.23,114.68], 'C':['big','small','big','small','small']}) min_max_scaler = preprocessing.MinMaxScaler() def scaleColumns(df, cols_to_scale): for col in cols_to_scale: df[col] = pd.DataFrame(min_max_scaler.fit_transform(pd.DataFrame(dfTest[col])),columns=[col]) return df dfTest A B C 0 14.00 103.02 big 1 90.20 107.26 small 2 90.95 110.35 …

137 python pandas scikit-learn dataframe

4

创建两个熊猫数据框列的字典的最有效方法是什么？

组织以下熊猫数据框的最有效方法是什么：数据= Position Letter 1 a 2 b 3 c 4 d 5 e 变成字典一样alphabet[1 : 'a', 2 : 'b', 3 : 'c', 4 : 'd', 5 : 'e']？

136 python dictionary pandas dataframe

Questions tagged «dataframe»