程序设计 dataframe

17

我有一个只有几列的熊猫数据框。现在我知道某些行是基于某个列值的离群值。例如 “ Vol”列的所有值都在周围，12xx而一个值是4000（离群值）。现在，我想排除具有Vol此类列的行。因此，从本质上讲，我需要在数据帧上放置一个过滤器，以便我们选择某一列的值在均值例如3个标准差以内的所有行。有什么优雅的方法可以做到这一点？

196 python pandas filtering dataframe outliers

7

将x和y标签添加到熊猫图

假设我有以下代码使用pandas绘制了一些非常简单的图形： import pandas as pd values = [[1, 2], [2, 5]] df2 = pd.DataFrame(values, columns=['Type A', 'Type B'], index=['Index 1', 'Index 2']) df2.plot(lw=2, colormap='jet', marker='.', markersize=10, title='Video streaming dropout by category') 如何在保留我使用特定颜色图的能力的同时轻松设置x和y标签？我注意到，plot()pandas DataFrames 的包装没有采用任何特定于此的参数。

195 python pandas dataframe matplotlib

4

Python Pandas从一列字符串的数据选择中过滤掉Nan

如果不使用groupby，我将如何过滤掉没有的数据NaN？假设我有一个矩阵，客户可以在其中填写“ N / A”，“ n / a”或其任何变体，而其他人则将其留空： import pandas as pd import numpy as np df = pd.DataFrame({'movie': ['thg', 'thg', 'mol', 'mol', 'lob', 'lob'], 'rating': [3., 4., 5., np.nan, np.nan, np.nan], 'name': ['John', np.nan, 'N/A', 'Graham', np.nan, np.nan]}) nbs = df['name'].str.extract('^(N/A|NA|na|n/a)') nms=df[(df['name'] != nbs) ] 输出： >>> nms movie …

190 python pandas dataframe

4

将列添加到具有恒定值的数据框

我有一个现有的数据框，我需要添加一个额外的列，每行将包含相同的值。现有的df： Date, Open, High, Low, Close 01-01-2015, 565, 600, 400, 450 新的df： Name, Date, Open, High, Low, Close abc, 01-01-2015, 565, 600, 400, 450 我知道如何追加现有的series / dataframe列。但这是另一种情况，因为我所需要的只是添加“名称”列，并将每一行设置为相同的值，在本例中为“ abc”。

186 python pandas dataframe

8

如何制作数据帧列表？

如何制作数据帧列表，以及如何从列表中访问每个数据帧？例如，如何将这些数据框放在列表中？ d1 <- data.frame(y1 = c(1, 2, 3), y2 = c(4, 5, 6)) d2 <- data.frame(y1 = c(3, 2, 1), y2 = c(6, 5, 4))

185 r list dataframe r-faq

6

如何检索Pandas数据框中的列数？

您如何以编程方式检索熊猫数据框中的列数？我希望有这样的东西： df.num_columns

184 python pandas dataframe

4

重命名熊猫中的特定列

我有一个名为的数据框data。如何重命名唯一的一列标题？例如gdp到log(gdp)？ data = y gdp cap 0 1 2 5 1 2 3 9 2 8 7 2 3 3 4 7 4 6 7 7 5 4 8 3 6 8 2 8 7 9 9 10 8 6 6 4 9 10 10 7

180 python pandas dataframe rename

3

如何获取熊猫DataFrame的最后N行？

我有熊猫数据帧df1和df2（df1是vanila数据帧，df2由'STK_ID'和'RPT_Date'索引）： >>> df1 STK_ID RPT_Date TClose sales discount 0 000568 20060331 3.69 5.975 NaN 1 000568 20060630 9.14 10.143 NaN 2 000568 20060930 9.49 13.854 NaN 3 000568 20061231 15.84 19.262 NaN 4 000568 20070331 17.00 6.803 NaN 5 000568 20070630 26.31 12.940 NaN 6 000568 20070930 39.12 19.977 NaN …

175 python pandas dataframe

1

如何使用“ OR”组合多个条件以子集数据帧？

我在R中有一个data.frame。我想在两个不同的列上尝试两个不同的条件，但我希望这些条件包括在内。因此，我想使用“或”来组合条件。当我想使用“ AND”条件时，我已经使用以下语法取得了很多成功。 my.data.frame <- data[(data$V1 > 2) & (data$V2 < 4), ] 但是我不知道上面如何使用“ OR”。

174 r conditional dataframe

8

对于R数据框中的每一行

我有一个数据框，对于该数据框的每一行，我必须进行一些复杂的查找并将一些数据附加到文件中。 dataFrame包含用于生物学研究的96孔板中选定孔的科学结果，因此我想做以下事情： for (well in dataFrame) { wellName <- well$name # string like "H1" plateName <- well$plate # string like "plate67" wellID <- getWellID(wellName, plateName) cat(paste(wellID, well$value1, well$value2, sep=","), file=outputFile) } 在我的程序世界中，我会做类似的事情： for (row in dataFrame) { #look up stuff using data from the row #write stuff to the file …

173 r dataframe rows

8

如何在没有索引的情况下打印Pandas DataFrame

我想打印整个数据框，但是我不想打印索引此外，一列是日期时间类型，我只想打印时间，而不是日期。数据框如下所示： User ID Enter Time Activity Number 0 123 2014-07-08 00:09:00 1411 1 123 2014-07-08 00:18:00 893 2 123 2014-07-08 00:49:00 1041 我希望它打印为 User ID Enter Time Activity Number 123 00:09:00 1411 123 00:18:00 893 123 00:49:00 1041

170 python datetime pandas dataframe

12

在数据框的每一行上调用类似应用的函数，每一行中都有多个参数

我有一个多列的数据框。对于数据框中的每一行，我想在该行上调用一个函数，并且该函数的输入正在使用该行中的多个列。例如，假设我有此数据和接受两个参数的testFunc： > df <- data.frame(x=c(1,2), y=c(3,4), z=c(5,6)) > df x y z 1 1 3 5 2 2 4 6 > testFunc <- function(a, b) a + b 假设我想将此testFunc应用于x和z列。因此，对于第1行，我想要1 + 5，对于第2行，我想要2 + 6。是否有一种无需编写for循环就能做到这一点的方法，也许可以应用apply函数族吗？我尝试了这个： > df[,c('x','z')] x z 1 1 5 2 2 6 > lapply(df[,c('x','z')], testFunc) Error in a …

168 r dataframe

7

将Pandas DataFrame转换为字典

我有一个包含四列的DataFrame。我想将此DataFrame转换为python字典。我希望第一列keys的元素为，同一行中其他列的元素为values。数据框： ID A B C 0 p 1 3 2 1 q 4 3 2 2 r 4 0 9 输出应如下所示：字典： {'p': [1,3,2], 'q': [4,3,2], 'r': [4,0,9]}

168 python pandas dictionary dataframe

6

熊猫DataFrame Groupby两列并获取计数

我有以下格式的熊猫数据框： df = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list('AAABBBBABCBDDD'), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8], ['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w'],['1','3','3','2','4','2','5','3','6','3','5','1','1','1']]).T df.columns = ['col1','col2','col3','col4','col5'] df： col1 col2 col3 col4 col5 0 1.1 A 1.1 x/y/z 1 1 1.1 A 1.7 x/y 3 2 1.1 A 2.5 x/y/z/n 3 3 2.6 B 2.6 x/u 2 …

165 python pandas dataframe

7

如何使用列的格式字符串显示浮点数的pandas DataFrame？

我想使用print()和IPython 显示给定格式的熊猫数据框display()。例如： df = pd.DataFrame([123.4567, 234.5678, 345.6789, 456.7890], index=['foo','bar','baz','quux'], columns=['cost']) print df cost foo 123.4567 bar 234.5678 baz 345.6789 quux 456.7890 我想以某种方式强迫这样做 cost foo $123.46 bar $234.57 baz $345.68 quux $456.79 无需修改数据本身或创建副本，只需更改其显示方式即可。我怎样才能做到这一点？

165 python python-2.7 pandas ipython dataframe

Questions tagged «dataframe»