Questions tagged «dataframe»

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框”或“数据框”是几种语言用于此概念的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),但“表”是MATLAB和SQL。

17
检测并排除熊猫数据框中的异常值
我有一个只有几列的熊猫数据框。 现在我知道某些行是基于某个列值的离群值。 例如 “ Vol”列的所有值都在周围,12xx而一个值是4000(离群值)。 现在,我想排除具有Vol此类列的行。 因此,从本质上讲,我需要在数据帧上放置一个过滤器,以便我们选择某一列的值在均值例如3个标准差以内的所有行。 有什么优雅的方法可以做到这一点?

7
将x和y标签添加到熊猫图
假设我有以下代码使用pandas绘制了一些非常简单的图形: import pandas as pd values = [[1, 2], [2, 5]] df2 = pd.DataFrame(values, columns=['Type A', 'Type B'], index=['Index 1', 'Index 2']) df2.plot(lw=2, colormap='jet', marker='.', markersize=10, title='Video streaming dropout by category') 如何在保留我使用特定颜色图的能力的同时轻松设置x和y标签?我注意到,plot()pandas DataFrames 的包装没有采用任何特定于此的参数。

4
Python Pandas从一列字符串的数据选择中过滤掉Nan
如果不使用groupby,我将如何过滤掉没有的数据NaN? 假设我有一个矩阵,客户可以在其中填写“ N / A”,“ n / a”或其任何变体,而其他人则将其留空: import pandas as pd import numpy as np df = pd.DataFrame({'movie': ['thg', 'thg', 'mol', 'mol', 'lob', 'lob'], 'rating': [3., 4., 5., np.nan, np.nan, np.nan], 'name': ['John', np.nan, 'N/A', 'Graham', np.nan, np.nan]}) nbs = df['name'].str.extract('^(N/A|NA|na|n/a)') nms=df[(df['name'] != nbs) ] 输出: >>> nms movie …
190 python  pandas  dataframe 

4
将列添加到具有恒定值的数据框
我有一个现有的数据框,我需要添加一个额外的列,每行将包含相同的值。 现有的df: Date, Open, High, Low, Close 01-01-2015, 565, 600, 400, 450 新的df: Name, Date, Open, High, Low, Close abc, 01-01-2015, 565, 600, 400, 450 我知道如何追加现有的series / dataframe列。但这是另一种情况,因为我所需要的只是添加“名称”列,并将每一行设置为相同的值,在本例中为“ abc”。
186 python  pandas  dataframe 

8
如何制作数据帧列表?
如何制作数据帧列表,以及如何从列表中访问每个数据帧? 例如,如何将这些数据框放在列表中? d1 <- data.frame(y1 = c(1, 2, 3), y2 = c(4, 5, 6)) d2 <- data.frame(y1 = c(3, 2, 1), y2 = c(6, 5, 4))
185 r  list  dataframe  r-faq 



3
如何获取熊猫DataFrame的最后N行?
我有熊猫数据帧df1和df2(df1是vanila数据帧,df2由'STK_ID'和'RPT_Date'索引): >>> df1 STK_ID RPT_Date TClose sales discount 0 000568 20060331 3.69 5.975 NaN 1 000568 20060630 9.14 10.143 NaN 2 000568 20060930 9.49 13.854 NaN 3 000568 20061231 15.84 19.262 NaN 4 000568 20070331 17.00 6.803 NaN 5 000568 20070630 26.31 12.940 NaN 6 000568 20070930 39.12 19.977 NaN …
175 python  pandas  dataframe 

1
如何使用“ OR”组合多个条件以子集数据帧?
我在R中有一个data.frame。我想在两个不同的列上尝试两个不同的条件,但我希望这些条件包括在内。因此,我想使用“或”来组合条件。当我想使用“ AND”条件时,我已经使用以下语法取得了很多成功。 my.data.frame <- data[(data$V1 > 2) & (data$V2 < 4), ] 但是我不知道上面如何使用“ OR”。
174 r  conditional  dataframe 

8
对于R数据框中的每一行
我有一个数据框,对于该数据框的每一行,我必须进行一些复杂的查找并将一些数据附加到文件中。 dataFrame包含用于生物学研究的96孔板中选定孔的科学结果,因此我想做以下事情: for (well in dataFrame) { wellName <- well$name # string like "H1" plateName <- well$plate # string like "plate67" wellID <- getWellID(wellName, plateName) cat(paste(wellID, well$value1, well$value2, sep=","), file=outputFile) } 在我的程序世界中,我会做类似的事情: for (row in dataFrame) { #look up stuff using data from the row #write stuff to the file …
173 r  dataframe  rows 

8
如何在没有索引的情况下打印Pandas DataFrame
我想打印整个数据框,但是我不想打印索引 此外,一列是日期时间类型,我只想打印时间,而不是日期。 数据框如下所示: User ID Enter Time Activity Number 0 123 2014-07-08 00:09:00 1411 1 123 2014-07-08 00:18:00 893 2 123 2014-07-08 00:49:00 1041 我希望它打印为 User ID Enter Time Activity Number 123 00:09:00 1411 123 00:18:00 893 123 00:49:00 1041

12
在数据框的每一行上调用类似应用的函数,每一行中都有多个参数
我有一个多列的数据框。对于数据框中的每一行,我想在该行上调用一个函数,并且该函数的输入正在使用该行中的多个列。例如,假设我有此数据和接受两个参数的testFunc: > df <- data.frame(x=c(1,2), y=c(3,4), z=c(5,6)) > df x y z 1 1 3 5 2 2 4 6 > testFunc <- function(a, b) a + b 假设我想将此testFunc应用于x和z列。因此,对于第1行,我想要1 + 5,对于第2行,我想要2 + 6。是否有一种无需编写for循环就能做到这一点的方法,也许可以应用apply函数族吗? 我尝试了这个: > df[,c('x','z')] x z 1 1 5 2 2 6 > lapply(df[,c('x','z')], testFunc) Error in a …
168 r  dataframe 

7
将Pandas DataFrame转换为字典
我有一个包含四列的DataFrame。我想将此DataFrame转换为python字典。我希望第一列keys的元素为,同一行中其他列的元素为values。 数据框: ID A B C 0 p 1 3 2 1 q 4 3 2 2 r 4 0 9 输出应如下所示: 字典: {'p': [1,3,2], 'q': [4,3,2], 'r': [4,0,9]}

6
熊猫DataFrame Groupby两列并获取计数
我有以下格式的熊猫数据框: df = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list('AAABBBBABCBDDD'), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8], ['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w'],['1','3','3','2','4','2','5','3','6','3','5','1','1','1']]).T df.columns = ['col1','col2','col3','col4','col5'] df: col1 col2 col3 col4 col5 0 1.1 A 1.1 x/y/z 1 1 1.1 A 1.7 x/y 3 2 1.1 A 2.5 x/y/z/n 3 3 2.6 B 2.6 x/u 2 …
165 python  pandas  dataframe 

7
如何使用列的格式字符串显示浮点数的pandas DataFrame?
我想使用print()和IPython 显示给定格式的熊猫数据框display()。例如: df = pd.DataFrame([123.4567, 234.5678, 345.6789, 456.7890], index=['foo','bar','baz','quux'], columns=['cost']) print df cost foo 123.4567 bar 234.5678 baz 345.6789 quux 456.7890 我想以某种方式强迫这样做 cost foo $123.46 bar $234.57 baz $345.68 quux $456.79 无需修改数据本身或创建副本,只需更改其显示方式即可。 我怎样才能做到这一点?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.