Questions tagged «pandas»

Pandas是用于数据处理和分析的Python库,例如,在统计,实验科学结果,计量经济学或金融学中常见的数据框,多维时间序列和横截面数据集。Pandas是Python中主要的数据科学库之一。

9
设置熊猫数据框中的列顺序
有没有一种方法可以根据我的个人喜好(即不按字母或数字排序,而是更像遵循某些约定)对熊猫数据框中的列进行重新排序? 简单的例子: frame = pd.DataFrame({ 'one thing':[1,2,3,4], 'second thing':[0.1,0.2,1,2], 'other thing':['a','e','i','o']}) 产生这个: one thing other thing second thing 0 1 a 0.1 1 2 e 0.2 2 3 i 1.0 3 4 o 2.0 但是,我想这样: one thing second thing other thing 0 1 0.1 a 1 2 0.2 e 2 …
103 python  pandas 


6
如何使用iPython中的pandas库读取.xlsx文件?
我想使用python的Pandas库读取.xlsx文件,并将数据移植到postgreSQL表中。 到目前为止,我所能做的就是: import pandas as pd data = pd.ExcelFile("*File Name*") 现在,我知道该步骤已成功执行,但是我想知道如何解析已读取的excel文件,以便可以了解excel中的数据如何映射到变量数据中的数据。 我了解到,如果我没有记错的话,数据就是一个Dataframe对象。因此,我如何解析此dataframe对象以逐行提取每一行。

6
创建零填充的熊猫数据框
创建给定大小的零填充熊猫数据框的最佳方法是什么? 我用过了: zero_data = np.zeros(shape=(len(data),len(feature_list))) d = pd.DataFrame(zero_data, columns=feature_list) 有更好的方法吗?
103 python  pandas  dataframe 

8
为什么在Alpine Linux上安装Pandas会花费很多时间
我注意到,使用基本操作系统Alpine与CentOS或Debian在Docker容器中安装Pandas和Numpy(它的依赖项)需要花费更长的时间。我在下面创建了一个小测试来演示时差。除了Alpine用来更新和下载构建依赖项以安装Pandas和Numpy的几秒钟之外,为什么setup.py花费的时间比Debian的安装时间多70倍? 是否有任何方法可以使用Alpine作为基础映像来加快安装速度,或者有另一个与Alpine大小相当的基础映像更适合用于Pandas和Numpy等软件包? Dockerfile.debian FROM python:3.6.4-slim-jessie RUN pip install pandas 使用Pandas和Numpy构建Debian图像: [PandasDockerTest] time docker build -t debian-pandas -f Dockerfile.debian . --no-cache Sending build context to Docker daemon 3.072kB Step 1/2 : FROM python:3.6.4-slim-jessie ---> 43431c5410f3 Step 2/2 : RUN pip install pandas ---> Running in 2e4c030f8051 Collecting pandas Downloading pandas-0.22.0-cp36-cp36m-manylinux1_x86_64.whl (26.2MB) …
103 pandas  numpy  docker  alpine 

7
使用熊猫比较两列
以此为起点: a = [['10', '1.2', '4.2'], ['15', '70', '0.03'], ['8', '5', '0']] df = pd.DataFrame(a, columns=['one', 'two', 'three']) Out[8]: one two three 0 10 1.2 4.2 1 15 70 0.03 2 8 5 0 我想if在熊猫中使用类似声明的内容。 if df['one'] >= df['two'] and df['one'] <= df['three']: df['que'] = df['one'] 基本上,通过if语句检查每一行,然后创建新列。 文档说要使用,.all但没有示例...

2
如何选择特定列中带有NaN的行?
给定此数据框,如何仅选择“ Col2”等于的行NaN? In [56]: df = pd.DataFrame([range(3), [0, np.NaN, 0], [0, 0, np.NaN], range(3), range(3)], columns=["Col1", "Col2", "Col3"]) In [57]: df Out[57]: 0 1 2 0 0 1 2 1 0 NaN 0 2 0 0 NaN 3 0 1 2 4 0 1 2 结果应该是这样的: Out[57]: 0 1 2 …
103 python  pandas 

5
根据if-elif-else条件创建新列
我有一个DataFrame df: A B a 2 2 b 3 1 c 1 3 我想根据以下条件创建一个新列: 如果行 A == B: 0 如果行A > B: 1 如果行 A < B: -1 因此,鉴于上表,应为: A B C a 2 2 0 b 3 1 1 c 1 3 -1 对于典型的if else情况np.where(df.A > df.B, 1, -1),pandas是否提供一种特殊的语法来一步解决我的问题(无需创建3个新列,然后合并结果)?


8
在Pandas数据框中转换分类数据
我有一个带有这种类型的数据的数据框(列太多): col1 int64 col2 int64 col3 category col4 category col5 category 列看起来像这样: Name: col3, dtype: category Categories (8, object): [B, C, E, G, H, N, S, W] 我想像这样将列中的所有值转换为整数: [1, 2, 3, 4, 5, 6, 7, 8] 我通过以下方法解决了这一问题: dataframe['c'] = pandas.Categorical.from_array(dataframe.col3).codes 现在,我的数据框中有两列-旧列col3和新c列,需要删除旧列。 那是不好的做法。它是可行的,但是在我的数据框中有很多列,我不想手动进行。 pythonic如何巧妙地实现呢?
102 python  pandas 

12
在熊猫数据框中删除全零的行
我可以使用pandas dropna()功能来删除将部分或全部列设置为NA的行。是否存在用于删除所有列的值为0的行的等效函数? P kt b tt mky depth 1 0 0 0 0 0 2 0 0 0 0 0 3 0 0 0 0 0 4 0 0 0 0 0 5 1.1 3 4.5 2.3 9.0 在此示例中,我们要删除数据帧的前4行。 谢谢!
102 python  pandas 

7
使用matplotlib为不同的分类级别绘制不同的颜色
我有此数据帧diamonds,它由被等变量(carat, price, color),我想画的散点图price来carat为每个color,这意味着不同的color具有在图中不同的颜色。 这很容易 R与ggplot: ggplot(aes(x=carat, y=price, color=color), #by setting color=color, ggplot automatically draw in different colors data=diamonds) + geom_point(stat='summary', fun.y=median) 我不知道如何在Python中使用matplotlib? PS: 我知道辅助绘图软件包,例如seaborn和ggplot for python,我不喜欢它们,只是想了解是否有可能matplotlib单独使用; P 做这项工作。

4
将具有恒定值的列添加到pandas数据框[重复]
这个问题已经在这里有了答案: 将列添加到具有恒定值的数据框 (4个答案) 4个月前关闭。 给定一个DataFrame: np.random.seed(0) df = pd.DataFrame(np.random.randn(3, 3), columns=list('ABC'), index=[1, 2, 3]) df A B C 1 1.764052 0.400157 0.978738 2 2.240893 1.867558 -0.977278 3 0.950088 -0.151357 -0.103219 添加包含常量值(例如0)的新列的最简单方法是什么? A B C new 1 1.764052 0.400157 0.978738 0 2 2.240893 1.867558 -0.977278 0 3 0.950088 -0.151357 -0.103219 0 …
102 python  pandas 

2
高效地检查Python / numpy / pandas中的任意对象是否为NaN?
我的numpy数组用于np.nan指定缺失值。当我遍历数据集时,我需要检测这些缺失值并以特殊方式处理它们。 我天真地使用过numpy.isnan(val),除非val不在所支持的类型子集中,numpy.isnan()。例如,字符串字段中可能会丢失数据,在这种情况下,我得到: >>> np.isnan('some_string') Traceback (most recent call last): File "<stdin>", line 1, in <module> TypeError: Not implemented for this type 除了编写昂贵的包装程序以捕获异常并返回之外 False,还有没有办法优雅而有效地处理此问题?
101 python  numpy  pandas 

6
如何跨熊猫的多个数据框列“选择不同”?
我正在寻找一种等效于SQL的方法 SELECT DISTINCT col1, col2 FROM dataframe_table pandas sql比较与无关distinct。 .unique() 仅适用于单个列,因此我想我可以合并这些列,或将它们放在列表/元组中并进行比较,但这似乎是熊猫应该以更原生的方式进行的操作。 我是否缺少明显的东西,还是没有办法做到这一点?
101 python  pandas 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.