Questions tagged «pandas»

Pandas是用于数据处理和分析的Python库,例如,在统计,实验科学结果,计量经济学或金融学中常见的数据框,多维时间序列和横截面数据集。Pandas是Python中主要的数据科学库之一。

6
熊猫中的大型持久性DataFrame
我正在探索以长期的SAS用户身份切换到python和pandas的问题。 但是,当今天运行一些测试时,令我惊讶的是python在尝试处理pandas.read_csv()128mb的csv文件时内存不足。它具有大约200,000行和200列的大多数数字数据。 使用SAS,我可以将csv文件导入SAS数据集,并且该文件可以与硬盘一样大。 有类似的东西pandas吗? 我经常处理大型文件,但是无法访问分布式计算网络。
91 python  pandas  sas 

6
熊猫数据框/ numpy数组“轴”定义中的歧义
对于如何定义python轴以及它们是否引用DataFrame的行或列,我一直感到困惑。考虑下面的代码: >>> df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["col1", "col2", "col3", "col4"]) >>> df col1 col2 col3 col4 0 1 1 1 1 1 2 2 2 2 2 3 3 3 3 因此,如果调用df.mean(axis=1),我们将在各行中获得均值: >>> df.mean(axis=1) 0 1 1 2 2 3 …

6
从多索引熊猫中选择
我有一个带有列“ A”和“ B”的多索引数据框。 有没有一种方法可以通过在多索引的一列上进行过滤而不选择将索引重置为单列索引来选择行? 例如。 # has multi-index (A,B) df #can I do this? I know this doesn't work because the index is multi-index so I need to specify a tuple df.ix[df.A ==1]

2
使用Pandas读取制表符分隔的文件-在Windows上适用,但在Mac上不适用
我一直在Windows中使用Pandas / Python读取制表符分隔的数据文件,没有任何问题。数据文件的前三行包含注释,然后带有标题。 df = pd.read_csv(myfile,sep='\t',skiprows=(0,1,2),header=(0)) 我现在正在尝试使用Mac读取此文件。(我第一次在Mac上使用Python。)出现以下错误。 pandas.parser.CParserError: Error tokenizing data. C error: Expected 1 fields in line 8, saw 39 如果将read_csv的error_bad_lines参数设置为False,则会得到以下信息,该信息一直持续到最后一行的末尾。 Skipping line 8: expected 1 fields, saw 39 Skipping line 9: expected 1 fields, saw 125 Skipping line 10: expected 1 fields, saw 125 Skipping line 11: expected …

1
熊猫“ Freq”标签的文档在哪里?[关闭]
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow的主题。 2年前关闭。 改善这个问题 我是Pandas的新手,正在尝试使用date_range。我遇到了各种各样的美好事物freq,例如BME和BMS而且我希望能够快速查找适当的字符串以得到我想要的东西。昨天我在文档中的某个地方找到了一个格式良好的表,但是该表的标题太钝了,以至于我今天无法使用搜索再次找到它。

7
如何在不写入磁盘的情况下将AWS S3上的文本文件导入熊猫
我有一个保存在S3上的文本文件,它是一个制表符分隔的表。我想将其加载到熊猫中,但由于我在heroku服务器上运行,因此无法先保存它。这是我到目前为止所拥有的。 import io import boto3 import os import pandas as pd os.environ["AWS_ACCESS_KEY_ID"] = "xxxxxxxx" os.environ["AWS_SECRET_ACCESS_KEY"] = "xxxxxxxx" s3_client = boto3.client('s3') response = s3_client.get_object(Bucket="my_bucket",Key="filename.txt") file = response["Body"] pd.read_csv(file, header=14, delimiter="\t", low_memory=False) 错误是 OSError: Expected file path name or file-like object, got <class 'bytes'> type 如何将响应主体转换为大熊猫可以接受的格式? pd.read_csv(io.StringIO(file), header=14, delimiter="\t", low_memory=False) returns TypeError: …

2
如何按索引对Pandas DataFrame排序?
当有如下所示的DataFrame时: import pandas as pd df = pd.DataFrame([1, 1, 1, 1, 1], index=[100, 29, 234, 1, 150], columns=['A']) 如何完整地使用索引和列值的每种组合按索引对该数据帧进行排序?
91 python  pandas 

9
导入CSV文件作为pandas DataFrame
将CSV文件读入pandas DataFrame的Python方法是什么(然后可以将其用于统计操作,可以具有不同类型的列等)? 我的CSV文件"value.txt"具有以下内容: Date,"price","factor_1","factor_2" 2012-06-11,1600.20,1.255,1.548 2012-06-12,1610.02,1.258,1.554 2012-06-13,1618.07,1.249,1.552 2012-06-14,1624.40,1.253,1.556 2012-06-15,1626.15,1.258,1.552 2012-06-16,1626.15,1.263,1.558 2012-06-17,1626.15,1.264,1.572 在R中,我们将使用以下命令读取此文件: price <- read.csv("value.txt") 这将返回R data.frame: > price <- read.csv("value.txt") > price Date price factor_1 factor_2 1 2012-06-11 1600.20 1.255 1.548 2 2012-06-12 1610.02 1.258 1.554 3 2012-06-13 1618.07 1.249 1.552 4 2012-06-14 1624.40 1.253 1.556 5 2012-06-15 1626.15 …
90 python  pandas  csv  dataframe 

5
将Django QuerySet转换为pandas DataFrame
我将DataFrame如下将Django QuerySet转换为pandas : qs = SomeModel.objects.select_related().filter(date__year=2012) q = qs.values('date', 'OtherField') df = pd.DataFrame.from_records(q) 它有效,但是有没有更有效的方法?
90 python  django  pandas 

10
向熊猫DataFrame添加元信息/元数据
是否可以向熊猫DataFrame添加一些元信息/元数据? 例如,用于测量数据的仪器名称,负责的仪器等。 一种解决方法是用该信息创建一列,但是在每一行中存储一条信息似乎很浪费!
90 python  pandas 

4
熊猫数据框按日期时间月份分组
考虑一个csv文件: string,date,number a string,2/5/11 9:16am,1.0 a string,3/5/11 10:44pm,2.0 a string,4/22/11 12:07pm,3.0 a string,4/22/11 12:10pm,4.0 a string,4/29/11 11:59am,1.0 a string,5/2/11 1:41pm,2.0 a string,5/2/11 2:02pm,3.0 a string,5/2/11 2:56pm,4.0 a string,5/2/11 3:00pm,5.0 a string,5/2/14 3:02pm,6.0 a string,5/2/14 3:18pm,7.0 我可以阅读一下,然后将date列重新格式化为datetime格式: b=pd.read_csv('b.dat') b['date']=pd.to_datetime(b['date'],format='%m/%d/%y %I:%M%p') 我一直在尝试按月对数据进行分组。似乎应该有一种明显的方式来访问月份并以此进行分组。但是我似乎做不到。有人知道吗? 我目前正在尝试按日期重新建立索引: b.index=b['date'] 我可以这样访问月份: b.index.month 但是我似乎找不到按月汇总的函数。

5
从嵌套字典中的项目构造pandas DataFrame
假设我有一个嵌套的字典'user_dict',其结构为: 级别1: UserId(长整数) 级别2:类别(字符串) 级别3:各种属性(浮点数,整数等)。 例如,该词典的条目为: user_dict[12] = { "Category 1": {"att_1": 1, "att_2": "whatever"}, "Category 2": {"att_1": 23, "att_2": "another"}} 每个项目都user_dict具有相同的结构,并且user_dict包含大量项目,我希望将它们提供给pandas DataFrame,从而根据属性构造系列。在这种情况下,分层索引对于此目的将是有用的。 具体来说,我的问题是是否存在一种方法来帮助DataFrame构造函数理解应该从字典中“级别3”的值构建该系列的方法? 如果我尝试类似的方法: df = pandas.DataFrame(users_summary) “级别1”(用户ID)中的项目被视为列,这与我要实现的(将用户ID作为索引)相反。 我知道我可以在对字典条目进行迭代之后构造序列,但是如果有更直接的方法,这将非常有用。一个类似的问题是询问是否可以从文件中列出的json对象构造pandas DataFrame。

9
相当于JavaScript中的Python Pandas
使用此CSV示例: Source,col1,col2,col3 foo,1,2,3 bar,3,4,5 我使用Pandas的标准方法是: 解析CSV 选择数据框中的列(col1和col3) 处理列(例如,将col1和的值平均化 col3) 是否有一个像Pandas这样的JavaScript库?

1
将功能有效地并行应用到分组的熊猫DataFrame
我经常需要将函数应用于非常大的组DataFrame(混合数据类型),并想利用多个内核。 我可以从组中创建一个迭代器并使用多处理模块,但是这样做效率不高,因为每个组和函数的结果都必须经过腌制才能在进程之间进行消息传递。 有什么方法可以避免酸洗,甚至避免DataFrame完全复制?看起来多处理模块的共享内存功能仅限于numpy数组。还有其他选择吗?

8
Pandas / Pyplot中的散点图:如何按类别绘制
我正在尝试使用Pandas DataFrame对象在pyplot中制作一个简单的散点图,但想要一种有效的方式来绘制两个变量,但要用第三列(键)来指定符号。我已经尝试过使用df.groupby的各种方法,但是没有成功。下面是一个示例df脚本。这会根据“ key1”为标记着色,但是我想看到带有“ key1”类别的图例。我靠近吗?谢谢。 import numpy as np import pandas as pd import matplotlib.pyplot as plt df = pd.DataFrame(np.random.normal(10,1,30).reshape(10,3), index = pd.date_range('2010-01-01', freq = 'M', periods = 10), columns = ('one', 'two', 'three')) df['key1'] = (4,4,4,6,6,6,8,8,8,8) fig1 = plt.figure(1) ax1 = fig1.add_subplot(111) ax1.scatter(df['one'], df['two'], marker = 'o', c = df['key1'], …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.