Questions tagged «pandas»

Pandas是用于数据处理和分析的Python库,例如,在统计,实验科学结果,计量经济学或金融学中常见的数据框,多维时间序列和横截面数据集。Pandas是Python中主要的数据科学库之一。

3
将pandas dataframe列导入为字符串而不是int
我想将以下csv作为字符串而不是int64导入。熊猫read_csv自动将其转换为int64,但我需要将此列作为字符串。 ID 00013007854817840016671868 00013007854817840016749251 00013007854817840016754630 00013007854817840016781876 00013007854817840017028824 00013007854817840017963235 00013007854817840018860166 df = read_csv('sample.csv') df.ID >> 0 -9223372036854775808 1 -9223372036854775808 2 -9223372036854775808 3 -9223372036854775808 4 -9223372036854775808 5 -9223372036854775808 6 -9223372036854775808 Name: ID 不幸的是,使用转换器会得到相同的结果。 df = read_csv('sample.csv', converters={'ID': str}) df.ID >> 0 -9223372036854775808 1 -9223372036854775808 2 -9223372036854775808 3 -9223372036854775808 4 -9223372036854775808 5 -9223372036854775808 …
97 python  pandas 

5
熊猫read_csv并使用usecols过滤列
我有一个csv文件,pandas.read_csv当我使用过滤列usecols并使用多个索引时,该文件输入不正确。 import pandas as pd csv = r"""dummy,date,loc,x bar,20090101,a,1 bar,20090102,a,3 bar,20090103,a,5 bar,20090101,b,1 bar,20090102,b,3 bar,20090103,b,5""" f = open('foo.csv', 'w') f.write(csv) f.close() df1 = pd.read_csv('foo.csv', header=0, names=["dummy", "date", "loc", "x"], index_col=["date", "loc"], usecols=["dummy", "date", "loc", "x"], parse_dates=["date"]) print df1 # Ignore the dummy columns df2 = pd.read_csv('foo.csv', index_col=["date", "loc"], usecols=["date", "loc", "x"], …

6
CSV导入熊猫时跳过行
我正在尝试使用导入.csv文件pandas.read_csv(),但是我不想导入数据文件的第二行(索引为0的索引为1的行)。 我看不到如何不导入它,因为与命令一起使用的参数似乎模棱两可: 从熊猫网站: skiprows :类列表或整数 文件开头要跳过的行号(索引为0)或要跳过的行数(整数)。” 如果输入skiprows=1参数,它如何知道是跳过第一行还是跳过索引为1的行?
97 python  csv  pandas 

6
将熊猫数据框转换为序列
我对熊猫有些陌生。我有一个熊猫数据框,它是1行乘23列。 我想将其转换为系列吗?我想知道最pythonic的方法是什么? 我已经尝试过了,pd.Series(myResults)但是抱怨ValueError: cannot copy sequence with size 23 to array axis with dimension 1。它还不够聪明,无法意识到它仍然是数学上的“向量”。 谢谢!

2
根据“未进入”条件从数据框中删除行[重复]
这个问题已经在这里有了答案: 如何像在SQL中那样使用“ in”和“ not in”来过滤Pandas数据框 (9个答案) 4个月前关闭。 当日期列的值在日期列表中时,我想从熊猫数据框中删除行。以下代码不起作用: a=['2015-01-01' , '2015-02-01'] df=df[df.datecolumn not in a] 我收到以下错误: ValueError:系列的真值不明确。使用a.empty,a.bool(),a.item(),a.any()或a.all()。
97 python  pandas 


9
按名称将列移动到熊猫表的前面
这是我的df: Net Upper Lower Mid Zsore Answer option More than once a day 0% 0.22% -0.12% 2 65 Once a day 0% 0.32% -0.19% 3 45 Several times a week 2% 2.45% 1.10% 4 78 Once a week 1% 1.63% -0.40% 6 65 如何将按名称("Mid")的列移动到表的前面,索引为0。结果应如下所示: Mid Upper Lower Net Zsore Answer …


5
将包含多行JSON的文件加载到Pandas中
我正在尝试将JSON文件读入Python熊猫(0.14.0)数据帧中。这是JSON文件的第一行: {"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "P_Mk0ygOilLJo4_WEvabAA", "review_id": "OeT5kgUOe3vcN7H6ImVmZQ", "stars": 3, "date": "2005-08-26", "text": "This is a pretty typical cafe. The sandwiches and wraps are good but a little overpriced and the food items are the same. The chicken caesar salad wrap is my favorite here but …

4
如何使用点绘制熊猫数据框的两列?
我有一个pandas数据框,想绘制一列的值与另一列的值。幸运的是,有plot一种与数据帧相关的方法似乎可以满足我的需求: df.plot(x='col_name_1', y='col_name_2') 不幸的是,它看起来像打印样式(上市中这里后kind参数)有没有点。我可以使用线或条,甚至可以使用密度,但不能使用点。是否有解决方法可以帮助解决此问题。

4
DataFrame中的字符串,但dtype是object
为什么Pandas告诉我我有对象,尽管所选列中的每个项目都是一个字符串-即使经过显式转换也是如此。 这是我的DataFrame: <class 'pandas.core.frame.DataFrame'> Int64Index: 56992 entries, 0 to 56991 Data columns (total 7 columns): id 56992 non-null values attr1 56992 non-null values attr2 56992 non-null values attr3 56992 non-null values attr4 56992 non-null values attr5 56992 non-null values attr6 56992 non-null values dtypes: int64(2), object(5) 他们五个dtype object。我将这些对象明确转换为字符串: for c …
96 python  pandas  numpy  types  series 

5
如何使Pandas DataFrame列标题全部小写?
我想使我的pandas数据框中的所有列标题都小写 例 如果我有: data = country country isocode year XRAT tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 957299.91586 2 Canada CAN 2003 1.40105 1016902.00180 .... 我想通过执行以下操作将XRAT更改为xrat: data.headers.lowercase() 这样我得到: country country isocode year xrat tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 …

13
列出大关联矩阵中的最高关联对?
您如何在与熊猫相关的矩阵中找到最相关的?关于如何使用R进行操作有很多答案(将相关性显示为有序列表,而不是大型矩阵或从Python或R中从大型数据集中获取高度相关对的有效方法),但我想知道如何做到这一点大熊猫?在我的情况下,矩阵为4460x4460,因此无法从视觉上做到。

5
熊猫合并-如何避免重复的列
我正在尝试在两个数据帧之间合并。每个数据帧都有两个索引级别(日期,客户)。在列中,例如,某些列在两者之间匹配(货币,日期)。 按索引合并这些内容的最佳方法是什么,但不要采用两个副本的货币和日期。 每个数据框都是90列,所以我试图避免用手将所有内容写出来。 df: currency adj_date data_col1 ... date cusip 2012-01-01 XSDP USD 2012-01-03 0.45 ... df2: currency adj_date data_col2 ... date cusip 2012-01-01 XSDP USD 2012-01-03 0.45 ... 如果我做: dfNew = merge(df, df2, left_index=True, right_index=True, how='outer') 我懂了 dfNew: currency_x adj_date_x data_col2 ... currency_y adj_date_y date cusip 2012-01-01 XSDP USD …
96 python  pandas 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.