Questions tagged «pandas»

Pandas是用于数据处理和分析的Python库,例如,在统计,实验科学结果,计量经济学或金融学中常见的数据框,多维时间序列和横截面数据集。Pandas是Python中主要的数据科学库之一。

7
熊猫concat:ValueError:传递的值的形状等等,索引暗示blah2
我正在尝试合并(Pandas 14.1)数据框和一系列数据。该系列应该形成一个带有一些NA的新列(因为该系列的索引值是数据帧的索引值的子集)。 这适用于玩具示例,但不适用于我的数据(详细信息如下)。 例: import pandas as pd import numpy as np df1 = pd.DataFrame(np.random.randn(6, 4), columns=['A', 'B', 'C', 'D'], index=pd.date_range('1/1/2011', periods=6, freq='D')) df1 A B C D 2011-01-01 -0.487926 0.439190 0.194810 0.333896 2011-01-02 1.708024 0.237587 -0.958100 1.418285 2011-01-03 -1.228805 1.266068 -1.755050 -1.476395 2011-01-04 -0.554705 1.342504 0.245934 0.955521 2011-01-05 -0.351260 …
77 python  pandas 

14
Python:Pandas pd.read_excel提供了ImportError:为Excel支持安装xlrd> = 0.9.0
我正在尝试.xlsx使用pandas读取a ,但出现以下错误: data = pd.read_excel(low_memory=False, io="DataAnalysis1/temp1.xlsx").fillna(value=0) Traceback (most recent call last): File "/Users/Vineeth/PycharmProjects/DataAnalysis1/try1.py", line 9, in <module> data = pd.read_excel(low_memory=False, io="DataAnalysis1/temp1.xlsx").fillna(value=0) File "/Users/Vineeth/venv/lib/python2.7/site-packages/pandas/util/_decorators.py", line 118, in wrapper return func(*args, **kwargs) File "/Users/Vineeth/venv/lib/python2.7/site-packages/pandas/io/excel.py", line 230, in read_excel io = ExcelFile(io, engine=engine) File "/Users/Vineeth/venv/lib/python2.7/site-packages/pandas/io/excel.py", line 263, in __init__ raise ImportError(err_msg) ImportError: Install …


3
使用Pandas处理可变数量的列-Python
我有一个看起来像这样的数据集(最多5列-但可以更少) 1,2,3 1,2,3,4 1,2,3,4,5 1,2 1,2,3,4 .... 我正在尝试使用pandas read_table将其读取到5列数据框中。我想读这篇,无需额外按摩。 如果我尝试 import pandas as pd my_cols=['A','B','C','D','E'] my_df=pd.read_table(path,sep=',',header=None,names=my_cols) 我收到一个错误-“列名有5个字段,数据有3个字段”。 有什么方法可以让熊猫在读取数据时为缺少的列填写NaN?
76 python  pandas 

10
在熊猫中改组/排列DataFrame
有什么简单有效的方法可以按行或按列对panda中的数据框进行随机排序?即,如何编写一个函数shuffle(df, n, axis=0),该函数接受一个数据帧,许多随机播放n和一个轴(axis=0是行,axis=1是列),并返回已被随机播放n多次的数据帧的副本。 编辑:关键是这样做而不破坏数据框的行/列标签。如果您只是随机播放df.index,则会丢失所有这些信息。df除了行顺序或列顺序不同之外,我希望结果与原始结果相同。 Edit2:我的问题不清楚。我说的是随机排列,是指分别随机排列每一行。因此,如果您有两列a和b,则我希望每一行都按其顺序进行随机排列,这样,您a和之间就不会具有相同的关联,b就好像您只是重新排列整个行的顺序一样。就像是: for 1...n: for each col in df: shuffle column return new_df 但是希望比幼稚的循环更有效。这对我不起作用: def shuffle(df, n, axis=0): shuffled_df = df.copy() for k in range(n): shuffled_df.apply(np.random.shuffle(shuffled_df.values),axis=axis) return shuffled_df df = pandas.DataFrame({'A':range(10), 'B':range(10)}) shuffle(df, 5)
76 python  numpy  pandas 


10
是否可以与python pandas进行模糊匹配合并?
我有两个要基于列合并的DataFrame。但是,由于拼写不同,空格数不同,不存在变音符,只要它们彼此相似,我希望能够合并。 任何相似性算法都可以使用(soundex,Levenshtein,difflib)。 假设一个DataFrame具有以下数据: df1 = DataFrame([[1],[2],[3],[4],[5]], index=['one','two','three','four','five'], columns=['number']) number one 1 two 2 three 3 four 4 five 5 df2 = DataFrame([['a'],['b'],['c'],['d'],['e']], index=['one','too','three','fours','five'], columns=['letter']) letter one a too b three c fours d five e 然后我想得到结果DataFrame number letter one 1 a two 2 b three 3 c four 4 d …
76 python  pandas 

5
Python Pandas read_csv跳过行但保留标题
我在弄清楚如何跳过csv文件中的n行但保留标题为1行时遇到了麻烦。 我想做的是迭代但保留第一行的标题。 skiprows将标题设置为跳过的行之后的第一行。最好的方法是什么? data = pd.read_csv('test.csv', sep='|', header=0, skiprows=10, nrows=10)
76 python  csv  pandas 

8
如何将单个项目添加到熊猫系列
如何将单个项目添加到序列化的熊猫系列中。我知道这不是最有效的内存管理方式,但是我仍然需要这样做。 沿途: >> x = Series() >> N = 4 >> for i in xrange(N): >> x.some_appending_function(i**2) >> print x 0 | 0 1 | 1 2 | 4 3 | 9 另外,如何将单行添加到pandas DataFrame?
76 python  pandas 

4
熊猫版的rbind
在R中,您可以使用rbind将一个数据列粘贴到另一个数据列的底部,从而合并两个数据帧。在大熊猫中,您如何完成同一件事?看起来异常困难。 由于我不了解的原因,使用append会导致混乱,包括NaN和其他内容。我只是试图“ rbind”两个看起来像这样的相同框架: 编辑:我正在以一种愚蠢的方式创建DataFrames,这会导致问题。附加= rbind所有意图和目的。请参阅下面的答案。 0 1 2 3 4 5 6 7 0 ADN.L 20130220 437.4 442.37 436.5000 441.9000 2775364 2013-02-20 18:47:42 1 ADM.L 20130220 1279.0 1300.00 1272.0000 1285.0000 967730 2013-02-20 18:47:42 2 AGK.L 20130220 1717.0 1749.00 1709.0000 1739.0000 834534 2013-02-20 18:47:43 3 AMEC.L 20130220 1030.0 1040.00 1024.0000 1035.0000 …
76 python  r  dataframe  pandas 

7
将多个空列添加到pandas DataFrame
如何将多个空列添加到DataFrame列表中的? 我可以: df["B"] = None df["C"] = None df["D"] = None 但是我不能: df[["B", "C", "D"]] = None KeyError: "['B' 'C' 'D'] not in index"
76 python  pandas 

2
计算数据框每一列中非NaN条目的数量
我有一个非常大的DataFrame,我想知道是否有一种简短的方法(一两个衬垫)来获取DataFrame中非NaN条目的计数。我不想一次做一列,因为我有将近1000列。 df1 = pd.DataFrame([(1,2,None),(None,4,None),(5,None,7),(5,None,None)], columns=['a','b','d'], index = ['A', 'B','C','D']) a b d A 1 2 NaN B NaN 4 NaN C 5 NaN 7 D 5 NaN NaN 输出: a: 3 b: 2 d: 1

2
用熊猫合并索引上的数据框
我有两个数据框,每个都有两个索引列。我想将它们合并。例如,第一个数据帧如下: V1 A 1/1/2012 12 2/1/2012 14 B 1/1/2012 15 2/1/2012 8 C 1/1/2012 17 2/1/2012 9 第二个数据帧如下: V2 A 1/1/2012 15 3/1/2012 21 B 1/1/2012 24 2/1/2012 9 D 1/1/2012 7 2/1/2012 16 因此,我想得到以下内容: V1 V2 A 1/1/2012 12 15 2/1/2012 14 N/A 3/1/2012 N/A 21 B 1/1/2012 15 …

7
熊猫:将系列的数据类型更改为字符串
我将Pandas'ver 0.12.0'与Python 2.7结合使用,并具有如下数据框: df = pd.DataFrame({'id' : [123,512,'zhub1', 12354.3, 129, 753, 295, 610], 'colour': ['black', 'white','white','white', 'black', 'black', 'white', 'white'], 'shape': ['round', 'triangular', 'triangular','triangular','square', 'triangular','round','triangular'] }, columns= ['id','colour', 'shape']) 该id系列由一些整数和字符串组成。它dtype在默认情况下是object。我想将的所有内容转换id为字符串。我试过了astype(str),产生下面的输出。 df['id'].astype(str) 0 1 1 5 2 z 3 1 4 1 5 7 6 2 7 6 1)如何将的所有元素转换id为String? 2)我最终将id用于为数据帧建立索引。与具有整数索引相比,在数据帧中具有String索引会降低速度吗?
76 python  pandas  series 

3
熊猫数据框read_csv上的不良数据
我想读取一个非常大的csv(无法在excel中打开并轻松编辑),但是在第100,000行左右的某个地方,有一行带有一个额外的列,导致程序崩溃。该行是错误的,因此我需要一种方法来忽略它是多余的列这一事实。大约有50列,因此对标题进行硬编码和使用名称或usecols是不可取的。我可能还会在其他csv中遇到此问题,并希望有一个通用的解决方案。不幸的是,我在read_csv中找不到任何东西。代码很简单: def loadCSV(filePath): dataframe = pd.read_csv(filePath, index_col=False, encoding='iso-8859-1', nrows=1000) datakeys = dataframe.keys(); return dataframe, datakeys
76 python  csv  pandas 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.