程序设计 pandas

3

我想将以下csv作为字符串而不是int64导入。熊猫read_csv自动将其转换为int64，但我需要将此列作为字符串。 ID 00013007854817840016671868 00013007854817840016749251 00013007854817840016754630 00013007854817840016781876 00013007854817840017028824 00013007854817840017963235 00013007854817840018860166 df = read_csv('sample.csv') df.ID >> 0 -9223372036854775808 1 -9223372036854775808 2 -9223372036854775808 3 -9223372036854775808 4 -9223372036854775808 5 -9223372036854775808 6 -9223372036854775808 Name: ID 不幸的是，使用转换器会得到相同的结果。 df = read_csv('sample.csv', converters={'ID': str}) df.ID >> 0 -9223372036854775808 1 -9223372036854775808 2 -9223372036854775808 3 -9223372036854775808 4 -9223372036854775808 5 -9223372036854775808 …

97 python pandas

5

熊猫read_csv并使用usecols过滤列

我有一个csv文件，pandas.read_csv当我使用过滤列usecols并使用多个索引时，该文件输入不正确。 import pandas as pd csv = r"""dummy,date,loc,x bar,20090101,a,1 bar,20090102,a,3 bar,20090103,a,5 bar,20090101,b,1 bar,20090102,b,3 bar,20090103,b,5""" f = open('foo.csv', 'w') f.write(csv) f.close() df1 = pd.read_csv('foo.csv', header=0, names=["dummy", "date", "loc", "x"], index_col=["date", "loc"], usecols=["dummy", "date", "loc", "x"], parse_dates=["date"]) print df1 # Ignore the dummy columns df2 = pd.read_csv('foo.csv', index_col=["date", "loc"], usecols=["date", "loc", "x"], …

97 python pandas csv csv-import

6

CSV导入熊猫时跳过行

我正在尝试使用导入.csv文件pandas.read_csv()，但是我不想导入数据文件的第二行（索引为0的索引为1的行）。我看不到如何不导入它，因为与命令一起使用的参数似乎模棱两可：从熊猫网站： skiprows ：类列表或整数文件开头要跳过的行号（索引为0）或要跳过的行数（整数）。” 如果输入skiprows=1参数，它如何知道是跳过第一行还是跳过索引为1的行？

97 python csv pandas

6

将熊猫数据框转换为序列

我对熊猫有些陌生。我有一个熊猫数据框，它是1行乘23列。我想将其转换为系列吗？我想知道最pythonic的方法是什么？我已经尝试过了，pd.Series(myResults)但是抱怨ValueError: cannot copy sequence with size 23 to array axis with dimension 1。它还不够聪明，无法意识到它仍然是数学上的“向量”。谢谢！

97 python pandas dataframe series

2

根据“未进入”条件从数据框中删除行[重复]

这个问题已经在这里有了答案：如何像在SQL中那样使用“ in”和“ not in”来过滤Pandas数据框（9个答案） 4个月前关闭。当日期列的值在日期列表中时，我想从熊猫数据框中删除行。以下代码不起作用： a=['2015-01-01' , '2015-02-01'] df=df[df.datecolumn not in a] 我收到以下错误： ValueError：系列的真值不明确。使用a.empty，a.bool（），a.item（），a.any（）或a.all（）。

97 python pandas

3

Python Pandas用第二列对应行中的值替换第一列中的NaN

我正在使用Python中的Pandas DataFrame。 File heat Farheit Temp_Rating 1 YesQ 75 N/A 1 NoR 115 N/A 1 YesA 63 N/A 1 NoT 83 41 1 NoY 100 80 1 YesZ 56 12 2 YesQ 111 N/A 2 NoR 60 N/A 2 YesA 19 N/A 2 NoT 106 77 2 NoY 45 21 …

97 python pandas dataframe nan fillna

9

按名称将列移动到熊猫表的前面

这是我的df： Net Upper Lower Mid Zsore Answer option More than once a day 0% 0.22% -0.12% 2 65 Once a day 0% 0.32% -0.19% 3 45 Several times a week 2% 2.45% 1.10% 4 78 Once a week 1% 1.63% -0.40% 6 65 如何将按名称（"Mid"）的列移动到表的前面，索引为0。结果应如下所示： Mid Upper Lower Net Zsore Answer …

97 python pandas move dataframe shift

6

当在apply中也计算出先前值时，Pandas中有没有一种方法可以使用dataframe.apply中的先前行值？

我有以下数据框： Index_Date A B C D =============================== 2015-01-31 10 10 Nan 10 2015-02-01 2 3 Nan 22 2015-02-02 10 60 Nan 280 2015-02-03 10 100 Nan 250 要求： Index_Date A B C D =============================== 2015-01-31 10 10 10 10 2015-02-01 2 3 23 22 2015-02-02 10 60 290 280 2015-02-03 …

97 python pandas dataframe for-loop iteration

5

将包含多行JSON的文件加载到Pandas中

我正在尝试将JSON文件读入Python熊猫（0.14.0）数据帧中。这是JSON文件的第一行： {"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "P_Mk0ygOilLJo4_WEvabAA", "review_id": "OeT5kgUOe3vcN7H6ImVmZQ", "stars": 3, "date": "2005-08-26", "text": "This is a pretty typical cafe. The sandwiches and wraps are good but a little overpriced and the food items are the same. The chicken caesar salad wrap is my favorite here but …

97 python json python-2.7 pandas

4

如何使用点绘制熊猫数据框的两列？

我有一个pandas数据框，想绘制一列的值与另一列的值。幸运的是，有plot一种与数据帧相关的方法似乎可以满足我的需求： df.plot(x='col_name_1', y='col_name_2') 不幸的是，它看起来像打印样式（上市中这里后kind参数）有没有点。我可以使用线或条，甚至可以使用密度，但不能使用点。是否有解决方法可以帮助解决此问题。

96 python matplotlib plot pandas dataframe

4

DataFrame中的字符串，但dtype是object

为什么Pandas告诉我我有对象，尽管所选列中的每个项目都是一个字符串-即使经过显式转换也是如此。这是我的DataFrame： <class 'pandas.core.frame.DataFrame'> Int64Index: 56992 entries, 0 to 56991 Data columns (total 7 columns): id 56992 non-null values attr1 56992 non-null values attr2 56992 non-null values attr3 56992 non-null values attr4 56992 non-null values attr5 56992 non-null values attr6 56992 non-null values dtypes: int64(2), object(5) 他们五个dtype object。我将这些对象明确转换为字符串： for c …

96 python pandas numpy types series

5

如何使Pandas DataFrame列标题全部小写？

我想使我的pandas数据框中的所有列标题都小写例如果我有： data = country country isocode year XRAT tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 957299.91586 2 Canada CAN 2003 1.40105 1016902.00180 .... 我想通过执行以下操作将XRAT更改为xrat： data.headers.lowercase() 这样我得到： country country isocode year xrat tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 …

96 python pandas dataframe

13

列出大关联矩阵中的最高关联对？

您如何在与熊猫相关的矩阵中找到最相关的？关于如何使用R进行操作有很多答案（将相关性显示为有序列表，而不是大型矩阵或从Python或R中从大型数据集中获取高度相关对的有效方法），但我想知道如何做到这一点大熊猫？在我的情况下，矩阵为4460x4460，因此无法从视觉上做到。

96 python pandas correlation

5

熊猫合并-如何避免重复的列

我正在尝试在两个数据帧之间合并。每个数据帧都有两个索引级别（日期，客户）。在列中，例如，某些列在两者之间匹配（货币，日期）。按索引合并这些内容的最佳方法是什么，但不要采用两个副本的货币和日期。每个数据框都是90列，所以我试图避免用手将所有内容写出来。 df: currency adj_date data_col1 ... date cusip 2012-01-01 XSDP USD 2012-01-03 0.45 ... df2: currency adj_date data_col2 ... date cusip 2012-01-01 XSDP USD 2012-01-03 0.45 ... 如果我做： dfNew = merge(df, df2, left_index=True, right_index=True, how='outer') 我懂了 dfNew: currency_x adj_date_x data_col2 ... currency_y adj_date_y date cusip 2012-01-01 XSDP USD …

96 python pandas

1

Python Pandas：如何仅读取CSV文件的前n行？

我有一个非常大的数据集，我无法读取其中的整个数据集。因此，我正在考虑只读取其中的一个数据块进行训练，但是我不知道该怎么做。任何想法将不胜感激。

96 python pandas csv file-io

Questions tagged «pandas»