将缺失的日期添加到熊猫数据框

126

我的数据可以在给定日期包含多个事件，也可以在一个日期包含否事件。我接受这些事件，按日期计数并绘制它们。但是，当我绘制它们时，我的两个系列并不总是匹配。

idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max())
s = df.groupby(['simpleDate']).size()

在上面的代码中，idx变为30个日期范围。2013/09/01至2013/09/30但是S可能只有25或26天，因为在给定日期没有事件发生。然后，当我尝试绘制时，由于大小不匹配，我得到一个AssertionError：

fig, ax = plt.subplots()    
ax.bar(idx.to_pydatetime(), s, color='green')

解决这个问题的正确方法是什么？我是否要从IDX中删除没有值的日期，或者（我希望这样做）是将序列中缺少的日期添加为0（我希望这样做）？我希望有30天的完整图表（值为0）。如果这种方法正确，那么有关如何开始使用的任何建议？我需要某种动态reindex功能吗？

这是S（df.groupby(['simpleDate']).size() ）的代码段，请注意没有输入04和05。

09-02-2013     2
09-03-2013    10
09-06-2013     5
09-07-2013     1

— 希巴马
source

254

您可以使用Series.reindex：

import pandas as pd

idx = pd.date_range('09-01-2013', '09-30-2013')

s = pd.Series({'09-02-2013': 2,
               '09-03-2013': 10,
               '09-06-2013': 5,
               '09-07-2013': 1})
s.index = pd.DatetimeIndex(s.index)

s = s.reindex(idx, fill_value=0)
print(s)

产量

2013-09-01     0
2013-09-02     2
2013-09-03    10
2013-09-04     0
2013-09-05     0
2013-09-06     5
2013-09-07     1
2013-09-08     0
...

— Unutbu
source

23

reindex是一个了不起的功能。它可以（1）对现有数据进行重新排序以匹配一组新标签；（2）在以前不存在标签的地方插入新行；（3）为缺少的标签填充数据（包括通过向前/向后填充）（4）选择行按标签！

— unutbu 2013年

@unutbu这也回答了我的部分问题，谢谢！但是想知道您是否知道如何动态创建包含事件的日期的列表吗？

— 尼克·达迪

2

但是，重新索引存在一个问题（或错误）：它不适用于1970年1月1日之前的日期，因此在这种情况下df.resample（）可以完美地工作。

— 谢尔盖·居尔宾

1

您可以使用它代替idx手动跳过输入开始和结束日期：idx = pd.date_range(df.index.min(), df.index.max())

— Reveille

删除链接的文档在这里，为您节省了搜索：pandas.pydata.org/pandas-docs/stable/reference/api/...

— 危害TE成型加工厂

40

使用更快的解决方法.asfreq()。这不需要创建新索引即可在中调用.reindex()。

# "broken" (staggered) dates
dates = pd.Index([pd.Timestamp('2012-05-01'), 
                  pd.Timestamp('2012-05-04'), 
                  pd.Timestamp('2012-05-06')])
s = pd.Series([1, 2, 3], dates)

print(s.asfreq('D'))
2012-05-01    1.0
2012-05-02    NaN
2012-05-03    NaN
2012-05-04    2.0
2012-05-05    NaN
2012-05-06    3.0
Freq: D, dtype: float64

— 布拉德·所罗门
source

1

我真的很喜欢这种方法。您避免了调用，date_range因为它隐式使用第一个和最后一个索引作为开始和结束（这几乎是您一直想要的）。

— Michael Hays '18

非常干净和专业的方法。以及以后使用插值效果也很好。

— msarafzadeh

26

一个问题是，reindex如果存在重复值，该操作将失败。假设我们正在处理带时间戳的数据，我们希望按日期将其编入索引：

df = pd.DataFrame({
    'timestamps': pd.to_datetime(
        ['2016-11-15 1:00','2016-11-16 2:00','2016-11-16 3:00','2016-11-18 4:00']),
    'values':['a','b','c','d']})
df.index = pd.DatetimeIndex(df['timestamps']).floor('D')
df

产量

            timestamps             values
2016-11-15  "2016-11-15 01:00:00"  a
2016-11-16  "2016-11-16 02:00:00"  b
2016-11-16  "2016-11-16 03:00:00"  c
2016-11-18  "2016-11-18 04:00:00"  d

由于2016-11-16日期重复，尝试重新编制索引：

all_days = pd.date_range(df.index.min(), df.index.max(), freq='D')
df.reindex(all_days)

失败与：

...
ValueError: cannot reindex from a duplicate axis

（这表示索引重复，而不是索引本身是重复项）

相反，我们可以使用.loc查找范围内所有日期的条目：

df.loc[all_days]

产量

            timestamps             values
2016-11-15  "2016-11-15 01:00:00"  a
2016-11-16  "2016-11-16 02:00:00"  b
2016-11-16  "2016-11-16 03:00:00"  c
2016-11-17  NaN                    NaN
2016-11-18  "2016-11-18 04:00:00"  d

fillna 如果需要，可用于色谱柱系列以填充空白。

— 尼克·埃德加
source

如果Date列包含Blanksor NULLS怎么办？df.loc[all_days]在那种情况下是行不通的。

— Furqan Hashim

1

将类似列表的标签传递给.loc或[]并带有任何丢失的标签，将来都会引发KeyError，您可以使用.reindex（）作为替代。看到这里的文档：pandas.pydata.org/pandas-docs/stable/...

— 德米特里·马加斯

19

另一种方法是resample，除了缺少日期外，还可以处理重复的日期。例如：

df.resample('D').mean()

resample是一个类似的延迟操作，groupby因此您需要执行另一个操作。在这种情况下mean工作得很好，但你也可以使用许多其他的熊猫方法，如max，sum等。

这是原始数据，但带有“ 2013-09-03”的附加条目：

             val
date           
2013-09-02     2
2013-09-03    10
2013-09-03    20    <- duplicate date added to OP's data
2013-09-06     5
2013-09-07     1

结果如下：

             val
date            
2013-09-02   2.0
2013-09-03  15.0    <- mean of original values for 2013-09-03
2013-09-04   NaN    <- NaN b/c date not present in orig
2013-09-05   NaN    <- NaN b/c date not present in orig
2013-09-06   5.0
2013-09-07   1.0

我将遗漏的日期保留为NaN以便清楚地说明其工作原理，但是您可以fillna(0)根据OP的要求添加以零代替NaN的方法，也可以interpolate()根据相邻行使用类似非零值的填充方法。

— 约翰
source

6

这是一种将缺失的日期填充到数据框中的好方法，您可以选择fill_value，days_back填充和date_order排序对数据框进行排序的顺序（）：

def fill_in_missing_dates(df, date_col_name = 'date',date_order = 'asc', fill_value = 0, days_back = 30):

    df.set_index(date_col_name,drop=True,inplace=True)
    df.index = pd.DatetimeIndex(df.index)
    d = datetime.now().date()
    d2 = d - timedelta(days = days_back)
    idx = pd.date_range(d2, d, freq = "D")
    df = df.reindex(idx,fill_value=fill_value)
    df[date_col_name] = pd.DatetimeIndex(df.index)

    return df

— 艾坦·拉维
source