刚开始使用Python分析的新手,请谨慎:-)我找不到该问题的答案-抱歉,如果它已经在其他地方以其他格式回答了。
我有一个零售商店的交易数据的数据集。变量及其说明如下:
- section:商店的部分,str;
- prod_name:产品名称,str;
- 收据:发票编号,整数;
- 出纳员,出纳员的编号,整数;
- 成本:物料的成本,浮动;
- 日期,格式为MM / DD / YY,为str;
- 时间,格式为HH:MM:SS,为str;
收据对于单笔交易中购买的所有产品具有相同的价值,因此可用于确定单笔交易中购买的平均数量。
最好的方法是什么?我本质上是想使用groupby()
按收据变量相同的出现来对收据变量进行分组,以便创建直方图。
在pandas DataFrame中处理数据。
编辑:
以下是一些带有标头的示例数据(prod_name实际上是一个十六进制数字):
section,prod_name,receipt,cashier,cost,date,time
electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20
womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46
womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47
menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20
从该样本集中,我希望获得一个直方图,该直方图显示两次出现的收据102857(因为该人在一项交易中购买了两件物品)和一次出现的收据102856和102858。注意:我的数据集并不庞大,大约一百万行。