如何在Python中对相同的值进行分组并计算其频率?
刚开始使用Python分析的新手,请谨慎:-)我找不到该问题的答案-抱歉,如果它已经在其他地方以其他格式回答了。 我有一个零售商店的交易数据的数据集。变量及其说明如下: section:商店的部分,str; prod_name:产品名称,str; 收据:发票编号,整数; 出纳员,出纳员的编号,整数; 成本:物料的成本,浮动; 日期,格式为MM / DD / YY,为str; 时间,格式为HH:MM:SS,为str; 收据对于单笔交易中购买的所有产品具有相同的价值,因此可用于确定单笔交易中购买的平均数量。 最好的方法是什么?我本质上是想使用groupby()按收据变量相同的出现来对收据变量进行分组,以便创建直方图。 在pandas DataFrame中处理数据。 编辑: 以下是一些带有标头的示例数据(prod_name实际上是一个十六进制数字): section,prod_name,receipt,cashier,cost,date,time electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20 womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46 womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47 menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20 从该样本集中,我希望获得一个直方图,该直方图显示两次出现的收据102857(因为该人在一项交易中购买了两件物品)和一次出现的收据102856和102858。注意:我的数据集并不庞大,大约一百万行。