我有一个数据框,其中包含4列中的值:
例如:ID
,price
,click count
,rating
我想做的是将此数据帧“拆分”为N个不同的组,其中每个组将具有相同数量的行,且行,点击数和评级属性的分布相同。
任何建议都将受到高度赞赏,因为我对如何解决这个问题丝毫不了解!
您是否只是想创建N个单独的数据帧,这些数据帧是原始数据的不相交的子集?您对价格,点击次数和评分的“相同分配”是什么意思?
—
Alex A.
是的,正在寻找原始数据帧的子集。关于第二个问题,假设我的访问计数值为1到10,并决定创建3个不同的子集,因此将从1到4访问计数存储桶中的每个组中选择一些行,从4到7访问计数存储桶中选择一些行,某些访问次数范围是7到10,这在所有属性(价格,点击次数和评分)方面都应得到满足。这就像以相同的属性概率将数据采样到不同的组中一样。希望这可以帮助。
该问题要求进行拆分,以保留变量的分布。没有更多的信息,就不可能确定解决此问题的正确方法。我投票将其迁移到CV.com
—
DWin 2015年
您是要保留边际分布还是联合分布?
—
kjetil b halvorsen