Answers:
根据您的描述,看来多项式逻辑回归是合适的。假设您的结果是一个具有7个级别的因素(7个购买选项之一),那么您可以使用多项Logistic回归模型快速预测成员资格(请参阅R ?multinom
中的nnet
软件包)。如果您的结果不能合并为7个级别的因子,则需要进行聚类分析以将各项组合在一起,然后再拟合多项式逻辑回归。
?poLCA
适合此模型的更多信息,请参见R。
?nnet
R中)。
您可以建立一个随机的森林,其中每个班级都是一组项目(即“青苹果和农场草莓,牛奶含量为2%”)。然后,根据购物者的特征或您的任何预测变量,您可以为每组物料提供预测的购买概率。我将使用R的randomForest包(https://cran.r-project.org/web/packages/randomForest/index.html)来执行此操作。
一种选择是获取所有产品购买组合的频率;选择一些最常见的组合;然后建立回归模型以预测每个人的所选组合。例如,通过二元逻辑回归分析,可以想像到以下各项的购买:a)白葡萄酒,法国布里乳酪,草莓和葡萄与b)红葡萄酒,切达干酪和荷兰扁豆。如果有两个以上这样的组合,或者如果要包括“以上都不是”的类别,则可以选择多项式逻辑回归。
请注意,仅包括通用组合,意味着每个组合都有更多可使用的编号,但是至少从此过程中,将排除其他组合。我可以想象有7个项目可以创建数十个连击,每个连击至少由少数人选择。对于您的样本量,这可能是太多类别了。而且,如果仅由少数几个人选择了组合,则您的模型将很少有信息可使用。
另一种选择是使用聚类分析得出倾向于一起购买的几套物品。包含7个项目,您最终可能会拥有少于4个群集,这可能会使您的任务更容易。如果您尝试聚类分析并发现结果不可行,则没有理由必须使用它们:只需回到上述基于频率的方法即可。在这种情况下,如果我没看错,您正在寻找最具描述性和趣味性的类别数组,并且在建立该类别时,无需担心自由度或多重比较或任何可能适用的此类问题如果您在尝试某种推理测试时尝试了多种方法。
我假设您要分析类似于以下内容的情况;
Yi = f(X),其中f()是非线性链接,X是协变量的向量,Yi是第i个因变量,其本质上是有序的(如果是分类,则Yi不能具有两个以上的变量)类别),并在模型中说i = 1,2,... 5并且每个Yi都是相关的...如果是这样,则可以肯定地采用多元概率。R,Mplus和SAS可以估算MVP
相反,您有Y = f(X),并且Y(请注意,只有一个Y)是分类的,例如,具有N个类别,因此对N个类别所做的选择是排他的和详尽的;您需要拟合多项式Logit模型。还有一个称为多项式概率的东西,类似于多项式Logit。
希望这可以帮助。感谢Sanjoy