我可以使用哪些统计方法来找到分类变量的流行或常见组合?


10

我正在研究多种药物的使用。我有一个包含400名吸毒者的数据集,每个人都陈述了他们滥用的药物。有10种以上的药物,因此可能有很大的组合。我将它们消耗的大多数药物重新编码为二进制变量(即,如果吸毒者滥用了海洛因,则海洛因为1,否则为0)。我想找到2或3种药物的流行或常见组合。我可以使用统计方法吗?

Answers:


6

假设每个使用者至少使用一种药物,则只有1024种可能的药物组合在一起使用(如果只有10种药物)。您可以简单地将0/1变量转换为字符串并将其连接起来,然后对字符串进行频率分析,以查看哪些组合出现频率最高。以玩具为例,假设您的研究中只有3种药物A,B和C。如果一个参与者使用了药物A和C,那么变量alldrugs可以被编码为101。仅使用药物B的参与者将被编码为010。在这些频率上运行频率以找到最常选择的一个。大多数软件应该可以在几秒钟内完成处理。


1
同意 只有400个上瘾者,因此不可能有1024个上瘾者。
尼克·考克斯

是的 这应该是小菜一碟。
StatsStudent 2015年

5

潜在类别建模将是一种有监督的学习方法,用于查找潜在的“隐藏”分区或毒品和毒品使用者分组。LC是一种非常灵活的方法,它具有两种广泛的方法:基于对单个主题的重复测量的复制与基于对一组分类变量进行交叉分类的复制。您的数据将适合第二种类型。

LC的灵活性取决于其吸收具有不同缩放比例(例如,分类或连续)的变量“混合”的能力。由于该方法可以找到数据中的隐藏分区,分段或群集,因此也可以视为降维技术。

所有LC模型都有2个阶段:在第1阶段,确定因变量或目标变量,并建立回归模型。在阶段2中,对阶段1模型中的残差(单个“潜在”向量)进行了分析,并创建了分区,以捕获该向量中的可变性(或异质性)-“潜在类”。

有免费的软件可供下载,可能对您来说很好。其中之一是一个称为polCA的R模块,可在此处使用:

http://www.jstatsoft.org/article/view/v042i10

如果您有关于$ 1,000花费在商业产品上,潜金可从www.statisticalinnovations.com在具有使用潜黄金多年,我该产品代替它的分析能力和解决方案系列的忠实粉丝。例如,polCA仅对具有分类信息的LC模型有用,而LG则全线工作...此外,他们的开发人员总是在添加新模块。最近的增加使用隐藏的马尔可夫链建立了LC模型。但请记住,LG并非“端到端”数据平台,即,它不适用于繁重的数据操作或提升。

否则,统计软件(例如R,SPSS,SAS,Python等)广泛支持其他许多分析类别信息的方法。这些方法包括列联表分析,对数线性模型,有限混合模型,贝叶斯张量回归,等等。关于这一领域的文献非常广泛,从Bishop等人(1975年发表的“ 离散多元分析”)开始,一直延伸到Leo Goodman基于80年代以来所做的工作的RC模型,Agresti的“ 分类数据分析”,Stephen Fienberg的著作,包括Thomas Wickens ' 1989年出版的社会科学多路权变表分析优秀著作。贝叶斯张量回归 是Duke的David Dunson的论文的标题,并且是最新的大规模多向列联表建模方法,因此是“最先进的”。


喜欢参考清单!
克里斯(Chris)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.