当结果为分数(两个计数之比)时,如何在R中进行逻辑回归?


24

我正在审阅具有以下生物学实验的论文。使用装置将细胞暴露于变化量的流体剪切应力。当对细胞施加更大的剪切应力时,更多的细胞开始从基底上脱离。在每个剪切应力水平下,他们都对保持附着的细胞进行计数,并且由于他们知道开始时附着的细胞总数,因此他们可以计算分数附着(或分离)。

如果您绘制粘附分数与剪切应力的关系图,则结果将为逻辑曲线。从理论上讲,每个单元都是一个观察值,但是显然有成千上万个单元,因此,如果以通常的方式建立数据集(每一行都是一个观察值),那么数据集将是巨大的。

因此,自然地,我的问题(如标题中所述)现在应该有意义。我们如何使用分数结果作为DV进行逻辑回归?是否可以在glm中完成一些自动转换?

同样,如果可能存在3个或更多(分数)度量,那么对于多项式逻辑回归该怎么做?


以下是有关多元结果逻辑回归的一些示例:http://www.ats.ucla.edu/stat/r/dae/mlogit.htm
marbel

1
您所描述的听起来并不像您有独立的观察力(由于单元格可能不会随着剪切力的增加而重新附着,因此在每个较高应力设置下仍附着的数量不得超过先前的数量);必须考虑这种依赖性。(这使人联想到增长曲线的情况。)---您不能像把数字一样独立地插入GLM中,而且没有任何答案似乎可以解决这个问题。
Glen_b-恢复莫妮卡

2
@Glen_b每个实验都将使用不同的单元进行,即从“ 100%”附着开始并施加不同的切应力值。
thecity2

啊好吧。那会给出独立的结果。
Glen_b-恢复莫妮卡

Answers:


37

glm函数R提供3种方式来指定逻辑回归模型的公式。

最常见的是,数据帧的每一行代表一个观察值,并且响应变量为0或1(或具有2个水平的因数,或仅具有2个唯一值的其他变量)。

另一种选择是使用2列矩阵作为响应变量,其中第一列是“成功”的计数,第二列是“失败”的计数。

您还可以将响应指定为0到1之间的比例,然后将另一列指定为“权重”,以给出该比例所来自的总数(因此,响应0.3和权重10与3相同)成功”和7个“失败”)。

后两种方式中的任何一种都适合您要尝试执行的操作,后一种方式似乎最直接地描述了数据。


9

首先,如果您有一个成比例的因变量,则可以使用Beta回归。(根据我的有限知识)这不会扩展到多个比例。

有关Beta回归概述和R实现,请查看betareg


谢谢!这看起来像我需要的二项式案例。
thecity2'4

2

我一直在使用nnet::multinom(软件包nnet是MASS的一部分)出于类似目的,它接受[0,1]中的连续输入。

如果需要参考:C. Beleites等:星状细胞瘤组织的拉曼光谱分级:使用软参考信息。肛门生物化学,2011,Vol。400(9),第2801-2816页


大!我有那个程序包,但没有意识到它具有此功能。
thecity2'4

@cbeleites:是否允许依赖项为[0,1]?我虽然那是名义上依赖性的函数(预测因子应缩放为[0,1] ...
B_Miner 2012年

@B_Miner:是的,相关项可以在[0,1]中。该函数适合没有隐藏层且具有逻辑乙状结肠的人工神经网络。是的,建议将预测变量也大致缩放为[0,1],以实现更好的收敛性。
cbeleites支持Monica
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.