Answers:
将二进制变量作为因变量与将比例作为因变量之间存在区别。
二进制因变量:
比例作为因变量:
这取决于不同组内的响应接近0或100%的程度。如果有很多极限值(即许多值堆积在0或100%上),这将很困难。(如果您不知道“分母”,即不算百分比的主题数,则无论如何都不能使用列联表法。)如果组中的值更合理,则可以转换响应变量(例如经典反正弦平方根或对数变换)。有多种图形(首选)和零假设检验(较不受欢迎)测试方法来确定转换后的数据是否充分满足ANOVA的假设(方差和正态性的同质性,前者比后者更为重要)。图形测试:箱线图(方差的均一性)和QQ图(正态性)[后者应在组内或残差上进行]。零假设检验:例如Bartlett或Fligner检验(方差的均质性),Shapiro-Wilk,Jarque-Bera等。
您需要具有原始数据,以便响应变量为0/1(不是冒烟,冒烟)。然后,您可以使用二进制逻辑回归。将BMI分为时间间隔是不正确的。临界点是不正确的,可能不存在,并且您还没有正式测试BMI是否与吸烟有关。您目前正在测试是否已丢弃其大部分信息的BMI是否与吸烟相关。您会发现,特别是外部BMI间隔非常不同。
如果选择对比例数据进行普通方差分析,则验证均质误差方差的假设至关重要。如果(与百分比数据一样)误差方差不是恒定的,则更现实的选择是尝试beta回归,这可以解释模型中的这种异方差性。这是一篇论文,讨论处理百分比或比例的响应变量的各种替代方法:http : //www.ime.usp.br/~sferrari/beta.pdf
如果使用R,则包betareg可能会有用。