Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。

2
我们可以接受非劣效性测试中的空值吗?
在常规的均值t检验中,使用常规的假设检验方法,我们要么拒绝null要么不拒绝null,但是我们从不接受null。原因之一是,如果我们有更多的证据,那么相同的效应大小将变得很重要。 但是在非自卑感测验中会发生什么呢? 那是: H0:μ1−μ0≤xH0:μ1个-μ0≤XH_0: \mu_1 - \mu_0 \le x 与 H1:μ1−μ0>xH1个:μ1个-μ0>XH_1: \mu_1 - \mu_0 > x 其中是我们认为基本相同的一些量。因此,如果我们拒绝null,则说比至少。如果没有足够的证据,我们将不拒绝零值。 xXxμ1μ1个\mu_1μ0μ0\mu_0xXx 如果效果大小为或更大,则类似于常规t检验。但是,如果样本中的效应大小小于,该怎么办?然后,如果我们增加样本量并保持相同的效果,它将保持无关紧要。因此,在这种情况下,我们可以接受null吗?xXxxXx


2
为什么Neyman-Pearson引理是引理而不是定理?
这更多是历史问题,而不是技术问题。 为什么``Neyman-Pearson引理''是引理而不是定理? 链接至Wiki:https : //zh.wikipedia.org/wiki/内曼(Neyman)% E2%80%93Pearson_lemma 注意:问题不是关于什么是引理以及如何使用引理证明定理,而是关于内曼-皮尔森引理的历史。它曾经用来证明一个定理,然后碰巧更有用吗?是否有任何证据证明这是事实?

1
在什么情况下,Wilcoxon的符号秩检验优于t检验或符号检验?
经过一些讨论(在下面),我现在对焦点问题有了更清晰的了解,因此这是一个修订后的问题,尽管某些评论现在似乎与原始问题无关。 似乎t检验针对对称分布迅速收敛,有符号秩检验假设对称,并且对于对称分布,均值/伪随机数/中位数之间没有差异。如果是这样,在什么情况下,当他/她同时拥有t检验和sign检验时,相对没有经验的统计学家会认为有序检验有用吗?如果我的一位(例如社会科学专业)学生正在尝试测试一种治疗方法是否比另一种治疗方法更好(通过某种相对容易解释的衡量标准,例如某种“平均”差异的概念),那么我将努力寻找一个有签名的地方,即使在我的大学中,虽然通常会进行等级考试,但忽略了符号测试。

2
参考要求:工作数据科学家的古典统计
我是一位工作数据科学家,在回归,其他机器学习类型算法和编程(数据分析和通用软件开发)方面都有扎实的经验。我一生的大部分时间都集中在构建预测精度模型(在各种业务约束下工作),以及构建数据管道以支持我自己(和其他人)的工作。 我没有接受过统计学方面的正规培训,我的大学教育重点是纯数学。因此,错过了学习许多经典主题的机会,尤其是各种流行的假设检验和推论技巧。 这些主题是否有适合我背景和经验水平的人参考?我可以处理(并欣赏)数学上的严格性,也可以欣赏算法的观点。我倾向于喜欢为读者提供指导性练习的参考书,既有(又有)数学和(或)编程方面的重点。


5
如何用非参数测试(例如排列测试)测试交互作用?
我有两个类别/名义变量。它们每个只能采用两个不同的值(因此,我总共有4种组合)。 每个值组合都带有一组数字值。因此,我有4组数字。为了更具体,让我们说我有male / female和young / old作为标称变量,而我有weight从属数字“输出”。 我知道从过渡male到female会改变平均体重,而这些变化在统计上是有意义的。因此,我可以计算一个gender因子。这同样适用于age变量。我知道,从过渡young到old不改变平均重量,我可以计算出相应的age系数。 现在,我真正想看看的是数据是否证明从年轻女性到老年男性的转变更多地是性别和年龄因素的结合。换句话说,我想知道数据是否证明存在“ 2D效果”,或者换句话说,年龄和性别效果不是独立的。例如,男性变老可能会使体重增加1.3倍,而女性则相应增加1.1倍。 当然,我可以计算两个提到的因素(男性的年龄因素和女性的年龄因素),它们是不同的。但是我想计算出这种差异的统计意义。这种差异有多真实。 如果可能的话,我想做一个非参数测试。是否可以通过混合四组,重新组合,重新拆分和计算某些东西来做我想做的事情。

3
通过方向独立变量来检验正态分布的DV的关联性吗?
是否存在关于正态分布因变量是否与方向分布变量相关联的假设检验? 例如,如果一天中的时间是解释性变量(并且假设诸如星期几,一年中的月份等不相关),这就是如何解释11pm 比 1am 早 22小时的事实,以及2小时落后于联想的测试凌晨1点?我是否可以测试连续时间是否解释了因变量,而不假设在晚上11:59之后一分钟没有出现午夜12:00? 此测试是否也适用于离散方向性(模块化?)解释变量?还是需要单独测试?例如,如何测试是否按年份的月份解释因变量(假设年份的日期和季节以及特定的年份或十年无关紧要)。一年中的月份绝对会忽略顺序。但是将一年中的月份视为标准序数变量(例如Jan = 1 ... Dec = 12)忽略了1月在11月之后的两个月。

2
为什么统计文献中没有那么强调II型错误?
我已经看到很多情况,在各种研究文章中都提到了类型I错误(用alpha值表示)。我发现很少有研究人员考虑到功效或II型错误。 II型错误可能是一件大事吧?当替代假设实际上是错误的时,我们意外地拒绝了它。为什么强调alpha值而不是强调beta值? 当我进行第一年的统计时,我从来没有学会过Beta版-仅Alpha版。我认为这两个错误应同等对待。但是,似乎只强调了alpha。

3
我可以使用哪些统计方法来找到分类变量的流行或常见组合?
我正在研究多种药物的使用。我有一个包含400名吸毒者的数据集,每个人都陈述了他们滥用的药物。有10种以上的药物,因此可能有很大的组合。我将它们消耗的大多数药物重新编码为二进制变量(即,如果吸毒者滥用了海洛因,则海洛因为1,否则为0)。我想找到2或3种药物的流行或常见组合。我可以使用统计方法吗?

2
如何统计检验我的网络(图形)是否是“小世界”网络?
阿小世界网络是一种类型的数学曲线图,其中大多数节点不在彼此的邻居,但大多数节点可以与每个其它由少量啤酒花或步骤的到达。具体来说,小世界网络定义为这样一个网络,其中两个随机选择的节点之间的典型距离L(所需步数)与网络中节点数N的对数成正比增长,即 大号≈ 日志(N)大号≈日志⁡(ñ) L \approx \log(N) L和N之间的这种关系是“拇指法则”。我正在为我的研究寻找更专业的小世界图确定。如何测试我的图是否是小世界图? 这个小世界实验包括由斯坦利·米尔格拉姆(Stanley Milgram)和其他研究人员进行的几项实验,旨在研究美国人群社交网络的平均路径长度。该研究具有开创性,因为它表明人类社会是一个以短路径为特征的小世界网络。尽管米尔格拉姆本人并没有使用该术语,但这些实验通常与短语“六度分离”相关。 先感谢您。

2
除了Durbin-Watson,还有哪些假设检验可以得出不确定的结果?
所述德宾沃森检验统计量可以位于一个不确定区域,其中它是不可能要么拒绝或不拒绝零假设(在这种情况下,零自相关的)。 还有哪些其他统计检验可以得出“不确定”的结果? 对于为什么这组测试无法做出二进制的“拒绝” /“拒绝失败”决定,是否有一般的解释(挥手就好)? 如果有人可以将决策理论的涵义作为他们对后一个查询的答案的一部分,那将是一个额外的奖励—是否存在(结论)附加类别是否意味着我们需要考虑第一类和第二类的成本错误以更复杂的方式?

1
如何测试“先前状态”是否对R中的“后续状态”有影响
想象一个情况:我们有三个矿山的历史记录(已有20年)。白银的存在是否会增加明年发现黄金的可能性?如何测试这样的问题? 这是示例数据: mine_A <- c("silver","rock","gold","gold","gold","gold","gold", "rock","rock","rock","rock","silver","rock","rock", "rock","rock","rock","silver","rock","rock") mine_B <- c("rock","rock","rock","rock","silver","rock","rock", "silver","gold","gold","gold","gold","gold","rock", "silver","rock","rock","rock","rock","rock") mine_C <- c("rock","rock","silver","rock","rock","rock","rock", "rock","silver","rock","rock","rock","rock","silver", "gold","gold","gold","gold","gold","gold") time <- seq(from = 1, to = 20, by = 1)

1
比较混合效应模型和固定效应模型(测试随机效应的显着性)
给定三个变量y和x,它们是正连续的,而和z是分类的,我有两个候选模型,分别为: fit.me <- lmer( y ~ 1 + x + ( 1 + x | factor(z) ) ) 和 fit.fe <- lm( y ~ 1 + x ) 我希望比较这些模型,以确定哪种模型更合适。在我看来,从某种意义上讲,它fit.fe是嵌套的fit.me。通常,当这种一般情况成立时,可以执行卡方检验。在中R,我们可以使用以下命令执行此测试, anova(fit.fe,fit.me) 当两个模型包含随机效应(通过生成lmer从所述lme4包),则anova()命令工作正常。由于边界参数的存在,通常建议通过仿真测试所得的卡方统计量,尽管如此,我们仍可以在仿真过程中使用该统计量。 当两个模型都只包含固定效果时,此方法(以及相关的anova()命令)可以正常工作。 但是,当一个模型包含随机效应而精简模型仅包含固定效应时,如上述情况一样,该anova()命令将不起作用。 更具体地说,出现以下错误: > anova(fit.fe, fit.me) Error: $ operator not defined for this S4 class 从上方使用Chi-Square方法(模拟)有什么问题吗?还是这仅仅是anova()不知道如何处理由不同函数生成的线性模型的问题? 换句话说,手动生成从模型得出的卡方统计量是否合适?如果是这样,比较这些模型的适当自由度是多少?据我估计: F=((SSEreduced−SSEfull)/(p−k))((SSEfull)/(n−p−1))∼Fp−k,n−p−1F=((SSEreduced−SSEfull)/(p−k))((SSEfull)/(n−p−1))∼Fp−k,n−p−1 F …

3
在线性回归模型还是非线性回归模型之间进行选择
如何选择使用线性回归模型还是非线性回归模型? 我的目标是预测Y。 在简单的和数据集的情况下,我可以通过绘制散点图轻松确定应使用哪种回归模型。xxxyyy 在像和这样的多变量的情况下。如何确定必须使用哪种回归模型?也就是说,我将如何决定使用简单的线性模型还是非线性模型(例如二次,三次等)。x1,x2,...xnx1,x2,...xnx_1,x_2,...x_nyyy 是否有任何技术或统计方法或图形绘制来推断和决定必须使用哪种回归模型?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.