2 对变量进行分类会将其从无关紧要变为重要 我有一个数值变量,该变量在多元逻辑回归模型中并不重要。但是,当我将其分类时,突然变得很重要。这对我来说是非常违反直觉的:对变量进行分类时,我们会给出一些信息。 怎么会这样? 17 regression logistic statistical-significance multivariate-analysis
6 如果样本量很小,我可以相信t检验的重要结果吗? 如果我的单面t检验结果显着,但是样本量很小(例如,低于20个左右),我仍然可以相信这个结果吗?如果没有,我应该如何处理和/或解释此结果? 17 statistical-significance t-test interpretation sample-size small-sample
2 统计检验可以返回p值为零吗? 我的意思不是接近零的值(某些统计软件将其舍入为零),而是真正的零值。如果是这样,这是否意味着假设零假设为真的情况下获得所获得数据的概率也为零?什么是统计测试(一些示例)可以返回此类结果? 编辑第二句话,删除短语“原假设的概率”。 17 hypothesis-testing statistical-significance p-value
3 使用t检验比较两个分类器准确性结果的统计显着性 我想比较两个分类器在统计上的准确性。两个分类器都在同一数据集上运行。这使我相信我应该使用我一直在阅读的样本进行t检验。 例如: Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 这是要使用的正确测试吗?如果是这样,我如何计算分类器之间的准确性差异是否显着? 还是我应该使用其他测试? 17 machine-learning statistical-significance classification t-test
2 “假设检验”和“重要性检验”有什么区别? “假设检验”和“重要性检验”这两个短语之间是否存在差异? 在@Micheal Lew的详细回答之后,我有一个困惑,即当今的假设(例如,t检验到检验均值)是“显着性检验”还是“假设检验”的例子?还是两者的结合?您如何通过简单的示例来区分它们? 17 hypothesis-testing statistical-significance
2 p值分布的高方差(Taleb 2016中的一个论点) 我正在尝试了解Taleb在2016年提出的总体观点,即标准P值的元分布。 在其中,Taleb针对p值的不可靠性提出了以下论点(据我所知): 对来自某个分布X的nnn数据点进行操作的估计过程将输出ap值。如果我们从该分布中获得n个点并输出另一个p值,则可以对这些p值求平均值,以在极限范围内获得所谓的“真实p值”。XXX 该“真实p值”显示出令人不安的高方差,因此具有“真实p值” 的分布+程序.12.12.12将有60%的时间报告p值<.05。 问题:这如何与赞成值的传统论点相吻合。据我了解,p值应该告诉您过程将为您提供正确间隔(或其他时间)的时间百分比。但是,本文似乎认为这种解释具有误导性,因为如果再次运行该过程,p值将不会相同。ppp 我错过了重点吗? 16 hypothesis-testing statistical-significance p-value
1 除了埃贡·皮尔森(Egon Pearson)之外,还有人访问过Gosset的1904年论文吗? 除了埃贡·皮尔森(Egon Pearson)之外,还有人访问过威廉·西利·戈塞特(William Sealy Gosset)1904年的报告““错误法律”在啤酒厂的应用”吗?我想这是吉尼斯(Guinness)的财产,但鉴于它的历史意义,如果有人知道如何使用它,那将是一个非常有趣的阅读。 16 statistical-significance history
3 时间序列的最佳统计检验是什么? 我有一个简单的时间序列,每个数据集有固定的时间间隔5-10个数据点。我想知道确定两个数据集是否不同的最佳方法是什么。我应该在每个数据点上进行t检验,还是查看曲线下的面积,还是应该使用某种更好的多元模型? 16 time-series statistical-significance
5 将不重要的结果解释为“趋势” 最近,两个不同的同事对条件之间的差异使用了一种论点,这对我来说似乎是不正确的。这两个同事都使用统计信息,但他们不是统计学家。我是统计学的新手。 在这两种情况下,我都认为,由于实验中两个条件之间没有显着差异,因此就操纵对这些组做出一般性主张是不正确的。请注意,“提出一般性主张”的含义类似于写:“ A组比B组更频繁地使用X”。 我的同事反驳说:“即使没有显着差异,趋势仍然存在”和“即使没有显着差异,也仍然存在差异”。对我来说,这两种声音听起来都是模棱两可的,也就是说,它们将“差异”的含义从“可能是除偶然性以外的结果(即统计意义)的差异”更改为“任何非组之间的测量差异为零”。 我的同事的回答正确吗?我没有接受他们,因为他们比我高。 16 statistical-significance
1 基础科学中的顺序假设检验 我是一名药理学家,以我的经验,几乎所有基础生物医学研究论文都使用Student's t检验(以支持推理或符合期望...)。几年前,引起我注意的是,学生t检验不是可以使用的最高效的检验:顺序检验可为任何样本量提供更大的功效,或者平均等效功效的样本量要小得多。 在临床研究中使用了复杂程度不同的顺序程序,但我从未见过在基本的生物医学研究出版物中使用过这种程序。我注意到,入门级的统计教科书也没有这些内容,大多数基础科学家都可能会看到。 我的问题有三点: 鉴于顺序测试具有非常重要的效率优势,为什么没有更广泛地使用它们? 序贯方法的使用是否有缺点,这意味着不鼓励非统计学家使用序贯方法? 是否向统计专业的学生教授顺序测试程序? 16 hypothesis-testing teaching statistical-significance
1 在原假设下,可交换样本背后的直觉是什么? 排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设? 15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information
3 二次项或交互项在单独意义上都是重要的,但两者都不在一起 作为作业的一部分,我必须对具有两个预测变量的模型进行拟合。然后,我不得不针对所包含的预测变量之一绘制模型残差的图,并根据该残差进行更改。该图显示了曲线趋势,因此我为该预测变量包括了一个二次项。新模型显示二次项很重要。到目前为止一切都很好。 但是,数据表明交互也很有意义。在原始模型中添加一个交互项也可以“固定”曲线趋势,并且在添加到模型中时也非常重要(没有二次项)。问题是,当将二次项和交互项都添加到模型中时,其中一项不重要。 我应该在模型中包括哪个术语(二次方或相互作用),为什么? 15 statistical-significance multiple-regression modeling
1 何时/何处使用功能数据分析? 我是很新的功能性数据分析(FDA)。我在读: Ramsay,James O.和Silverman,Bernard W.(2006年),Functional Data Analysis,第二版,纽约,Springer。 但是,我仍然不清楚在哪里/何时使用FDA?有人可以给我一个例子,特别是在医学研究方面吗?我真的不知道在哪里/什么时候在实践中应用FDA。 对于增长曲线数据,我们可以使用非线性混合模型,对于纵向数据,我们可以使用重复测量方差分析,对于多元数据/高维数据,我们可以使用PCA,FA等。因此,何时/何地是最佳时机/使用FDA的情况? 15 statistical-significance cross-validation nonparametric
4 测试时间序列在统计上的显着差异? 我有两个证券A和B在相同时间段内以相同频率采样的时间序列。我想测试两个价格之间在时间上是否存在统计上的显着差异(我的零假设是差异为零)。具体来说,我使用价格差异作为市场效率的代理。想象一下,A和B是有价证券及其综合等价物(即,两者都声称拥有完全相同的现金流量)。如果市场有效,则两者的价格应完全相同(除非交易成本不同,等等),或者价格差为零。这就是我要测试的。最好的方法是什么? 我可能已经在“差异”时间序列(即AB时间序列)上直观地进行了双向t检验,并测试了 = 0。但是,我怀疑可能会有更强大的测试,其中考虑了潜在的同方差或异常值。总的来说,使用证券价格时需要注意什么?μ0μ0\mu_0 15 time-series hypothesis-testing statistical-significance
5 我可以忽略线性模型中非重要因素水平的系数吗? 在这里寻求关于线性模型系数的澄清之后,我有一个关于因子水平系数的非有效值(高p值)的后续问题。 示例:如果我的线性模型包含一个具有10个水平的因子,并且其中只有3个水平具有与之相关的显着p值,那么当使用该模型预测Y时,如果受试者属于以下情况之一,我可以选择不包括系数项:非重要级别? 更彻底地讲,将7个不重要的级别合并为一个级别并重新分析是错误的吗? 15 statistical-significance linear-model model-selection regression-coefficients regression-strategies