统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

7
如何在t检验或非参数检验之间进行选择,例如小样本中的Wilcoxon
某些假设可以通过学生t检验(可能在两样本案例中使用Welch的不等方差校正)进行检验,也可以通过非参数检验(例如Wilcoxon配对符号秩检验,Wilcoxon-Mann-Whitney U检验,或配对符号测试。我们如何就最适合的测试做出有原则的决定,尤其是在样本量很小的情况下? 许多介绍性教科书和讲义提供了一种“流程图”方法,在此方法中检查正态性(不建议(通过正态性检验,或更广泛地通过QQ图或类似方法))以在t检验或非参数检验之间做出决定。对于不成对的两样本t检验,可以进一步检查方差的均匀性,以决定是否应用韦尔奇校正。这种方法的一个问题是,决定采用哪种测试的方式取决于所观察的数据,以及这如何影响所选测试的性能(功率,I类错误率)。 另一个问题是很难检查小数据集中的正态性:正式测试的能力很低,因此很可能无法检测到违规,但是类似的问题也适用于将数据放在QQ图上。即使是严重的违规行为也可能无法发现,例如,如果分布是混合的,但没有从混合物的一种成分中获得观察结果。与大不同,我们不能依靠中心极限定理的安全网以及检验统计量和t分布的渐近正态性。ñnn 对此的一个原则响应是“安全第一”:无法可靠地验证小样本中的正态性假设,请坚持使用非参数方法。另一个是考虑任何假设正常的理由,从理论上(例如变量是几个随机分量的总和,应用CLT)或凭经验(例如以前的研究,值较大表明变量是正常的),并且仅在存在此类理由的情况下使用t检验。但这通常只能证明近似正态性是正确的,在自由度较低的情况下,很难判断避免使t检验无效所需接近正态性。ñnn 选择t检验或非参数检验的大多数指南都将重点放在正态性问题上。但是少量样本也会引发一些附带问题: 如果执行“无关样本”或“非配对” t检验,是否要使用Welch校正?有些人使用假设检验来检验方差是否相等,但是这里的功效较低。其他人则根据各种标准检查SD是否“合理地”关闭。除非有充分的理由相信总体方差相等,简单地对小样本始终使用Welch校正是否更安全? 如果您将方法的选择视为权能与鲁棒性之间的折衷,那么关于非参数方法的渐近效率的主张将无济于事。根据经验,有时会听到“ 如果数据确实正常,Wilcoxon测试具有t检验的95%的能力,如果数据不正常,则通常功能要强大得多,因此只使用Wilcoxon”,但是如果95%仅适用于大,则对于较小的样本,这是有缺陷的推理。ñnn 小样本可能使评估转换是否适合该数据变得非常困难或不可能,因为很难分辨转换后的数据是否属于(足够)正态分布。因此,如果QQ图显示非常正偏的数据(在记录日志后看起来更合理),对记录的数据进行t检验是否安全?对于较大的样本,这将非常诱人,但是如果很小,除非可能有理由期望对数正态分布首先是对数正态分布,否则我可能会推迟。ñnn 如何检查非参数的假设? 一些消息来源建议在应用Wilcoxon检验(将其作为位置而不是随机优势的检验)之前,先验证对称分布,这在检查正态性方面会带来类似的问题。如果我们首先使用非参数测试的原因是对“安全第一”的口号的盲从,那么从少量样本评估偏斜度的困难显然会导致我们降低配对符号测试的功效。 考虑到这些小样本问题,在确定t测试与非参数测试之间是否有一个良好的过程(希望可以引用)? 有几个很好的答案,但是也欢迎考虑使用其他替代等级测试的答案,例如置换测试。

4
如何直观地解释什么是内核?
许多机器学习分类器(例如支持向量机)允许指定一个内核。解释内核是什么的直观方式是什么? 我一直在思考的一个方面是线性和非线性内核之间的区别。简单来说,我可以说“线性决策函数”是“非线性决策函数”。但是,我不确定将内核称为“决策函数”是否是一个好主意。 有什么建议吗?


6
是否可以在不进行反向传播的情况下训练神经网络?
许多神经网络书籍和教程都在反向传播算法上花费了大量时间,反向传播算法本质上是计算梯度的工具。 假设我们正在建立一个具有约10K参数/权重的模型。是否可以使用一些无梯度优化算法来运行优化? 我认为计算数字梯度会太慢,但是其他方法(如Nelder-Mead,模拟退火或遗传算法)如何? 所有算法都会遭受局部极小值的困扰,为什么会迷恋梯度?


2
我们对“野外” p黑客了解多少?
短语“ p- hacking”(也称为“数据挖掘”,“监听”或“钓鱼”)是指各种统计不良行为,其结果在人工上具有统计学意义。有许多方法可以取得“更重要的”结果,包括但绝不限于: 仅分析发现模式的数据的“有趣”子集; 未针对多项测试进行适当调整,尤其是事后测试,并且未报告所进行的无关紧要的测试; 尝试对同一假设进行不同的检验,例如参数检验和非参数检验(此线程对此进行了一些讨论),但仅报告了最重要的检验; 试验数据点的包含/排除,直到获得所需的结果。一个机会来自“数据清理异常值”,但也适用于模棱两可的定义(例如在对“发达国家”的计量经济学研究中,不同的定义产生了不同的国家集)或定性的纳入标准(例如在荟萃分析中) ,某个特定研究的方法是否足够健壮到可以包括在内可能是一个很好的平衡论点); 前面的示例与可选停止有关,即,分析数据集并根据到目前为止收集的数据来决定是否收集更多数据(“这几乎是重要的,让我们再测量三名学生!”),而无需对此进行考虑。在分析中; 模型拟合期间的实验,尤其是要包含的协变量,还涉及数据转换/功能形式。 因此,我们知道可以进行p- hacking。它经常被列为“ p值的危险”之一,并且在ASA报告中提到了具有统计意义的意义,在此处通过Cross Validated进行了讨论,因此我们也知道这是一件坏事。尽管有一些可疑的动机和(特别是在学术出版物竞争中)适得其反的动机,但我怀疑无论是故意的渎职行为还是简单的无知,都很难弄清楚这样做的原因。有人从逐步回归中报告p值(因为他们发现逐步过程“产生了良好的模型”,但没有意识到所谓的p-values无效)位于后一个阵营中,但在上面我最后一个要点下,效果仍然是p -hacking。 当然,有证据表明p- hacking已经“存在”,例如Head等人(2015年)正在寻找能够感染科学文献的明显迹象,但是我们目前的证据基础是什么?我知道,Head等人采取的方法并非没有争议,因此,当前的文学状态或学术界的一般思维将很有趣。例如,我们是否有以下想法: 它的流行程度如何,以及在多大程度上可以将它的出现与出版偏见区分开来?(这种区别甚至有意义吗?) 在边界处,效果是否特别严重?例如,是否在处看到了类似的效果,还是我们看到p值的整个范围都受到影响?p ≈ 0.01p ≈ 0.05p≈0.05p \approx 0.05p ≈ 0.01p≈0.01p \approx 0.01 p- hacking的模式在各个学术领域是否有所不同? 我们是否知道p- hacking的哪种机制最常见(上面的要点中列出了其中的一些机制)?是否已证明某些形式比“其他形式”更难发现? 参考文献 负责人ML,Holman,L.,Lanfear,R.,Kahn,AT,&Jennions,MD(2015)。p- hacking在科学领域的范围和后果。PLoS Biol,13(3),e1002106。


13
在多元数据中识别异常值的最佳方法是什么?
假设我有一组包含至少三个变量的多变量数据。如何找到异常值?成对散点图将不起作用,因为离群值可能存在于3维中,而不是任何二维子空间中的离群值。 我不是在考虑回归问题,而是真正的多元数据。因此,涉及稳健回归或计算杠杆的答案无济于事。 一种可能是计算主成分分数,并在前两个分数的双变量散点图中寻找离群值。这样可以保证工作吗?有更好的方法吗?


6
基本数据检查测试
在我的工作中,我经常与其他人的数据集一起工作,非专家为我带来了临床数据,我帮助他们进行总结并进行统计检验。 我遇到的问题是,我带来的数据集几乎总是错字,不一致和其他各种问题。我很想知道其他人是否有标准测试,他们会尝试检查输入的任何数据集。 我过去常常为每个变量绘制直方图,但现在我意识到有很多可怕的错误可以在测试中幸免。例如,前几天我有一个重复测量数据集,对于某些人,该重复测量在时间2上与时间1上相同。这随后被证明是不正确的,正如您所期望的那样。另一个数据集包含一个个体,从非常严重的无序状态(以高分表示)变为无问题(以0表示)。这是不可能的,尽管我无法确切地证明这一点。 那么,我可以在每个数据集上运行哪些基本测试,以确保它们没有错别字并且不包含不可能的值? 提前致谢!



12
谁是贝叶斯主义者?
随着人们对统计数据产生兴趣,二分法“ Frequentist”与“ Bayesian”很快就变得司空见惯了(谁还没有读过Nate Silver的《信号与噪声》?)。在讲座和入门课程中,观点绝大多数是常客(MLE,值),但往往只花很少的时间来欣赏贝叶斯公式并触及先验分布的想法,通常是切向的。ppp 讨论贝叶斯统计的语气在对概念基础的尊重与对崇高目标之间的鸿沟的怀疑以及暗示对先验分布的选择的任意性或最终使用频数数学之间摇摆不定。 诸如“如果您是贝叶斯人的核心...”之类的句子比比皆是。 问题是,今天的贝叶斯是谁?他们是某些精选的学术机构,您知道如果您去那里会成为贝叶斯主义者?如果是这样,他们是否受到特别追捧?我们仅指的是一些受人尊敬的统计学家和数学家,如果是的话,他们是谁? 它们甚至以纯正的“贝叶斯”形式存在吗?他们会愉快地接受标签吗?它总是一个讨人喜欢的区别吗?他们是在会议上有奇特幻灯片的数学家,没有任何值和置信区间,容易在小册子上发现吗?ppp “贝叶斯”成为一个利基市场?我们是指少数统计学家吗? 还是当前的贝叶斯主义等于机器学习应用程序? ...或者甚至更有可能是,贝叶斯统计不是仅仅是统计的一个分支,而是一种超越了概率计算范围而成为科学哲学的认识论运动吗?在这方面,所有科学家都将是贝叶斯的内心……但是就不会有纯粹的贝叶斯统计学家无法渗透到频繁主义者的技术(或矛盾)中。


3
嵌套交叉验证,用于模型选择
如何使用嵌套交叉验证进行模型选择? 根据我在网上阅读的内容,嵌套的简历的工作方式如下: 在内部CV循环中,我们可以进行网格搜索(例如,对每种可用模型进行K折运算,例如,超参数/功能的组合) 在外部CV循环中,我们在一个单独的外部折叠中测量在内部折叠中获胜的模型的性能。 在此过程结束时,我们得到模型(是外部循环中的折叠数)。这些模型是在内部CV的网格搜索中获胜的模型,并且它们可能是不同的(例如,具有不同内核的SVM,根据网格搜索而训练有可能具有不同的功能)。KKKKKK 如何从此输出中选择模型?在我看来,从这获胜的模型中选择最佳模型并不是一个公平的比较,因为每个模型都是在数据集的不同部分进行训练和测试的。KKK 那么如何使用嵌套的简历进行模型选择呢? 我也阅读了一些有关讨论嵌套模型选择对分析学习过程如何有用的话题。我从外部K折中得到的分数可以进行哪些类型的分析/检查?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.