统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
在双向方差分析中交互作用的零假设是什么?
假设我们有两个因子(A和B),每个因子有两个级别(A1,A2和B1,B2)和一个响应变量(y)。 在执行类型的双向ANOVA时: y~A+B+A*B 我们正在测试三个原假设: 因子A的均值没有差异 因子B的均值没有差异 因子A和B之间没有相互作用 写下后,很容易提出前两个假设(对于1来说是)H0:μA1=μA2H0:μA1=μA2H_0:\; \mu_{A1}=\mu_{A2} 但是假设3应该如何表述呢? 编辑:以及如何将其制定为两个以上级别的情况? 谢谢。

14
易于强大的数据探索软件
在抵制电子表格混乱的尝试中,我经常宣扬福音,寻求更强大的工具,例如真正的统计软件(R,Stata等)。最近,有人断然地说他们根本不会学习编程,这使我对这种观点提出了挑战。我想为他们提供不需要编程的数据分析工具(但理想情况下,如果他们决定以后将脚趾浸入水中,则可以扩展到编程)。我可以推荐什么样的数据探索软件包?

2
调整ROC曲线分析中的协变量
这个问题是关于在存在相关量表的情况下,在多维筛查问卷中估算截止分数以预测二值终点的问题。 有人问我在设计可用于酗酒筛查的测量量表(人格特质)每个维度的临界值时,控制相关子分数的兴趣。也就是说,在这种特殊情况下,此人对调整外部协变量(预测变量)不感兴趣-这导致在经协变量调整的ROC曲线下产生(局部)面积(例如(1-2)),但实际上对其他分数没有影响来自同一份调查表,因为它们彼此相关(例如“冲动”与“寻求感觉”)。它构成了一个GLM,在左侧包含感兴趣的得分(我们寻求分值)和从同一份问卷中计算出的另一个得分,而在右侧则可能显示饮酒状态。 为了阐明(按@robin请求),假设我们有分数,例如(例如,焦虑,冲动,神经质,寻求感觉),并且我们想找到一个值(即“阳性案例”),否则为“负数”)。在设计此类临界值时,我们通常会针对其他风险因素(例如性别或年龄)进行调整(使用ROC曲线分析)。现在,由于已知SS与IMP相关联,因此如何在性别,年龄和寻求感觉(SS)上调整冲动(IMP)呢?换句话说,如果去除了年龄,性别和焦虑水平的影响,我们将获得IMP的临界值。x j t j x j > t jj = 4Ĵ=4j=4XĴXĴx_jŤĴŤĴt_jXĴ> 吨ĴXĴ>ŤĴx_j>t_j 除了说分界必须尽可能简单之外,我的回应是 关于协变量,我建议评估有无调整后的AUC,以查看预测性能是否提高。在这里,您的协变量仅仅是从同一度量工具定义的其他子评分,而我从未遇到过这种情况(通常,我会根据已知的风险因素进行调整,例如年龄或性别)。[...]此外,由于您对预后问题(即问卷的筛查功效)感兴趣,因此您可能还对估计阳性预测值(PPV,测试结果呈阳性并被正确分类的患者的概率)感兴趣您可以根据调查表上的子分数将主题分类为“阳性”或“阴性”。请注意, 您是否对这种特殊情况有更全面的了解,并在可能的情况下链接到相关论文? 参考文献 Janes,H和Pepe,MS(2008)。在诊断,筛选或预后标志物研究中调整协变量:新环境中的旧观念。美国流行病学杂志 168(1):89-97。 Janes,H和Pepe,MS(2008)。ROC分析中的调节协变量。华盛顿大学生物统计学工作论文系列,论文322。
20 epidemiology  roc 

3
将“内核技巧”应用于线性方法?
该核技巧在几个机器学习模型(如使用SVM)。它于1964年在“模式识别学习中势函数方法的理论基础”一书中首次引入。 维基百科的定义是 一种使用线性分类器算法通过将原始非线性观测值映射到高维空间来解决非线性问题的方法,随后使用线性分类器;这使得新空间中的线性分类等同于原始空间中的非线性分类。 已扩展到非线性问题的线性模型的一个示例是内核PCA。内核技巧可以应用于任何线性模型,还是有一定的限制?

6
了解ANOVA和ANCOVA的好资源?
我正在进行论文实验,并且正在寻找一本有趣的书/网站以正确了解ANOVA和ANCOVA的工作方式。我有很好的数学背景,所以我不一定需要粗俗的解释。 我还想知道如何确定何时使用ANOVA代替ANCOVA。

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

4
实践中使用的Metropolis-Hastings算法
我今天正在阅读Christian Robert的Blog,非常喜欢他正在讨论的新的Metropolis-Hastings算法。看起来很容易实现。 每当我对MCMC进行编码时,我都会坚持使用非常基本的MH算法,例如对数刻度上的独立移动或随机游动。 人们通常使用哪种MH算法?特别是: 为什么使用它们? 从某种意义上讲,您必须认为它们是最佳的-毕竟,您通常会使用它们!那么,您如何判断最优性:易于编码,收敛,... 我对实际使用的内容特别感兴趣,即您编写自己的方案时。

3
使用多重插补时如何为混合效果模型的方差成分组合置信区间
多重插补(MI)的逻辑是不对缺失值进行一次插补,而是对几次(通常为M = 5)次进行插补,从而得出M个完整的数据集。然后使用完整数据方法分析M个完整的数据集,然后使用Rubin公式将M个估计值及其标准误差组合在一起,以获得“总体”估计值及其标准误差。 到目前为止很好,但是当涉及到混合效果模型的方差成分时,我不确定如何应用此配方。方差分量的采样分布是不对称的-因此,不能以典型的“估计±1.96 * se(估计)”形式给出相应的置信区间。因此,R包lme4和nlme甚至不提供方差分量的标准误差,而仅提供置信区间。 因此,我们可以在数据集上执行MI,然后在M个完整的数据集上拟合相同的混合效应模型后,获得每个方差分量的M个置信区间。问题是如何将这M个区间合并为一个“总体”置信区间。 我想这应该是可能的-一篇文章的作者(yucel和demirtas(2010)非正常随机效应对MI推理的影响)似乎已经做到了,但是他们没有确切解释如何做。 任何提示将是非常义务! 干杯啦


4
优惠券收集时间的下限是多少?
在经典的Coupon Collector问题中,众所周知,完成一组随机挑选的优惠券所需的时间满足,和。TTTnnnE[T]∼nlnnE[T]∼nln⁡nE[T] \sim n \ln n V一个- [R (Ť)〜ñ2Var(T)∼n2Var(T) \sim n^2镨(Ť&gt; n lnn + c n )&lt; e− cPr(T&gt;nln⁡n+cn)&lt;e−c\Pr(T > n \ln n + cn) < e^{-c} 这个上限比切比雪夫不等式给出的上限更好,后者约为 1 / c21/c21/c^2。 我的问题是:是否有相应优于切比雪夫下限为ŤTT?(例如,类似镨(Ť&lt; n lnn − c n )&lt; e− cPr(T&lt;nln⁡n−cn)&lt;e−c\Pr(T < n \ln n - cn) < e^{-c})?

6
我的天气预报员准确吗?
一个困扰我一段时间的问题,我不知道该如何解决: 每天,我的气象员都会有一定百分比的降雨机会(假设计算得出的数字为9000位数,而他从未重复输入数字)。随后的每一天,要么下雨,要么不下雨。 我有多年的数据-pct机会还是下雨。考虑到这位气象员的历史,如果他今晚说明天的下雨机会是X,那么我对下雨的真正可能性的最佳猜测是什么?


5
主题测试后的特设课程?
在主题测试中进行事后调查的首选方法是什么?我已经看过使用Tukey的HSD的已发表工作,但是对Keppel和Maxwell&Delaney的评论表明,这些设计中可能会违反球形性,因此误差项不正确,并且这种方法存在问题。Maxwell&Delaney在他们的书中提供了解决该问题的方法,但我从未在任何统计数据包中看到过这样做的方法。他们提供的方法合适吗?对多个配对样本t检验进行Bonferroni或Sidak校正是否合理?可接受的答案将提供通用的R代码,该代码可以对包装中的ezANOVA功能所产生的简单,多路和混合设计进行事后分析ez,并提供适当的引文,可能会引起审阅者的注意。

4
是模型适合数据还是数据适合模型?
将模型拟合至数据与将数据拟合至模型之间在概念或程序上有区别吗?第一个措词的示例可以在https://courses.washington.edu/matlab1/ModelFitting.html中找到,第二个可以在https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html中找到。

2
贝叶斯关于过度拟合的思考
我花了很多时间来开发用于验证传统的频繁统计领域中的预测模型的方法和软件。将更多的贝叶斯思想付诸实践和教学时,我发现需要拥抱一些关键差异。首先,贝叶斯预测模型要求分析人员认真考虑可能针对候选特征进行定制的先验分布,这些先验将拉近模型(即,针对不同的预测特征对缩略/惩罚/正则化进行不同程度的惩罚) )。其次,“真实”贝叶斯方法不会产生单个模型,而是会获得整个后验分布以进行预测。 考虑到这些贝叶斯特征,过度拟合意味着什么?我们应该评估一下吗?如果是这样,怎么办?我们如何知道贝叶斯模型何时可用于现场?还是当我们使用我们为预测而开发的模型时,后验将带有所有谨慎的不确定性,这是一个有争议的问题吗? 如果我们强制将贝叶斯模型提炼为单个数字,例如后均值/众数/中位数风险,那么思维将如何改变? 我在这里看到一些相关的想法。在这里可以找到平行讨论。 后续问题::如果我们完全是贝叶斯模型,并且在查看数据之前花了一些时间在先验上,并且我们在适当地指定了数据似然性的情况下拟合了模型,那么我们是否必须对模型过度拟合感到满意?还是我们需要做一些我们在常人世界中所做的事情,在该世界中,随机选择的主题在平均水平上可能会被很好地预测,但是如果我们选择一个预测值非常低或预测值非常高的主题,则会出现回归是什么意思?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.