统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


8
严格定义离群值?
人们经常谈论处理统计中的异常值。据我所知,困扰我的是,离群值的定义完全是主观的。例如,如果某个随机变量的真实分布非常重尾或是双峰的,则用于检测异常值的任何标准可视化或摘要统计信息都将错误地删除您要从中采样的分布部分。如果存在异常值,那么对异常值的严格定义是什么?如何在不将不合理的主观性引入分析的情况下处理异常值?


4
统计模型备忘单
我想知道是否有一个统计模型“备忘单”列出了任何或更多信息: 何时使用模型 什么时候不使用模型 必需和可选输入 预期产出 该模型是否已在不同领域(政策,生物,工程,制造等)进行过测试? 在实践或研究中被接受吗? 预期变化/准确性/精度 注意事项 可扩展性 不推荐使用的模型,避免或不使用 等.. 我以前在各种网站上都看到过层次结构,在各种教科书中也看到了一些简单的模型备忘单。但是,如果有一个更大的模型可以包含基于不同类型的分析和理论的各种类型的模型,那就太好了。

5
为什么多重比较是一个问题?
我发现很难理解多重比较到底是什么问题。举个简单的比喻,可以说一个会做出很多决定的人会犯很多错误。因此,应采用非常保守的预防措施,例如Bonferroni校正,以使此人犯任何错误的可能性尽可能低。 但是,为什么我们要关心一个人在他/她所做的所有决定中是否犯了任何错误,而不是错误的决定所占的百分比? 让我尝试解释一下让我困惑的另一个类比。假设有两名法官,一名是60岁,另一名是20岁。然后Bonferroni更正告诉20岁的人在决定处决时要尽可能保守,因为他将担任法官工作很多年,将做出更多决定,因此他必须谨慎。但是,一个60岁的老人可能很快就会退休,做出的决定更少,因此与另一个老人相比,他可能会更加粗心。但实际上,无论他们做出的决定总数是多少,两位法官都应同样谨慎或保守。我认为这种类比或多或少地转化为应用Bonferroni校正的实际问题,我发现这与直觉相反。


4
是否有测试来确定GLM过度分散是否显着?
我正在R中创建Poisson GLM。要检查是否存在过度分散,我正在研究剩余偏差与所提供的自由度的比率summary(model.name)。 是否有一个临界值或检验此比率被认为是“重要的”?我知道如果> 1,那么数据就会分散,但是如果我的比率相对接近1(例如,一个比率为1.7(残差= 25.48,df = 15),另一个比率为1.3(rd = 324,df) = 253)],我还是应该切换到拟泊松/负二项式?我在这里发现此测试的意义:1-pchisq(residual deviance,df),但是我只看过一次,这让我感到紧张。我还读到(找不到源),比率<1.5通常是安全的。意见?


6
如何避免R图中的标签重叠?[关闭]
我正在尝试在R中标记一个非常简单的散点图。这是我使用的方法: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) 如您所见,结果是中等的(单击放大): 我尝试使用textxy函数来弥补这一点,但这并不是更好。对于密集的群集,使图像本身变大不起作用。 有什么功能或简便的方法可以弥补这一点,让R绘制不重叠的标签吗? 这是我拥有的一小部分数据: Name;SI;TI 01_BAD_talking_head;6.944714;4.421208 01_GOOD_talking_head;5.680141;4.864035 01_GOOD_talking_head_subtitles;7.170114;4.664205

4
输出层有哪些激活功能?
虽然隐藏层的激活函数的选择非常明确(大多数为S型或tanh),但我想知道如何确定输出层的激活函数。常见的选择是线性函数,S形函数和softmax函数。但是,什么时候应该使用哪个呢?

3
从两个不同的回归测试系数相等
这似乎是一个基本问题,但是我只是意识到我实际上不知道如何从两个不同的回归中检验系数的相等性。谁能对此有所启发? 更正式地说,假设我运行以下两个回归: 和 其中表示回归的设计矩阵,表示回归的系数向量。请注意,和可能存在很大差异,具有不同的尺寸等。例如,我对是否感兴趣。y1=X1β1+ϵ1y1=X1β1+ϵ1 y_1 = X_1\beta_1 + \epsilon_1 y2=X2β2+ϵ2y2=X2β2+ϵ2 y_2 = X_2\beta_2 + \epsilon_2 XiXiX_iiiiβiβi\beta_iiiiX1X1X_1X2X2X_2β^11≠β^21β^11≠β^21\hat\beta_{11} \neq \hat\beta_{21} 如果这些来自相同的回归,那将是微不足道的。但是由于它们来自不同的人,所以我不确定该怎么做。有没有人有想法或可以给我一些建议? 我的问题的细节是:我的第一个直觉是看置信区间,如果它们重叠,那么我会说它们本质上是相同的。但是,此过程未附带正确的测试量(例如,每个单独的置信区间的,但是共同查看它们的概率将不同)。我的第二个直觉是进行正常的t检验。也就是说,拿α=0.05α=0.05\alpha=0.05 β11−β21sd(β11)β11−β21sd(β11) \frac{\beta_{11}-\beta_{21}}{sd(\beta_{11})} 其中被用作我的原假设的值。但是,这没有考虑的估计不确定性,答案可能取决于回归的顺序(我将其称为1和2)。β21β21\beta_{21}β21β21\beta_{21} 我的第三个想法是像在标准测试中那样,对来自同一回归的两个系数是否相等进行测试,即 β11−β21sd(β11−β21)β11−β21sd(β11−β21) \frac{\beta_{11}-\beta_{21}}{sd(\beta_{11}-\beta_{21})} 由于两者均来自不同的回归,因此出现了复杂性。注意 Var(β11−β21)=Var(β11)+Var(β21)−2Cov(β11,β21)Var(β11−β21)=Var(β11)+Var(β21)−2Cov(β11,β21) Var(\beta_{11}-\beta_{21}) = Var(\beta_{11}) + Var(\beta_{21}) -2 Cov(\beta_{11},\beta_{21}) 但由于它们来自不同的回归,我如何获得?Cov(β11,β21)Cov(β11,β21)Cov(\beta_{11},\beta_{21}) 这导致我在这里提出这个问题。这必须是标准程序/标准测试,但我发现没有任何与该问题足够相似的东西。因此,如果有人可以指出正确的程序,我将不胜感激!

5
在集群之前扩展数据是否重要?
我找到了本教程,它建议您在聚类之前对要素运行比例函数(我相信它将数据转换为z分数)。 我想知道这是否必要。我问的主要是因为当我不缩放数据时有一个不错的弯头,但是当缩放时它消失了。:)

4
二项式随机变量样本均值的标准误
假设我正在运行一个可能有2个结果的实验​​,并且我假设2个结果的基本“真实”分布是参数和的二项式分布:。p B i n o m i a l(n ,p )ññnpppB i n o m i a l(n,p)Binomial(n,p){\rm Binomial}(n, p) 我可以根据的方差形式 计算标准误差: 其中。因此,。对于标准错误,我得到:,但是我在某处看到。我做错了什么?乙我Ñø米我一升(Ñ,p)σ2X=Ñpqq=1-pσX=√小号ËX= σXñ√SEX=σXñSE_X = \frac{\sigma_X}{\sqrt{n}}B i n o m i a l(n,p)乙一世ñØ米一世一种升(ñ,p){\rm Binomial}(n, p)σ2X= n p qσX2=ñpq \sigma^{2}_{X} = npqq= 1 − pq=1个-pq = 1-p SEX= √σX= n p …


7
面向初学者的神经网络参考(教科书,在线课程)
我想学习神经网络。我是计算语言学家。我知道统计机器学习方法,并且可以使用Python进行编码。 我希望从其概念入手,并从计算语言学的角度了解一种或两种可能有用的流行模型。 我浏览了网络以供参考,并找到了一些书籍和材料。 Ripley,Brian D.(1996)模式识别与神经网络,剑桥 Bishop,CM(1995年),《神经网络用于模式识别》,牛津:牛津大学出版社。 一些链接,例如本文,这些课程笔记(多伦多大学心理学系),这些课程笔记(威斯康星大学计算机科学大学)和此幻灯片(Facebook研究)。 如果有人知道课程,Coursera课程通常很好。我更喜欢具有清晰语言和大量示例的材料。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.