统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

16
正常性测试“基本上没有用”吗?
一位前同事曾经对我说过以下话: 我们通常将正态性检验应用于过程的结果,该过程的结果在null下会生成仅渐近或接近正常的随机变量 (“渐近”部分取决于一些我们不能做大的数量);在廉价内存,大数据和快速处理器的时代,正态性测试应 始终拒绝大型(尽管不是那么大)样本的正态分布无效。因此,相反地,正常性测试仅应用于较小的样本,前提是它们可能具有较低的功效且对I型速率的控制较少。 这是有效的论点吗?这是众所周知的论点吗?是否有比“正常”更模糊的零假设的著名检验?




11
如何理解自由度?
在Wikipedia中,对统计自由度有三种解释: 在统计中,自由度数是统计的最终计算中可以自由变化的值的数目。 统计参数的估计可以基于不同数量的信息或数据。进入参数估计的独立信息的数量称为自由度(df)。通常,参数估计的自由度等于进入估计的独立分数的数量减去在参数本身的估计中用作中间步骤的参数的数量(在样本方差中为一,因为样本均值是唯一的中间步骤)。 在数学上,自由度是随机向量的域的维数,或本质上是“自由”分量的数量:在完全确定向量之前,需要知道多少个分量。 粗体字是我不太了解的内容。如果可能,一些数学公式将有助于阐明这一概念。 这三种解释是否也彼此一致?


16
统计测试中p值和t值的含义是什么?
在修完统计学课程,然后试图帮助同学后,我注意到一个启发很多总部敲门鼓的科目正在解释统计学假设检验的结果。看来学生很容易学习如何执行给定测试所需的计算,但是却迷上了解释结果的过程。许多计算机化工具以“ p值”或“ t值”报告测试结果。 您如何向大学生学习统计学第一门课程解释以下几点: “ p值”相对于要检验的假设是什么意思?在某些情况下应该寻找高p值或低p值吗? p值和t值之间是什么关系?




2
R的lm()输出的解释
R中的帮助页面假定我知道这些数字的含义,但我不知道。我试图真正直观地理解这里的每个数字。我将只发布输出并对我发现的内容发表评论。可能(会)有错误,因为我只写我想像的东西。我主要想知道系数中的t值是什么意思,以及为什么它们会显示残留标准误差。 Call: lm(formula = iris$Sepal.Width ~ iris$Petal.Width) Residuals: Min 1Q Median 3Q Max -1.09907 -0.23626 -0.01064 0.23345 1.17532 这是残差的5点汇总(它们的平均值始终为0,对吧?)。可以使用这些数字(我在这里猜)来快速查看是否有任何较大的异常值。如果残差远离正态分布(它们应该是正态分布),您也已经在这里看到了。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.30843 0.06210 53.278 < 2e-16 *** iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ …

6
是有用的或危险的?
我浏览了 Cosma Shalizi的一些讲义(特别是第二堂课的 2.1.1节),并被提醒您,即使具有完全线性的模型,您也可以获得非常低的。R2R2R^2 用Shalizi的示例来解释:假设您有一个模型,其中是已知的。然后\ newcommand {\ Var} {\ mathrm {Var}} \ Var [Y] = a ^ 2 \ Var [x] + \ Var [\ epsilon],解释的方差量为a ^ 2 \ Var [X],因此R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ …



12
为什么95%的置信区间(CI)并不意味着95%的机会包含平均值?
似乎在这里通过各种相关问题,我们达成共识,即所谓的“ 95%置信区间”中的“ 95%”部分是指这样的事实:如果我们要多次精确地重复采样和CI计算过程, ,因此计算得出的95%的配置项将包含总体平均值。这也似乎是共识,这一定义确实不允许人们从单个95%CI得出结论,即平均值有95%的概率落在CI内。但是,我不理解前者在暗示许多95%的配置项包含总体均值的情况下并不暗示后者,就我们的不确定性而言(关于我们实际计算的配置项是否包含总体)是不是)强迫我们使用想象中的案例的基准利率(95%)作为我们对实际案例包含CI的概率的估计? 我见过一些文章按照“实际计算的CI包含总体均值或不包含总体均值,因此其概率为1或0”的论点进行争论,但这似乎暗示了对概率依赖性的奇怪定义在未知状态下(例如,一个朋友扔公平的硬币,隐藏结果,我被禁止说有50%的可能性是正面的)。 我当然错了,但是我看不出逻辑哪里出错了...

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.