统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
当样本较大时,为什么不使用T分布来估计均值?
基础统计课程通常建议在样本大小n大(通常超过30或50)时使用正态分布来估计总体参数的平均值。学生的T分布用于较小的样本量,以说明样本标准偏差的不确定性。当样本量较大时,样本标准偏差可提供有关总体标准偏差的良好信息,从而可以进行正态分布估计。我明白了。 但是,当您可以准确地获得您的置信区间时,为什么要使用估计呢?无论样本大小如何,如果仅使用T分布可以准确估计出正态分布,那么使用正态分布有什么意义呢?

3
关联因果关系的真实例子
我正在寻找从关联证据中不恰当地推断因果关系的具体真实案例。 具体来说,我对满足以下条件的示例感兴趣: 因果关系的存在被广泛接受为足以产生显着影响(对公共政策,话语,个人决定等)的事实。 仅根据相关证据(也许伴随着一个连贯但未经证实的因果机制)推断出这种联系。 因果关系已被客观地伪造或至少引起了严重的怀疑。 我想到的两个例子并不理想: 钠的摄入量和血压:据我所知,从那时起已经确定,盐的摄入仅会增加钠敏感的个体的血压。有效因果关系的存在(尽管与最初接受的因果关系不同)使此示例的吸引力降低。 疫苗和自闭症:我可能有错误的背景知识,但我认为这种联系是根据相关性和(欺诈性)实验证据得出的。存在(伪)直接证据的事实削弱了这个例子。 注意:我已经看到了类似的问题: 教学示例:相关并不意味着因果关系 我的问题的主要不同之处在于,它关注的是实际的著名示例,而不关注因果关系明显缺失的示例(例如,体重和音乐技巧)。

3
pdf和pmf以及cdf是否包含相同的信息?
pdf和pmf以及cdf是否包含相同的信息? 对我来说,pdf将整个概率提供给某个点(基本上是该概率下的面积)。 pmf给出某一点的概率。 cdf给出特定点下的概率。 因此对我来说pdf和cdf具有相同的信息,但是pmf却没有,因为它给出了分布上某一点的概率x。


1
随机函数求根
假设我们有一个函数,我们只能通过一些噪声来观察它。我们不能计算˚F (X )直接,只有˚F (X )+ η其中η是一些随机噪声。(在实践中:我使用某种蒙特卡洛方法计算f (x )。)f(x)f(x)f(x)f(x)f(x)f(x)f(x)+ηf(x)+ηf(x) + \etaηη\etaf(x)f(x)f(x) 有什么方法可以找到根,即计算x使得f (x )= 0?fffxxxf(x)=0f(x)=0f(x) = 0 我正在寻找使所需的求值次数最少的方法,因为这在计算上很昂贵。f(x)+ηf(x)+ηf(x)+\eta 我对泛化到多个维度的方法特别感兴趣(即,求解)。f(x,y)=0,g(x,y)=0f(x,y)=0,g(x,y)=0f(x,y) = 0, g(x,y) = 0 我也对可以利用有关方差的某些信息的方法感兴趣,因为在使用MCMC 计算f (x )时,可能会得到一些估计。ηη\etaf(x)f(x)f(x)

2
统计检验可以返回p值为零吗?
我的意思不是接近零的值(某些统计软件将其舍入为零),而是真正的零值。如果是这样,这是否意味着假设零假设为真的情况下获得所获得数据的概率也为零?什么是统计测试(一些示例)可以返回此类结果? 编辑第二句话,删除短语“原假设的概率”。

2
序数逻辑回归的解释
我在R中运行此序数逻辑回归: mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars) 我得到了该模型的摘要: summary(mtcars_ordinal) Re-fitting to get Hessian Call: polr(formula = as.factor(carb) ~ mpg, data = mtcars) Coefficients: Value Std. Error t value mpg -0.2335 0.06855 -3.406 Intercepts: Value Std. Error t value 1|2 -6.4706 1.6443 -3.9352 2|3 -4.4158 1.3634 -3.2388 3|4 -3.8508 1.3087 -2.9425 …

1
R平方值适合比较模型吗?
我正在尝试使用汽车分类广告站点上提供的价格和功能来确定预测汽车价格的最佳模型。 为此,我使用了scikit-learn库中的几个模型以及pybrain和Neurolab中的神经网络模型。到目前为止,我使用的方法是通过某些模型(机器学习算法)运行固定数量的数据,并在那里比较使用scikit-learn度量模块计算的值。R2R2R^2 是的好方法,来比较不同车型的性能?R2R2R^2 尽管我对诸如弹性网和随机森林之类的模型获得了令人满意的结果,但对于神经网络模型却获得了非常差的值,那么是评估神经网络的合适方法(或非线性方法)?R2R2R^2R2R2R^2

3
“测试统计”是值还是随机变量?
我是一名正在上我的第一门统计学课程的学生。我对“测试统计”一词感到困惑。 在下面的内容中(我在一些教科书中看到了这一点),似乎是根据特定样本计算得出的特定值。 吨= ¯ X - μ 0ŤŤtt = x¯¯¯- μ0s / n--√Ť=X¯-μ0s/ñ t=\frac{\overline{x} - \mu_0}{s / \sqrt{n}} 但是,在下面的内容(我在其他一些教科书中也看到过)中,似乎是一个随机变量。 Ť = ¯ X - μ 0ŤŤTŤ= X¯¯¯¯- μ0小号/ n--√Ť=X¯-μ0小号/ñ T=\frac{\overline{X} - \mu_0}{S / \sqrt{n}} 那么,“测试统计”一词是指特定值还是随机变量,或者两者都表示?

3
对只有5位数摘要的两个分布进行统计检验
我有两个分布,其中只有5位数的摘要(最小,第一四分位数,中位数,第三四分位数,最大值)和样本大小已知。顺便问一下这里的问题,并非所有数据点都可用。 是否有任何非参数统计检验可以让我检查两者的基本分布是否不同? 谢谢!


9
兰德指数计算
我试图弄清楚如何计算群集算法的兰德指数,但我被困在如何计算真假阴性的问题上。 目前,我正在使用《信息检索入门》一书中的示例(Manning,Raghavan和Schütze,2009年)。在第359页,他们讨论了如何计算兰德指数。在此示例中,他们使用三个群集,并且这些群集包含以下对象。 a abbbbc 交流会 我替换了对象(原始符号改为字母,但是想法和计数保持不变)。我将给出书中确切的词,以查看他们在说什么: 我们首先计算TP + FP。这三个群集分别包含6、6和5个点,因此同一群集中的“阳性”或成对的文档总数为: TP + FP = ( 62)(62){6 \choose 2} + (62)(62){6 \choose 2} + (52)(52){5 \choose 2} = 15 + 15+ 10 = 40 其中,簇1中的a对,簇2中的b对,簇3中的c对以及簇3中的a对为正数: TP = (52)(52){5 \choose 2} + (42)(42){4 \choose 2} + (32)(32){3 \choose 2} + (22)(22){2 \choose 2} …
17 clustering 

1
R中的函数“效果”有什么作用?
我不理解effects()R的帮助文件中的解释: 对于用lm或拟合的线性模型aov,其影响是通过在拟合过程中将数据投影到QR分解生成的连续正交子空间上而获得的不相关的单自由度值。 谁能解释这是什么意思? 一维子空间所涉及的正交子空间是否被QR分解的Q部分的列所覆盖(因此彼此正交)?还是应该与其他东西正交?
17 r  regression 

1
即使在具有适当相关结构的模型中,自相关残差模式仍然存在吗?如何选择最佳模型?
语境 该问题使用R,但与一般统计问题有关。 我正在分析死亡率因素(由于疾病和寄生虫引起的死亡率百分比)对蛾类种群随时间推移的增长率的影响,其中每年从12个地点采样幼虫种群,为期8年。人口增长率数据显示出随时间变化的清晰但不规则的周期性趋势。 一个简单的广义线性模型的残差(增长率〜%疾病+%寄生病+年)随着时间的推移显示出相似的清晰但不规则的周期性趋势。因此,同样形式的广义最小二乘模型也适用于具有适当相关结构的数据,以处理时间自相关,例如复合对称性,自回归过程阶数1和自回归移动平均相关结构。 所有模型均包含相同的固定效果,使用AIC进行比较,并通过REML进行拟合(以允许通过AIC比较不同的相关结构)。我正在使用R软件包nlme和gls函数。 问题1 当相对于时间绘制时,GLS模型的残差仍显示几乎相同的周期性模式。即使在精确说明自相关结构的模型中,这种模式也会一直存在吗? 我在第二个问题下面模拟了R中的一些简化但相似的数据,该问题基于我目前对评估模型残差中的时间自相关模式所需的方法的了解而显示,现在我知道这是错误的(请参阅答案)。 问题2 我已经为GLS模型拟合了所有可能的合理相关结构,但是实际上没有一个比没有任何相关结构的GLM更好:只有一个GLS模型略胜一筹(AIC分数= 1.8低),而其余所有模型更高的AIC值。但是,只有当所有模型都由REML拟合时才是这种情况,而GLS模型显然要好得多,而不是ML,但是我从统计资料中了解到,出于某些原因,您只能使用REML来比较具有不同相关结构和相同固定效果的模型我不会在这里详述。 鉴于数据具有明显的时间自相关性质,如果没有模型比简单的GLM更好,那么假设我使用的是合适的方法,那么最合适的方法来决定使用哪个模型进行推断(我最终想使用AIC比较不同的变量组合)? Q1“模拟”探索具有和没有适当相关结构的模型中的残差模式 生成具有“时间”的循环效应和“ x”的正线性效应的模拟响应变量: time <- 1:50 x <- sample(rep(1:25,each=2),50) y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1) y应该在“时间”上显示出具有随机变化的周期性趋势: plot(time,y) 与带有随机变化的'x'的正线性关系: plot(x,y) 创建一个简单的线性加法模型“ y〜time + x”: require(nlme) m1 <- gls(y ~ time + x, method="REML") 如预期的那样,该模型在针对“时间”绘制时,在残差中显示出清晰的周期性模式: plot(time, m1$residuals) …

2
回归中的定性变量编码导致“奇异”
我有一个称为“质量”的自变量;此变量具有3种响应方式(质量差;质量中等;质量高)。我想将此自变量引入我的多元线性回归中。当我有一个二进制自变量(虚拟变量,我可以编写代码0/ 1)时,很容易将其引入多元线性回归模型。 但是,通过3种响应方式,我尝试像下面这样编写此变量: Bad quality Medium quality High quality 0 1 0 1 0 0 0 0 1 0 1 0 但是当我尝试进行多元线性回归时存在一个问题:模态Medium quality给我NA: Coefficients: (1 not defined because of singularities) 如何使用3种方式对变量“质量”进行编码?我是否必须创建一个变量作为因子(factorin R),但是可以在多元线性回归中引入该因子吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.