统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


2
自举如何很好地估计估计量的采样分布?
最近研究了引导程序后,我想到了一个概念性问题,但仍然使我感到困惑: 您有一个人口,并且想知道一个人口属性,即,在这里我用代表人口。例如,这个可能是人口平均值。通常,您无法从总体中获取所有数据。因此,您从总体中得出了大小为的样本为了简单起见,假设您有iid示例。然后,您获得估算器。您想使用来推断,因此您想知道的可变性 。P θ X Ñ θ = 克(X )θ θ θθ = 克(P)θ=g(P)\theta=g(P)PPPθθ\thetaXXXñNNθ^= 克(X)θ^=g(X)\hat{\theta}=g(X)θ^θ^\hat{\theta}θθ\thetaθ^θ^\hat{\theta} 首先,存在的真实采样分布。从概念上讲,您可以从总体中抽取许多样本(每个样本的大小均为)。每次您都有因为每次您都有不同的样本。然后最后,您将能够恢复的真实分布。好的,至少这是估算分布的概念基准。让我重申一下:最终目标是使用各种方法来估计或近似的真实分布。 Ñ θ =克(X)θ^θ^\hat{\theta}ñNNθ^= 克(X)θ^=g(X)\hat{\theta}=g(X) θθ^θ^\hat{\theta}θ^θ^\hat{\theta}θ^θ^\hat{\theta} 现在,问题来了。通常,只有一个样本包含数据点。然后,您可以多次从该样本中重新采样,然后得出的引导分布。我的问题是:此引导分布与的真实采样分布有多接近?有没有量化的方法?Ñ θXXXNNNθ^θ^\hat{\theta}θ^θ^\hat{\theta}

3
仅了解最小值/最大值的数据的统计方法
是否有统计信息的一个分支来处理其确切值未知的数据,但是对于每个人,我们都知道该值的最大值或最小值? I suspect that my problem stems largely from the fact that I am struggling to articulate it in statistical terms, but hopefully an example will help to clarify: 假设存在两个相互连接的总体AAA和BBB,以便在某个时候成员AAA可以“转换”为BBB,但不可能相反。过渡时间是可变的,但不是随机的。例如,AAA可以是“没有后代的个体”,而BBB “至少有一个后代的个体”。我对这种进展发生的年龄感兴趣,但我只有横截面数据。对于任何给定的个体,我可以找出它们是否属于AAA或BBB。我也知道这些人的年龄。对于人群A中的每个人AAA,我知道过渡年龄将比其当前年龄更大。同样,对于B的成员BBB,我知道过渡年龄比当前年龄小。但是我不知道确切的值。 假设我还有其他一些要与过渡年龄进行比较的因素。例如,我想知道一个人的亚种或体型是否会影响第一个后代的年龄。我绝对有一些有用的信息可以回答这些问题:平均而言,在中的个体中AAA,年龄较大的个体将有一个较晚的过渡期。但是这些信息并不完美,特别是对于年轻人而言。反之亦然人口BBB。 Are there established methods to deal with this sort of data? I do not necessarily need a full …

3
Fisher信息是什么信息?
假设我们有一个随机变量X〜˚F(x | θ )X〜F(X|θ)X \sim f(x|\theta)。如果θ0θ0\theta_0是真正的参数,则所述似然函数应最大化和衍生物等于零。这是最大似然估计器背后的基本原理。 据我了解,费舍尔信息被定义为 一世(θ )= E [ (∂∂θF(X| θ))2]一世(θ)=Ë[(∂∂θF(X|θ))2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] 因此,如果θ0θ0\theta_0是真实参数,一世(θ )= 0一世(θ)=0I(\theta) = 0。但如果θ0θ0\theta_0是不是真正的参数,那么我们将有费希尔信息量更大。 我的问题 Fisher信息是否衡量给定MLE的“错误”?换句话说,是否存在积极的Fisher信息并不意味着我的MLE不够理想? “信息”的定义与Shannon使用的定义有何不同?我们为什么称其为信息?


10
回归均值vs赌徒的谬误
一方面,我具有对均值的回归,另一方面,我具有赌徒的谬误。 Miller和Sanjurjo(2019)将赌徒的谬误定义为“错误地认为随机序列具有系统性的逆转趋势,即类似结果的条纹更有可能结束而不是持续。”例如,一枚掉头的硬币在下一次审判中,连续几次被认为很有可能落伍。 根据上次的平均值回归,我在上一场比赛中表现不错,而在下一场比赛中,我的表现可能会更差。 但是根据赌徒的谬误:假设硬币是公平的,请考虑以下两个概率 20头的概率,然后1尾= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} 20头的概率,则1头= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} 然后... 考虑一个简单的例子:一类学生对一个主题进行100项对/错测试。假设所有学生在所有问题上随机选择。然后,每个学生的分数将是一组独立且均匀分布的随机变量中的一个的实现,预期均值为50。 自然,偶然地,有些学生的分数将大大高于50,而有些分数将大大低于50。如果一个人只拿得分最高的10%的学生,然后再给他们第二次测试,然后他们再次在所有项目上随机选择,那么平均得分将再次接近50。 因此,这些学生的均值将一直“回归”到所有参加原始考试的学生的均值。无论学生在原始考试中得分是多少,他们在第二项考试中得分的最佳预测是50。 特殊情况下,如果只拿得分最高的10%的学生,然后再给他们第二次测试,然后他们再次在所有项目上随机选择,则平均得分将再次接近50。 根据赌徒的谬论,难道不应该期望得分的可能性相同,而不一定要接近50吗? Miller,JB和Sanjurjo,A.(2019)。当样本量被忽略时,经验如何确定赌徒的谬误。

2
伽玛与对数正态分布
我有一个实验观察到的分布,看起来与gamma或对数正态分布非常相似。我已经读到对数正态分布是随机变量的最大熵概率分布,其ln (X )的均值和方差是固定的。伽马分布是否具有任何类似的性质?XXXln(X)ln⁡(X)\ln(X)

1
证明OLS模型中的系数服从(nk)自由度的t分布
背景 假设我们有一个普通的最小二乘模型,其中我们的回归模型中有系数, kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} 其中是系数的向量,是由定义的设计矩阵ββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots & \dots & x_{n\;(k-1)} \end{pmatrix} ,错误是IID正常, ϵ∼N(0,σ2I).ϵ∼N(0,σ2I).\mathbf{\epsilon} \sim \mathcal{N}\left(\mathbf{0},\sigma^2 …

3
当成对t检验都不存在时,方差分析是否有意义?
如果没有成对t检验,单向(组或“水平”)ANOVA可能会报告显着差异?ñ> 2ñ>2N>2ñ(N− 1 )/ 2ñ(ñ-1个)/2N(N-1)/2 在这个答案中 @whuber写道: 众所周知,即使在任何一对均值的单独[未调整的成对] t检验都不会产生显着结果的情况下,全局ANOVA F检验也可以检测均值的差异。 因此显然有可能,但我不知道如何。什么时候发生,这种情况背后的直觉是什么?也许有人可以提供这种情况的简单玩具示例? 进一步说明: 显然可能存在相反的情况:总体ANOVA可能不显着,而某些成对的t检验错误地报告了显着差异(即,那些都是假阳性)。 我的问题是关于标准的,未经多次比较t检验的调整。如果使用调整后的测试(例如Tukey的HSD程序),那么即使整体ANOVA仍然没有一个是有意义的。这在几个问题中都涉及到,例如,如何获得显着的总体ANOVA,但与Tukey的过程没有成对的显着差异?和显着的方差分析相互作用,但非显着的成对比较。 更新。我的问题最初是指通常的两样本成对t检验。但是,正如@whuber在评论中指出的那样,在方差分析的背景下,t检验通常被理解为事后对比,它使用对所有组进行汇总的组内方差的ANOVA估计(这不是两个组中发生的事情) -样本t检验)。因此,我的问题实际上有两个不同的版本,对它们的回答都被肯定。见下文。


1
使用glmnet进行甲基化数据的特征选择和建模(p >> N)
我想使用GLM和Elastic Net来选择那些相关功能+建立一个线性回归模型(即预测和理解,因此最好保留相对较少的参数)。输出是连续的。这是每基因50的情况。我一直在阅读有关该软件包的信息,但是我不确定要执行的步骤:200002000020000505050glmnet 执行CV选择lambda: cv <- cv.glmnet(x,y,alpha=0.5) (Q1)给定输入数据,您会选择其他alpha值吗? (Q2)在建立模型之前,我还需要做其他事情吗? 拟合模型: model=glmnet(x,y,type.gaussian="covariance",lambda=cv$lambda.min) (Q3)有什么比“协方差”更好的选择? (Q4)如果CV选择了lambda,为什么需要此步骤nlambda=? (Q5)使用lambda.min还是更好lambda.1se? 获取系数,看看哪些参数掉了(“。”): predict(model, type="coefficients") 在帮助页面有很多种predict方法(例如predict.fishnet,predict.glmnet,predict.lognet等)。但是,正如我在一个示例中看到的那样,任何“简单”的预测都是如此。 (Q6)我应该用predict或者predict.glmnet还是其他? 尽管我已经读过有关正则化方法的文章,但我在R和这些统计软件包中还是一个新手,因此很难确定我是否正在使我的问题适应代码。任何建议都将受到欢迎。 更新 基于 “如前所述,类train的对象包含一个称为的元素finalModel,这是具有通过重采样选择的调整参数值的拟合模型。该对象可以按传统方式用于生成新样本的预测,模型的预测功能。” 使用caret调整α和拉姆达: trc = trainControl(method=cv, number=10) fitM = train(x, y, trControl = trC, method="glmnet") 是否fitM取代先前的步骤2?如果是这样,如何立即指定glmnet选项(type.gaussian="naive",lambda=cv$lambda.min/1se)? 接下来的predict步骤,我可以替换model为fitM吗? 如果我做 trc = trainControl(method=cv, number=10) fitM = train(x, y, trControl = trC, method="glmnet") …

1
如何通过逻辑回归计算拟合值的标准误差?
当您从逻辑回归模型预测拟合值时,如何计算标准误差?我的意思是拟合值,而不是系数(涉及Fishers信息矩阵)。 我只发现了如何获得与数字R(例如,这里的R-帮助,或在这里对堆栈溢出),但我找不到公式。 pred <- predict(y.glm, newdata= something, se.fit=TRUE) 如果您可以提供在线资源(最好是在大学网站上),那就太好了。

5
为什么我的引导时间间隔覆盖范围很差?
我想做一个课堂演示,在其中我将t间隔与引导间隔进行比较,并计算两者的覆盖率。我希望数据来自偏斜的分布,因此我选择将数据生成为exp(rnorm(10, 0, 2)) + 1对数正态偏移后的大小为10的样本。我编写了一个脚本来绘制1000个样本,并针对每个样本,基于1000个重复计算出95%的t间隔和95%的bootstrap百分位间隔。 当我运行脚本时,这两种方法的间隔都非常相似,并且覆盖率均为50-60%。我感到很惊讶,因为我认为引导间隔会更好。 我的问题是 在代码中犯了错误? 在计算间隔时出错了? 期望引导间隔具有更好的覆盖范围特性而犯了一个错误? 另外,在这种情况下是否有办法构建更可靠的配置项? tCI.total <- 0 bootCI.total <- 0 m <- 10 # sample size true.mean <- exp(2) + 1 for (i in 1:1000){ samp <- exp(rnorm(m,0,2)) + 1 tCI <- mean(samp) + c(1,-1)*qt(0.025,df=9)*sd(samp)/sqrt(10) boot.means <- rep(0,1000) for (j in 1:1000) boot.means[j] …

3
SVM和感知器之间的区别
我对SVM和感知器之间的区别感到困惑。让我尝试在这里总结一下我的理解,请随时纠正我的错误之处,并填写我错过的内容。 感知器不会尝试优化分离“距离”。只要找到一个将这两个集合分开的超平面,那就很好了。另一方面,SVM试图最大化“支持向量”,即两个最接近的相对采样点之间的距离。 SVM通常尝试使用“内核函数”将采样点投影到高维空间,以使它们线性可分离,而感知器假定采样点是线性可分离的。

4
ROC曲线下面积与整体精度
关于ROC的曲线下面积(AUC)和整体精度,我有些困惑。 AUC是否与整体精度成正比?换句话说,当我们具有更高的整体精度时,我们肯定会获得更大的AUC吗?还是按照定义它们是正相关的? 如果它们是正相关的,为什么我们还要在某些出版物中同时报告它们呢? 在实际情况下,我执行了一些分类任务,结果如下:分类器A的准确度为85%,AUC为0.98,分类器B的准确度为93%,AUC为0.92。问题是,哪个分类器更好?还是有可能获得类似的结果(我的意思是说我的实现中可能存在错误)?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.