统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
我应该将英式英语中“正态分布”中的“ N”大写吗?
这个问题有些遗漏,但是我认为这里的社区可能对此主题有强烈的见解! 我正在写我的博士学位论文。始终如一地,当谈论与高斯分布正式相关的数量时,我将“正态”中的“ N”大写以表示它们。例如,“ [...在这种情况下,所得的分布不是正态分布,而是由[...]描述”。 我的主管已阅读了相关章节,并用小写的“ n”代替了其中的每一个。我找不到关于该主题的权威文献-Springer 显然希望名称适当地大写,并且根据互联网上的另一个随机消息,将发行名称大写是个好主意。 缺乏针对论文的权威风格指南,我认为我将转向专家社区-经常做什么,为什么?


2
最小二乘回归逐步线性代数计算
作为有关R中线性混合模型的问题的前传,并作为初学者/中级统计爱好者的参考,我决定以独立的“问答式”形式发布“手动”计算简单线性回归的系数和预测值。 该示例使用R内置数据集,mtcars并将其设置为充当自变量的车辆所消耗的每加仑英里数,并根据汽车的重量(连续变量)进行回归,并将汽缸数作为没有相互作用的三个水平(4、6或8)的因子。 编辑:如果您对此问题感兴趣,您肯定会在CV之外的Matthew Drury的这篇帖子中找到详细而令人满意的答案。

2
收缩 vs无偏:估计量
关于皮尔逊相关系数总体值的两种估计量,我的头脑有些困惑。 A. Fisher(1915)表明,对于二元正态总体,经验是的负偏差估计量,尽管该偏差实际上仅对于小样本量()才是相当可观的。样本在某种意义上低估了,因为它比更接近于。(除非后者为或,否则是无偏的。)已经提出了几种几乎无偏的估计量,最好的估计可能是Olkin和Pratt(1958)r[RrÑ &lt; 30 [R ρ 0 ρ 0 ± 1 - [Rρρ\rhon&lt;30ñ&lt;30n<30r[Rrρρ\rho000ρρ\rho000±1±1个\pm 1r[Rrρρ\rho更正的:r[Rr runbiased=r[1+1−r22(n−3)][R无偏见的=[R[1个+1个-[R22(ñ-3)]r_\text{unbiased} = r \left [1+\frac{1-r^2}{2(n-3)} \right ] B.据说在回归中观察到高估了相应的总体R平方。或者,通过简单的回归,就是高估了。基于这一事实,我见过很多文章说,是正相关偏向于,这意味着绝对值:是从更远的比(?是说法正确)。文本说这与通过样本值高估标准偏差参数是同样的问题。有许多公式可以“调整”观察到的使其更接近人口参数Wherry's(1931)- [R 2 ρ 2 - [RR2[R2R^2r2[R2r^2ρ2ρ2\rho^2r[Rr[R 0 ρ - [R 2ρρ\rhor[Rr000ρρ\rhoR2[R2R^2 R2adj[R调整2R_\text{adj}^2是最著名的(但不是最好的)。调整后的的根称为收缩:r2adj[R调整2r_\text{adj}^2 r[Rr rshrunk=±1−(1−r2)n−1n−2−−−−−−−−−−−−−−√[R压缩=±1个-(1个-[R2)ñ-1个ñ-2r_\text{shrunk} = \pm\sqrt{1-(1-r^2)\frac{n-1}{n-2}} 当前是两个不同的估计量。非常不同的:第一个膨胀,第二放气。如何调和他们?在哪里使用/报告,在另一个地方?ρρ\rhor[Rrr[Rr 特别是,“收缩”的估计量也(几乎)是无偏的,就像“无偏”的估计一样,但仅在不同的上下文中-在回归的非对称上下文中,这是真的吗?因为,在OLS回归中,我们认为一侧(预测变量)的值是固定的,因此每个样本之间都没有随机误差吗?(要补充一点,回归不需要双变量正态性。)

1
在适当的评分规则中进行选择
有关正确评分规则的大多数资源都提到了许多不同的评分规则,例如对数损失,Brier评分或球形评分。但是,它们之间通常没有太多指导。(图表A:维基百科。) 选择使对数得分最大的模型对应于选择最大似然模型,这似乎是使用对数评分的一个很好的论据。对于Brier或球形评分或其他评分规则是否有类似的理由?为什么有人使用这些评分之一而不是对数评分?

2
什么是“降秩回归”?
我一直在阅读《统计学习的要素》,但我不明白第3.7节“多结果缩减和选择”的含义。它谈论的是RRR(降秩回归),我只能理解前提是关于一个广义多元线性模型,该模型的系数未知(需要估算),但已知其不具有完整的秩。那是我唯一的了解。 其余的数学超出了我。作者说“一个人可以展示”并将事情留为练习甚至没有帮助。 有人可以帮忙直观地解释这里发生的事情吗?本章是否应该讨论新方法?或者是什么?

1
如果维数为为什么
在PCA中,当维数大于(甚至等于)样本数,为什么您最多具有个非零特征向量?换句话说,维中协方差矩阵的秩为Ñ Ñ - 1 d ≥ ÑdddNNNN−1N−1N-1d≥Nd≥Nd\ge NN−1N−1N-1。 示例:您的样本是矢量化图像,尺寸为d=640×480=307200d=640×480=307200d = 640\times480 = 307\,200,但您只有N=10N=10N=10张图片。

3
是否有贝叶斯方法进行密度估算
我有兴趣估算连续随机变量的密度。我学到的一种方法是使用内核密度估计。XXX 但是现在,我对遵循以下思路的贝叶斯方法感兴趣。我最初认为服从分配。我采取的读数。有什么方法可以根据我的新读物来更新?XXXFFFnnnXXXFFF 我知道我听起来好像在自相矛盾:如果我只相信是我的先前发行记录,那么没有数据可以说服我。但是,假设是而我的数据点是。看到,我显然不能坚持以前的做法,但是应该如何更新呢?FFFFFFUnif[0,1]Unif[0,1]Unif[0,1](0.3,0.5,0.9,1.7)(0.3,0.5,0.9,1.7)(0.3, 0.5, 0.9, 1.7)1.71.71.7 更新:根据评论中的建议,我开始研究Dirichlet过程。让我使用以下符号: G∼DP(α,H)θi|G∼Gxi|θi∼N(θi,σ2)G∼DP(α,H)θi|G∼Gxi|θi∼N(θi,σ2) G \sim DP(\alpha,H)\\ \theta_i | G \sim G\\ x_i | \theta_i \sim N(\theta_i,\sigma^2) 用这种语言构架了我原来的问题之后,我想我对以下内容感兴趣:。如何做到这一点?θn+1|x1,...,xnθn+1|x1,...,xn\theta_{n+1} | x_1,...,x_n 在这套笔记(第2页)中,作者举了的示例。(Polya方案)。我不确定这是否相关。θn+1|θ1,...,θnθn+1|θ1,...,θn\theta_{n+1} | \theta_1,...,\theta_n 更新2:我也想问(在看到注释之后):人们如何选择DP的?似乎是一个随机选择。另外,人们如何为DP 选择先前的?我应该只使用先验作为先验吗?αα\alphaHHHθθ\thetaHHH

6
高级回归建模示例
我正在寻找高级线性回归案例研究,以说明使用GLM或OLS建模复杂的多个非线性关系所需的步骤。很难找到超出基本学校例子的资源:我读过的大多数书都不会超出响应的对数转换以及一个预测变量的BoxCox或最佳情况下的自然样条。同样,到目前为止,我所看到的所有示例都在单独的模型(通常在单个预测器模型中)中解决每个数据转换问题。 我知道BoxCox或YeoJohnson转换是什么。我正在寻找的是详细的,真实的案例研究,其中的响应/关系不清楚。例如,响应并非严格为正(因此您不能使用log或BoxCox),预测变量之间以及与响应之间均具有非线性关系,并且最大似然数据转换似乎并不意味着标准0.33或0.5指数。同样,发现剩余方差是非恒定的(从未如此),因此也必须转换响应,并且必须在非标准GLM族回归或响应转换之间进行选择。研究人员可能会做出选择,以避免过度拟合数据。 编辑 到目前为止,我收集了以下资源: 回归建模策略,F。Harrell 应用计量经济学时间序列,W。恩德斯 具有R,G. Petris的动态线性模型 应用回归分析,D。Kleinbaum 统计学习概论,G。James / D。维滕 我只读了最后一篇(ISLR),尽管它比高级回归建模更着重于ML,但它是一篇很好的文章(手表上有5颗五星)。 还有这对CV呈现一个具有挑战性的回归情况下,好的职位。


2
使用给定的样本协方差矩阵生成数据
给定协方差矩阵,如何生成数据,使其具有样本协方差矩阵\ hat {\ boldsymbol \ Sigma} = \ boldsymbol \ Sigma_s?ΣsΣs\boldsymbol \Sigma_sΣ^=ΣsΣ^=Σs\hat{\boldsymbol \Sigma} = \boldsymbol \Sigma_s 更笼统地说:我们经常对从密度f(x \ vert \ boldsymbol \ theta)生成数据感兴趣f(x|θ)f(x|θ) f(x \vert \boldsymbol\theta) ,其中数据xxx给出了一些参数矢量θθ\boldsymbol\theta。这产生了一个样本,然后我们可以据此再次估计值θ^θ^\boldsymbol{\hat\theta}。我感兴趣的是一个反向问题:如果给我们一组参数θsθs\boldsymbol\theta_{s},并且我们想生成一个样本xxx例如\ boldsymbol {\ hat \ theta} = \ boldsymbol,该怎么办?\ theta_ {s}θ^=θsθ^=θs \boldsymbol{\hat\theta} = \boldsymbol\theta_{s}。 这是一个已知问题吗?这样的方法有用吗?有可用的算法吗?

2
Wilcoxon秩和检验与Wilcoxon符号秩检验之间的差异
我想知道使用配对观测值的Wilcoxon秩和检验与Wilcoxon符号秩检验之间的理论差异是什么。我知道Wilcoxon秩和检验允许在两个不同样本中进行不同数量的观察,而配对样本的Signed-Rank检验则不允许这样做,但是在我看来,它们似乎都对相同的事物进行了检验。有人可以使用Wilcoxon秩和检验,什么时候可以使用成对观测值进行Wilcoxon符号秩检验,有人可以给我更多背景知识或理论信息吗?

4
列联表的最佳可视化是哪一个?
从统计的角度来看,哪张是最好的图来显示列联表,通常通过卡方检验来分析列联表?它是躲避的条形图,堆叠的条形图,热图,轮廓图,抖动的散点图,多条线图还是其他东西?应该显示绝对值还是百分比? 编辑:或如@forecaster在评论中建议的那样,数字表本身就是一个简单的图,应该足够了。

5
在Casella&Berger之后要学什么?
我是一名纯数学研究生,几乎没有应用数学背景。从去年秋天开始,我开始在Casella&Berger的书上上课,并且在书中完成了数百(230+)页的运动问题。现在我在第10章。 但是,由于我没有统计学专业或计划成为统计学家,所以我认为我将无法定期投入时间继续学习数据分析。到目前为止,我的经验告诉我,作为一名统计学家,需要承担很多繁琐的计算工作,涉及各种分布(Weibull,Cauchy,,F ...)。我发现虽然基本思想很简单,但由于技术原因,实现(例如假设检验中的LRT)仍然很困难。ŤŤtFFF 我的理解正确吗?有没有一种方法可以学习概率和统计信息,不仅可以涵盖更高级的材料,还可以在我需要现实生活中的数据分析时提供帮助吗?我是否需要像以前那样每周花费个小时?≥≥\ge 尽管我认为学习数学没有走上任何皇家之路,但我常常不禁要问-大多数时候,我们不知道真实数据的分布是什么,所以我们专注于各种分布族的目的是什么? ?如果样本量较小,并且中心极限定理不适用,那么在分布未知的情况下,除了样本平均值和方差之外,我们还应如何正确分析数据? 我的学期将在一个月内结束,在我开始专注于博士学位研究后,我不希望自己的知识消失。所以我决定问。我正在学习R,并且我有一定的编程背景,但是我的水平与代码猴子差不多。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.