统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
极值理论-显示:从正常到冈贝尔
的最大值 simiid根据极值理论,标准正态收敛于标准Gumbel分布。X1,…,Xn.∼X1,…,Xn.∼X_1,\dots,X_n. \sim 我们如何证明这一点? 我们有 P(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(\max X_i \leq x) = P(X_1 \leq x, \dots, X_n \leq x) = P(X_1 \leq x) \cdots P(X_n \leq x) = F(x)^n 我们需要查找/选择常数的序列,以便:F \ left(a_n x + b_n \ right)^ n \ rightarrow ^ {n \ rightarrow \ infty} G(x )= e ^ {-\ exp(-x)}an>0,bn∈Ran>0,bn∈Ra_n>0,b_n\in\mathbb{R}F(anx+bn)n→n→∞G(x)=e−exp(−x)F(anx+bn)n→n→∞G(x)=e−exp⁡(−x)F\left(a_n …

2
具有多个条件的条件概率的定义
具体来说,假设我有两个事件A和B,以及一些分布参数,我想看看。P (甲|乙,θ )θθ \theta P(A|B,θ)P(A|B,θ)P(A | B,\theta) 因此,给定一些事件A和B,最简单的条件概率定义是。因此,如果要处理多个事件,如上面所述,我可以说 还是我看错了?有时候我在处理概率问题时会倾向于发疯,我不确定为什么。 P(A|B,θ)?= P((A|θ)∩(B|θ))P(A|B)=P(A∩B)P(B)P(A|B)=P(A∩B)P(B)P(A|B) = \frac{P(A \cap B)}{P(B)}P(A|B,θ)=?P((A|θ)∩(B|θ))P(B|θ)P(A|B,θ)=?P((A|θ)∩(B|θ))P(B|θ)P(A | B,\theta) \stackrel{?}{=} \frac{P((A | \theta)\cap(B | \theta))}{P(B|\theta)}

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
lmer()中的“模型无法收敛”警告
对于以下数据集,我想查看响应(效果)是否随站点,季节,持续时间及其相互作用而变化。一些在线统计论坛建议我继续使用线性混合效应模型,但是问题在于,由于每个站点内的重复样本都是随机的,因此我几乎没有机会连续几个季度从完全相同的位置收集样本(例如,季风后s1的repl-1可能与季风不同。这与临床试验(采用受试者内部设计)不同,在临床试验中,您会按季节重复测量同一受试者。但是,考虑到站点和季节是随机因素,我运行了以下命令并收到警告消息: Warning messages: 1: In checkConv(attr(opt, "derivs"), optpar,ctrl=controlpar,ctrl=controlcheckConv, : unable to evaluate scaled gradient 2: In checkConv(attr(opt, "derivs"), optpar,ctrl=controlpar,ctrl=controlcheckConv, : Model failed to converge: degenerate Hessian with 1 negative eigenvalues 谁能帮我解决这个问题?代码如下: library(lme4) read.table(textConnection("duration season sites effect 4d mon s1 7305.91 4d mon s2 856.297 4d mon s3 649.93 4d mon …


2
在统计中定义完整性是不可能从其形成无偏估计
在经典统计中,有一个定义是将一组数据的统计量定义为对于参数是完整的,因此不可能从中简单地形成的无偏估计量。也就是说,使所有的唯一方法是几乎肯定地使为。TTTy1,…,yny1,…,yny_1, \ldots, y_nθθ\theta000Eh(T(y))=0Eh(T(y))=0E h(T (y )) = 0θθ\thetahhh000 这背后有直觉吗?似乎这是一种比较机械的定义方式,我知道以前已经有人问过这个问题,但是我想知道是否存在一种非常容易理解的直觉,这会使入门级学生更容易地消化材料。

4
谁能澄清“随机变量和”的概念
在我的概率类别中,经常使用术语“随机变量的总和”。但是,我坚持到底是什么意思? 我们是在谈论来自随机变量的一堆实现的总和吗?如果是这样,那不就是一个数字吗?随机变量实现的总和如何导致我们产生分布或任何种类的cdf / pdf /功能?如果不是随机变量实现,那么到底要添加什么呢?

3
“极限”分布和“固定”分布有什么区别?
我在问关于马尔可夫链的问题,最后两部分是这样说的: 这个马尔可夫链是否具有极限分布。如果您的回答是“是”,请找到极限分布。如果您的回答为“否”,请说明原因。 这个马尔可夫链是否具有平稳分布。如果您的回答是“是”,请找到平稳分布。如果您的回答为“否”,请说明原因。 有什么区别?早些时候,我认为限制分布是在使用求解时得出的,但这是第步转换矩阵。他们使用\ Pi = \ Pi P计算极限分布,我认为这是平稳分布。 ñΠ=ΠPP=CAnC−1P=CAnC−1P = CA^n C^{-1}nnnΠ=ΠPΠ=ΠP\Pi = \Pi P 那是哪一个呢?

7
RMSE与确定系数
我正在评估一个物理模型,并想知道我应该在此处使用哪种方法(介于RMSE和测定系数R2之间) 问题是如下:我有一个功能,输出预测为输入值x,。对于这个值,我也有实际的观察,即y x。yx¯¯¯¯¯=f(x)yx¯=f(x)\overline{y_x}= f(x)yxyxy_x 我的问题是RMSE或的优缺点是什么。我已经看到他们都在论文中用于解决我正在研究的问题。R2R2R^2
21 error 


2
批归一化如何以及为什么使用移动平均值来跟踪模型训练的准确性?
我正在阅读批处理规范化(BN)论文(1),但不了解需要使用移动平均值来跟踪模型的准确性,即使我接受这样做是对的,我也不明白他们到底在做什么。 据我所知(我是错的),该论文提到一旦模型完成训练,它将使用人口统计数据而不是小批量统计数据。在讨论了无偏估计(对我来说是切线的,并且不理解为什么如此讨论)之后,他们说: 取而代之的是使用移动平均值,我们在模型训练时跟踪模型的准确性。 那是令我困惑的部分。他们为什么要进行移动平均以估计模型的准确性以及在哪些数据集上? 通常人们会做些什么来估计其模型的泛化,他们只是跟踪模型的验证误差(并可能尽早停止其梯度下降以进行正则化)。但是,批处理规范化似乎在做完全不同的事情。有人可以澄清什么以及为什么做不同的事情吗? 1:Ioffe S.和Szegedy C.(2015年), “批处理规范化:通过减少内部协变量偏移来加速深层网络训练”, 第32届国际机器学习会议论文集,法国里尔,2015年 。机器学习研究杂志: W&CP卷37

1
自动编码器的损耗功能
我正在尝试一些自动编码器,并使用tensorflow创建了一个试图重建MNIST数据集的模型。 我的网络非常简单:X,e1,e2,d1,Y,其中e1和e2是编码层,d2和Y是解码层(Y是重构的输出)。 X具有784个单位,e1具有100个单位,e2具有50个单位,d1具有100个单位,Y具有784个单位。 我将S型曲线用作层e1,e2,d1和Y的激活函数。输入在[0,1]中,因此应该是输出。 好吧,我尝试使用交叉熵作为损失函数,但输出始终是斑点,并且我注意到从X到e1的权重始终会收敛到零值矩阵。 另一方面,将均方误差用作损失函数,会产生不错的结果,我现在可以重构输入。 为什么呢?我以为我可以将这些值解释为概率,因此可以使用交叉熵,但是显然我做错了。

4
如何创建任意协方差矩阵
例如,在R中的MASS::mvrnorm()功能对于生成数据以演示统计中的各种情况很有用。它采用强制性Sigma参数,该参数是一个对称矩阵,用于指定变量的协方差矩阵。如何创建带有任意条目的对称矩阵?n × nñ×ñn\times n


5
在两个变量的对数之间具有线性关系的直观含义是什么?
我有两个变量,当按原样相互绘制时,它们并没有显示出太多的相关性,但是当我绘制每个变量的对数时,它们之间却呈现出非常清晰的线性关系。 所以我最终得到一个类型的模型: log(Y)=alog(X)+blog⁡(Y)=alog⁡(X)+b\log(Y) = a \log(X) + b,在数学上很棒,但是似乎没有常规线性模型的解释价值。 如何解释这样的模型?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.