统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
有关似然原理的问题
我目前尝试理解似然原理,但坦率地说我根本不懂。因此,即使这些问题可能是非常基本的问题,我也会将所有问题写成列表。 在此原则的上下文中,“所有信息”一词到底意味着什么?(就像样本中的所有信息都包含在似然函数中一样。) 该原理是否以某种可证明的事实与p(x|y)∝p(y|x)p(x)p(x|y)∝p(y|x)p(x)p(x|y)\propto p(y|x)p(x)?原则上的“可能性”与p(y|x)p(y|x)p(y|x)是否相同? 数学定理怎么会是“有争议的”?我对数学的(弱)理解是,一个定理要么被证明,要么未被证明。似然原理属于哪一类? 基于公式的贝叶斯推理对似然原理有何重要性?p(x|y)∝p(y|x)p(x)p(x|y)∝p(y|x)p(x)p(x|y)\propto p(y|x)p(x)

1
什么是计算奇异值分解(SVD)的有效算法?
维基百科有关主成分分析的文章指出: 存在有效的算法来计算的SVD,而不必形成矩阵X T X,因此,计算SVD现在是从数据矩阵计算主成分分析的标准方法,除非只需要少量的成分。XXXXŤXXŤXX^TX 有人可以告诉我本文讨论的有效算法是什么?没有提供参考(建议使用这种计算方式的文章的URL或引用会很好)。
17 pca  algorithms  svd  numerics 

2
如何拟合离散分布以计算数据?
我有以下计数数据的直方图。我想为其分配一个离散的分布。我不确定该如何处理。 我是否应该首先在直方图上叠加离散分布(例如负二项分布),以便获得离散分布的参数,然后运行Kolmogorov–Smirnov检验以检查p值? 我不确定此方法是否正确。 是否有解决此类问题的通用方法? 这是计数数据的频率表。在我的问题中,我只关注非零计数。 Counts: 1 2 3 4 5 6 7 9 10 Frequency: 3875 2454 921 192 37 11 1 1 2 更新:我想问:我在R中使用fitdistr函数来获取用于拟合数据的参数。 fitdistr(abc[abc != 0], "Poisson") lambda 1.68147852 (0.01497921) 然后,在直方图的顶部绘制泊松分布的概率质量函数。 但是,似乎泊松分布无法对计数数据建模。有什么我可以做的吗?

3
3个变量的Pearson相关性的类比
我对三个变量的“相关性”是否有意义感兴趣,如果是什么,这将是什么? 皮尔逊积矩相关系数 E{(X−μX)(Y−μY)}Var(X)Var(Y)−−−−−−−−−−−−√E{(X−μX)(Y−μY)}Var(X)Var(Y)\frac{\mathrm{E}\{(X-\mu_X)(Y-\mu_Y)\}}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}} 现在是3个变量的问题:是 E{(X−μX)(Y−μY)(Z−μZ)}Var(X)Var(Y)Var(Z)−−−−−−−−−−−−−−−−−−√E{(X−μX)(Y−μY)(Z−μZ)}Var(X)Var(Y)Var(Z)\frac{\mathrm{E}\{(X-\mu_X)(Y-\mu_Y)(Z-\mu_Z)\}} {\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)\mathrm{Var}(Z)}} 有什么事吗 在R中似乎可以解释: > a <- rnorm(100); b <- rnorm(100); c <- rnorm(100) > mean((a-mean(a)) * (b-mean(b)) * (c-mean(c))) / (sd(a) * sd(b) * sd(c)) [1] -0.3476942 给定固定的第三个变量的值,我们通常查看2个变量之间的相关性。有人可以澄清吗?

1
朴素贝叶斯何时比SVM表现更好?
在我正在研究的一个小型文本分类问题中,朴素贝叶斯(Naive Bayes)表现出与SVM相似或更高的性能,我感到非常困惑。 我想知道是什么因素决定一种算法胜过另一种算法。是否存在没有必要在SVM上使用朴素贝叶斯的情况?有人可以阐明这一点吗?

1
多元标准正态分布与高斯copula之间的差异
我想知道多元标准正态分布与高斯copula之间的区别是什么,因为当我查看密度函数时,它们在我看来是相同的。 我的问题是为什么引入高斯系动词或高斯系动词产生什么好处,或者当高斯系动词只不过是多元标准正态函数本身时其优势是什么。 还有copula中概率积分变换背后的概念是什么?我的意思是我们知道,系动词是具有统一变量的函数。为什么必须统一?为什么不使用诸如多元正态分布之类的实际数据并找到相关矩阵?(通常,我们绘制这两种资产收益以考虑它们之间的关系,但是当它是copula时,我们绘制的是概率为US的资产。) 另一个问题。我还怀疑来自MVN的相关矩阵是否可以像copula一样是非参数的或半参数的(因为copula参数可以是kendall's tau等)。 由于我是该领域的新手,我将非常感谢您的帮助。(但是我读了很多论文,而这些是我唯一不了解的内容)

2
比较模型及其对数转换版本的AIC
我的问题的实质是: 让Y∈RnY∈RnY \in \mathbb{R}^n与平均值的多元正态随机变量μμ\mu和协方差矩阵ΣΣ\Sigma。让Z:=log(Y)Z:=log⁡(Y)Z := \log(Y),即Zi=log(Yi),i∈{1,…,n}Zi=log⁡(Yi),i∈{1,…,n}Z_i = \log(Y_i), i \in \{1,\ldots,n\}。如何比较适合观察到的实现模型的AIC YYY与适合观察到的实现模型的AIC ZZZ? 我最初的问题和稍长的问题: 让Y∼N(μ,Σ)Y∼N(μ,Σ)Y \sim \mathcal{N}(\mu,\Sigma)是一个多变量正态随机变量。如果我想比较适合于YYY的模型与适合对的模型log(Y)log⁡(Y)\log(Y),可以看看它们的对数似然性。但是,由于这些模型不是嵌套的,因此我无法直接比较对数可能性(以及诸如AIC之类的东西),但必须对其进行转换。 我知道如果X1,…,XnX1,…,XnX_1,\ldots,X_n是具有联合pdf 随机变量,g(x1,…,xn)g(x1,…,xn)g(x_1,\ldots,x_n)并且Yi=ti(X1,…,Xn)Yi=ti(X1,…,Xn)Y_i = t_i(X_1,\ldots,X_n)进行一对一转换titit_i和i∈{1,…,n}i∈{1,…,n}i \in \{1,\ldots,n\},则PDF的Y1,…,YnY1,…,YnY_1,\ldots,Y_n其中 J是与变换关联的雅可比行列式。f(y1,…,yn)=g(t−11(y),…,t−1n(y))det(J)f(y1,…,yn)=g(t1−1(y),…,tn−1(y))det(J)f(y_1,\ldots,y_n)=g(t_1^{-1}(y),\ldots,t_n^{-1}(y))\det(J)JJJ 我是否只需要使用转换规则进行比较 到 l (log (Y ))= log (n ∏ i = 1 ϕ (log (y i); μ ,Σ ))l(Y)=log(∏i=1nϕ(yi;μ,Σ))l(Y)=log⁡(∏i=1nϕ(yi;μ,Σ))l(Y) = \log(\prod_{i=1}^{n}\phi(y_i;\mu,\Sigma))l(log(Y))=log(∏i=1nϕ(log(yi);μ,Σ))l(log⁡(Y))=log⁡(∏i=1nϕ(log⁡(yi);μ,Σ))l(\log(Y))=\log(\prod_{i=1}^{n}\phi(\log(y_i);\mu,\Sigma)) 还是我还能做些什么? [edit]忘记将对数放在最后两个表达式中。

1
如何了解RBF SVM的效果
我如何了解SVM中的RBF内核?我的意思是我理解数学,但是有什么办法可以感觉到何时该内核会有用吗? 由于RBF包含矢量距离,因此kNN的结果是否与SVM / RBF有关? 有没有一种方法可以了解多项式内核?我知道尺寸越高,它越摆动。但是我想了解一下内核的工作原理,而不是尝试所有可能的内核并选择最成功的内核。
17 svm  kernel-trick 

2
如何计算估计的OLS的方差
我知道 β0^=y¯−β1^x¯β0^=y¯−β1^x¯\hat{\beta_0}=\bar{y}-\hat{\beta_1}\bar{x} ,这是我得到多远,当我计算方差: Var(β0^)=Var(y¯−β1^x¯)=Var((−x¯)β1^+y¯)=Var((−x¯)β1^)+Var(y¯)=(−x¯)2Var(β1^)+0=(x¯)2Var(β1^)+0=σ2(x¯)2∑i=1n(xi−x¯)2Var(β0^)=Var(y¯−β1^x¯)=Var((−x¯)β1^+y¯)=Var((−x¯)β1^)+Var(y¯)=(−x¯)2Var(β1^)+0=(x¯)2Var(β1^)+0=σ2(x¯)2∑i=1n(xi−x¯)2\begin{align*} Var(\hat{\beta_0}) &= Var(\bar{y} - \hat{\beta_1}\bar{x}) \\ &= Var((-\bar{x})\hat{\beta_1}+\bar{y}) \\ &= Var((-\bar{x})\hat{\beta_1})+Var(\bar{y}) \\ &= (-\bar{x})^2 Var(\hat{\beta_1}) + 0 \\ &= (\bar{x})^2 Var(\hat{\beta_1}) + 0 \\ &= \frac{\sigma^2 (\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n (x_i - \bar{x})^2} \end{align*} 但这距离我还很远。我想要计算的最终公式是 Var(β0^)=σ2n−1∑i=1nx2i∑i=1n(xi−x¯)2Var(β0^)=σ2n−1∑i=1nxi2∑i=1n(xi−x¯)2\begin{align*} Var(\hat{\beta_0}) &= \frac{\sigma^2 n^{-1}\displaystyle\sum\limits_{i=1}^n x_i^2}{\displaystyle\sum\limits_{i=1}^n (x_i - \bar{x})^2} \end{align*} 我不确定如何获得假设我的数学到那里是正确的) 。(x¯)2=1n∑i=1nx2i(x¯)2=1n∑i=1nxi2(\bar{x})^2 = \frac{1}{n}\displaystyle\sum\limits_{i=1}^n …

4
贝叶斯和常驻点估计量在什么条件下重合?
对于平坦的先验,ML(频率-最大似然)和MAP(贝叶斯-最大后验)估计量是重合的。 但是,更笼统地说,我说的是作为某些损失函数的优化子而得出的点估计量。即 )X(x^(.)=argminE(L(X−x^(y))|y) (Bayesian) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat x(y)) \; | \; y \right) \qquad \; \,\text{ (Bayesian) } x^(.)=argminE(L(x−x^(Y))|x)(Frequentist)x^(.)=argminE(L(x−x^(Y))|x)(Frequentist) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(x-\hat x(Y)) \; | \; x \right) \qquad \text{(Frequentist)} 其中EE\mathbb{E}是期望算子,LLL是损失函数(最小为零),x^(y)x^(y)\hat x(y) 是估计器,给定参数x的数据y,并且随机变量用大写字母表示。yyyxxx 是否有人知道LLL,xxx和y的pdf yyy,施加的线性度和/或无偏度的任何条件,这些条件在哪些条件下估计会重合? 编辑 …

4
神经网络中的“自由度”是什么意思?
在Bishop的书《模式分类和机器学习》中,它描述了一种在神经网络环境下进行正则化的技术。但是,我不理解一段描述训练过程中自由度的数量随模型复杂性而增加的段落。相关报价如下: 作为控制网络有效复杂性的一种方式,使用正规化的另一种方法是早期停止的过程。非线性网络模型的训练对应于针对一组训练数据定义的误差函数的迭代减少。对于用于网络训练的许多优化算法(例如共轭梯度),误差是迭代索引的非递增函数。但是,相对于独立数据测得的误差(通常称为验证集)通常首先显示出减小的趋势,然后随着网络开始过度拟合而增大。因此,可以相对于验证数据集在最小错误点停止训练,如图5.12所示,以便获得具有良好泛化性能的网络。在这种情况下,有时会根据网络中的有效自由度来对网络的行为进行定性解释,其中,该自由度从小开始,然后在训练过程中逐渐增加,这与有效自由度的稳定增长相对应。模型的复杂性。 它还说,参数的数量在训练过程中会增加。我假设通过“参数”来指代网络隐藏单元控制的权重数。也许我错了,因为通过正则化过程可以防止权重的大小增加,但是权重不会改变。难道是指找到大量隐藏单位的过程? 神经网络的自由度是多少?训练期间增加哪些参数?

4
关于统计的数学基础的良好资源(在线或书籍)
在我提出问题之前,让我给您一些有关统计知识的背景知识,以便您对我正在寻找的资源类型有更好的了解。 我是心理学的研究生,因此,我几乎每天都使用统计数据。到目前为止,我已经熟悉了各种各样的技术,主要是因为它们是在通用结构方程建模框架中实现的。但是,我的培训是使用这些技术和结果的解释-我对这些技术的正式数学基础了解不多。 但是,越来越多的我不得不从统计数据中正确地阅读论文。我发现这些论文经常假定我对数学概念不了解,例如线性代数。因此,我变得坚信,如果我希望做的不仅仅是盲目使用所教的工具,那对我了解一些统计学的数学基础将是有用的。 因此,我有两个相关的问题: 如果我想重新掌握统计学的数学基础,哪种数学技术对我有用?我经常遇到线性代数,而且我相信对概率论的学习将是有用的,但是还有其他数学领域对我来说是有用的吗? 作为想进一步了解统计学的数学基础的人,您可以向我推荐哪些资源(在线或书本形式)?

4
如何在R中执行ANCOVA
我想对有关植物附生植物密度的数据进行ANCOVA分析。首先,我想知道两个坡度(一个N和一个S)之间的植物密度是否存在任何差异,但是我还有其他数据,例如海拔,冠层开放度和寄主植物的高度。我知道我的协变量必须是两个斜率(N和S)。我建立了在R中运行的模型,尽管我不知道它是否运行良好。我也想知道如果使用符号+或会有什么区别*。 model1 <- aov(density~slope+altitude+canopy+height) summary(model1) model1
17 r  ancova 

1
加权方差,再一次
无偏加权方差已在此处和其他地方得到解决,但似乎仍然令人惊讶。对于第一个链接以及Wikipedia文章中提供的公式似乎已达成共识。这也看起来像R,Mathematica和GSL(而不是MATLAB)使用的公式。但是,Wikipedia文章还包含以下几行,对于加权方差实现而言,这看起来很不错: 例如,如果从同一分布中得出值{2,2,4,5,5,5},那么我们可以将此集合视为未加权样本,也可以将其视为加权样本{2,4, 5}和相应的权重{2,1,3},我们应该得到相同的结果。 我的计算得出原始值的方差为2.1667,加权方差为2.9545。我真的应该期望它们是一样的吗?为什么或者为什么不?

4
交叉验证和参数调整
谁能告诉我交叉验证分析给出的确切结果吗?它仅仅是平均精度,还是可以提供参数经过调整的任何模型? 因为,我在某处听说交叉验证用于参数调整。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.