统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
可视化样条曲线基础
教科书在解释主题时,通常会以漂亮的示例样条为基础,说明统一样条曲线的基础。像是线性样条线的一排小三角形,或者是三次样条线的一排小驼峰。 这是一个典型的例子: http://support.sas.com/documentation/cdl/zh-CN/statug/63033/HTML/default/viewer.htm#statug_introcom_a0000000525.htm 我想知道是否有使用标准R函数(如bs或ns)生成样条曲线基础图的简便方法。我猜想有一个简单的矩阵算术与一个琐碎的R程序相结合,可以优雅地吐出漂亮的样条曲线图。我只是想不到!

1
多元回归系数的标准误差?
我意识到这是一个非常基本的问题,但是我在任何地方都找不到答案。 我正在使用正态方程或QR分解计算回归系数。如何计算每个系数的标准误差?我通常认为标准错误的计算方式如下: SEx¯ =σx¯n√SEx¯ =σx¯nSE_\bar{x}\ = \frac{\sigma_{\bar x}}{\sqrt{n}} 什么是的每个系数?在OLS上下文中最有效的计算方法是什么?σx¯σx¯\sigma_{\bar x}


1
LASSO假设
在LASSO回归方案中, y=Xβ+ϵy=Xβ+ϵy= X \beta + \epsilon, LASSO估计值由以下优化问题给出 minβ||y−Xβ||+τ||β||1minβ||y−Xβ||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 是否有关于分布假设?ϵϵ\epsilon 在OLS场景中,人们会期望ϵϵ\epsilon是独立的并且是正态分布的。 在LASSO回归中分析残差是否有意义? 我知道LASSO估计可以作为\ beta_j的独立双指数先验下的后验模式获得βjβj\beta_j。但是我还没有找到任何标准的“假设检查阶段”。 提前致谢 (:

1
随机厨房水槽如何工作?
去年在NIPS 2017上,阿里·拉希米(Ali Rahimi)和本·雷赫特(Ben Recht)的论文“大型内核机器的随机特征” 获得了时间测试奖,他们引入了随机特征,后来被编纂为随机厨房水槽算法。作为公开发表论文的一部分,他们表明可以在5行Matlab中实现他们的模型。 % Approximates Gaussian Process regression % with Gaussian kernel of variance gamma^2 % lambda: regularization parameter % dataset: X is dxN, y is 1xN % test: xtest is dx1 % D: dimensionality of random feature % training w = randn(D,d); b = 2 * pi …


4
ACF和PACF公式
我想创建一个用于从时间序列数据中绘制ACF和PACF的代码。就像从minitab生成的图一样(如下)。 我已经尝试搜索该公式,但是我仍然不太了解它。 您介意告诉我该公式以及如何使用它吗? 上面的ACF和PACF图上的水平红线是什么?公式是什么? 谢谢,

2
我们应该重复几次K折简历?
我遇到了这个线程,研究了引导和交叉验证之间的区别-很好的答案和参考。我现在想知道的是,如果要执行重复的10倍CV运算以计算分类器的准确性,我应该重复n次? n是否取决于折数?关于样本量?有什么规定吗? (就我而言,我的样本多达5000个,如果我选择的值大于n = 20,则我的计算机将花费很长时间进行计算。)

1
为什么KL分歧是非负的?
KL散度为何非负? 从信息论的角度,我有这样一个直观的理解: 假设有两个合奏和,它们由用标记的同一组元素组成。和分别是合奏和上不同的概率分布。B x p (x )q (x )A BAAABBBxxxp(x)p(x)p(x)q(x)q(x)q(x)AAABBB 从信息论的角度来看,log2(P(x))log2⁡(P(x))\log_{2}(P(x))是记录集合A的元素所需的最少比特数。使得期望 Σ X ∈ ë Ñ 小号Ë 米b 升ë - p (X )LN (p (X )) 可以被解释为至少多少位,我们需要用于记录中的一个元素甲平均。xxxAAA∑x∈ensemble−p(x)ln(p(x))∑x∈ensemble−p(x)ln⁡(p(x))\sum_{x \in ensemble}-p(x)\ln(p(x))AAA 由于此公式对我们平均所需的位设置了下限,因此对于带来不同概率分布q (x )的不同集合,它为每个元素x给出的界肯定不会是由p (x )给出,这意味着采用期望值, 该平均长度肯定会大于前一个,这导致∑ xBBBq(x)q(x)q(x)xxxp(x)p(x)p(x) ∑x∈ensemble−p(x)ln(q(x))∑x∈ensemble−p(x)ln⁡(q(x))\sum_{x\in ensemble}-p(x)\ln(q(x)) 因为p(x)和q(x)不同,所以 我在这里不做≥。∑x∈ensemblep(x)ln(p(x))ln(q(x))>0∑x∈ensemblep(x)ln⁡(p(x))ln⁡(q(x))>0\sum_{x\in ensemble }p(x)\frac{\ln(p(x))}{\ln(q(x))} > 0≥≥\gep(x)p(x)p(x)q(x)q(x)q(x) 这是我的直觉理解,是否有一种纯粹的数学方法证明KL散度为非负数?该问题可以表述为: 给出和q (X )都为正实上线,和∫ + ∞ …

3
如何在Python中系统地删除共线变量?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 到目前为止,我已经通过查看相关表并消除了超过某个阈值的变量,来删除了共线变量作为数据准备过程的一部分。有一种更可接受的方式吗?此外,我知道一次只查看两个变量之间的相关性并不理想,像VIF这样的测量考虑了多个变量之间的潜在相关性。如何系统地选择不表现出多重共线性的变量组合? 我将数据存储在熊猫数据框中,并且正在使用sklearn的模型。

1
与标准PCA相比,内核PCA有何优势?
我想在一篇使用内核SVD分解数据矩阵的论文中实现一种算法。因此,我一直在阅读有关内核方法和内核PCA等的材料。但是,对于我而言,尤其是在数学细节方面,它还是很晦涩的,我有几个问题。 为什么使用内核方法?或者,内核方法有什么好处?直观的目的是什么? 是否假设与非内核方法相比,更高的维数空间在现实世界中的问题更现实,并且能够揭示数据中的非线性关系?根据材料,内核方法将数据投影到高维特征空间上,但是它们不必显式计算新的特征空间。相反,仅计算特征空间中所有数据对对的图像之间的内积就足够了。那么为什么要投影到更高维度的空间呢? 相反,SVD减少了特征空间。他们为什么要朝不同的方向做?内核方法寻求更高维度,而SVD寻求更低维度。对我来说,将它们结合起来听起来很奇怪。根据我正在阅读的论文(Symeonidis等,2010),引入内核SVD而不是SVD可以解决数据中的稀疏性问题,从而改善结果。 从图中的比较中我们可以看到,KPCA得到的特征向量的方差(特征值)比PCA高。因为对于点在特征向量(新坐标)上的投影的最大差异,KPCA是一个圆,PCA是一条直线,所以KPCA的方差大于PCA。那么,这是否意味着KPCA的主成分要高于PCA?
18 pca  svd  kernel-trick 


3
根据预期分布测试随机生成的数据
我写了一个程序,可以生成随机数据。如果程序正常运行,则该数据应遵循特定的已知概率分布。我想运行该程序,对结果进行一些计算,并得出一个p值。 在其他人说之前:我了解假设检验无法检测程序何时正常运行。它只能以特定方式检测何时无法正确运行。(即使如此,测试还是应该在X%的时间内失败,具体取决于您选择的显着性水平...) 因此,我试图了解哪种工具合适。尤其是: 我可以根据需要生成任意多的随机数据。我要做的就是让程序运行足够长的时间。因此,我不限于任何特定的样本量。 我对产生p值的技术感兴趣。因此,盯着图说“是的,看起来有点线性”并不是一个有趣的选择。除非有某种方法可以将硬数字放在图形的“奇特性”上。;-) 我到目前为止所知道的: 我已经看到提到了三种主要的测试,听起来可能适用:[Pearson]卡方测试,Kolmogorov-Smirnov测试和Anderson-Darling测试。 卡方检验似乎适用于离散分布,而其他两个检验更适合于连续分布。(?) 各种资料表明,AD测试比KS测试“更好”,但是没有进一步详细介绍。 最终,所有这些测试都可能检测出偏离指定零分布的“不同方式”。但是我还真的不知道它们之间的区别是什么...总之,我正在寻找某种一般性的描述,以说明每种类型的测试最适用的位置以及可以最好地检测到哪些类型的问题。


1
在盖尔曼(Gelman)的8个学校示例中,为什么已知的单个估计的标准误差已知?
内容: 在盖尔曼(Gelman)的8个学校的示例(贝叶斯数据分析,第3版,第5.5章)中,有8个学校的八个平行实验测试了教练的效果。每个实验都会对教练的有效性和相关的标准误产生一个估计值。 然后,作者为教练效应的8个数据点建立了一个层次模型,如下所示: yi∼N(θi,sei)θi∼N(μ,τ)yi∼N(θi,sei)θi∼N(μ,τ) y_i \sim N(\theta_i, se_i) \\ \theta_i \sim N(\mu, \tau) 问题 在这个模型中,他们假设seiseise_i是已知的。如果我们觉得我们必须模型-我不明白这个假设θiθi\theta_i,我们为什么不这样做对同一seiseise_i? 我检查了鲁宾的原始论文,介绍了8学派的例子,作者也在那说(p 382): 当我们通过估计的效果及其标准误差对研究进行总结时,通常会进行正态性和已知标准误差的假设,在此我们不会质疑其用途。 总结一下,我们为什么不模拟seiseise_i?为什么我们将其视为已知?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.