统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


2
速度,PCA,LASSO,弹性网的计算费用
我正在尝试比较Hastie等人中区分的三组线性回归方法的计算复杂度/估计速度。“统计学习的要素”(第二版),第3章: 子集选择 收缩方式 使用派生输入方向的方法(PCR,PLS) 进行比较可能很粗略,只是为了给出一些想法。我认为答案可能取决于问题的严重程度以及如何适应计算机体系结构,因此举一个具体的例子,可以考虑样本量为500和50个候选回归变量。我最感兴趣的是计算复杂性/估计速度背后的动机,而不是对于给定示例而言,使用某个处理器需要多长时间。

1
第二矩法,布朗运动?
令BtBtB_t为标准的布朗运动。令Ej,nEj,nE_{j, n}表示事件{Bt=0 for some j−12n≤t≤j2n},{Bt=0 for some j−12n≤t≤j2n},\left\{B_t = 0 \text{ for some }{{j-1}\over{2^n}} \le t \le {j\over{2^n}}\right\},令其中表示指标函数。是否存在使得对于所有是否存在?我怀疑答案是肯定的。我尝试过弄乱第二时刻的方法,但没有太大用处。可以使用第二时刻方法显示吗?还是我应该尝试其他东西?Kn=∑j=2n+122n1Ej,n,Kn=∑j=2n+122n1Ej,n,K_n = \sum_{j = 2^n + 1}^{2^{2n}} 1_{E_{j,n}},111ρ>0ρ>0\rho > 0P{Kn≥ρ2n}≥ρP{Kn≥ρ2n}≥ρ\mathbb{P}\{K_n \ge \rho2^{n}\} \ge \rhonñn

1
模型选择中的悖论(AIC,BIC,是解释还是预测?)
阅读了加利特·斯穆利(Galit Shmueli)的“解释或预测”(2010),我为明显的矛盾感到困惑。一共有三个前提 基于AIC的与基于BIC的模型选择(第300页的结束-第301页的开始):简而言之,应使用AIC选择用于预测的模型,而应使用BIC选择用于解释的模型。另外(我们不在上面的文章中),我们知道在某些条件下BIC会在候选模型集中选择真实模型。真正的模型是我们在解释模型中寻求的(第293页末)。 简单的算法:对于大小为8或更大的样本,AIC将选择比BIC 更大的模型由于AIC与BIC的复杂度惩罚不同,因此满足)。ln(n)>2ln(n)>2\text{ln}(n)>2 在“真实”模型(即用正确的回归量和正确的函数形式,但不完全估计系数模型)可能不是预测的最佳模式(P 307):回归模型缺少的预测可能是一个更好的预测模型-由于缺少估计变量而导致的偏差可能会因估计不准确而导致方差减少而被抵消。 要点1.和2.表明较大的模型可能比较简约的模型更适合预测。同时,第3点给出了一个相反的例子,其中更简约的模型比较大的模型更适合预测。我感到困惑。 问题: 点之间如何出现明显的矛盾{1。和2.}和3.被解释/解决? 鉴于第3点,您能否就AIC选择的较大模型实际上比BIC选择的更简约模型更好地进行预测进行直观的解释?

3
一个很好的例子,其中没有单位根的序列是非平稳的?
我已经看过好几次人们在增强Dickey-Fuller检验中拒绝空值,然后声称它表明他们的序列是平稳的(不幸的是,我无法显示这些声明的来源,但是我想类似的声明在这里和那里都存在。一本或另一本日记)。 我认为这是一种误解(拒绝单位根的零点不一定与拥有平稳序列相同,尤其是因为进行此类测试时很少研究甚至不考虑非平稳性的替代形式)。 我想要的是: a)一个很好的明显反例(我现在可以想象一对夫妇,但我敢打赌,除了我以外的人会比我的想法更好)。它可能是对特定情况的描述,也许带有数据(模拟的或真实的;两者都有其优势);要么 b)一个令人信服的论点,为什么应将增强迪基-富勒中的拒绝视为建立平稳性 (如果感觉很聪明,甚至(a)和(b)都可以)

4
为什么将数据分为训练和测试集还不够
我知道,为了访问分类器的性能,我必须将数据分为训练/测试集。但是读这个: 在评估估算器的不同设置(“超参数”)(例如必须为SVM手动设置的C设置)时,仍然存在测试集过拟合的风险,因为可以对参数进行调整,直到估算器达到最佳性能为止。这样,有关测试集的知识可以“渗入”模型,并且评估指标不再报告泛化性能。为了解决此问题,可以将数据集的另一部分保留为所谓的“验证集”:对训练集进行训练,然后对验证集进行评估,以及实验何时成功,可以对测试集进行最终评估。 我看到引入了另一个(第三个)验证集,这是通过在超参数调整期间对测试集进行过度拟合来证明的。 问题是我无法理解这种过度拟合的外观,因此无法理解第三组的合理性。

2
在泊松模型中,将时间用作协变量或偏移量有什么区别?
最近,我发现了如何使用(例如)时间的对数作为Poisson回归中的偏移量来建模随时间变化的曝光量。 我知道偏移量对应于时间与系数1协变量。 我想更好地了解使用时间作为偏移量或作为正常协变量(从而估算系数)之间的区别。在哪种情况下我应该使用一种方法或另一种方法? 升级:我不知道这是否有趣,但是我使用重复重复500次的随机拆分数据对这两种方法进行了验证,我注意到使用offset方法会导致更大的测试错误。

1
备忘单ANOVA字母汤和回归等效项
我能否获得帮助以完成此暂定(正在进行中)的尝试,以了解与ANOVA和REGRESSION等效项的含义?我一直在尝试调和这两种方法的概念,术语和语法。这个站点上有很多关于它们的共性的帖子,例如this或this,但是在开始时有一张快速的“ you are here”地图仍然是一件好事。 我计划更新此帖子,并希望获得纠正错误的帮助。 单向方差分析: Structure: DV is continuous; IV is ONE FACTOR with different LEVELS. Scenario: miles-per-gal. vs cylinders Note that Income vs Gender (M, F) is a t-test. Syntax: fit <- aov(mpg ~ as.factor(cyl), data = mtcars); summary(fit); TukeyHSD(fit) Regression: fit <- lm(mpg ~ as.factor(cyl), mtcars) # …

1
LOOCV公式的证明
根据James等人的《统计学习入门》,留一法交叉验证(LOOCV)估计值定义为 其中。CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2 没有证据,方程式(5.2)指出,对于最小二乘或多项式回归(我是否只适用于仅对一个变量进行回归), 其中“为在从原来的最小二乘个拟合值拟合(不知道的方式这意味着什么,,它使用意味着所有数据集?点)和是杠杆作用”,这是由定义ÿ我我CV(n)=1n∑i=1n(yi−y^i1−hi)2CV(n)=1n∑i=1n(yi−y^i1−hi)2\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\left(\dfrac{y_i - \hat{y}_i}{1-h_i}\right)^2y^iy^i\hat{y}_iiiihihih_ihi=1n+(xi−x¯)2∑j=1n(xj−x¯)2.hi=1n+(xi−x¯)2∑j=1n(xj−x¯)2.h_i = \dfrac{1}{n}+\dfrac{(x_i - \bar{x})^2}{\sum\limits_{j=1}^{n}(x_j - \bar{x})^2}\text{.} 如何证明这一点? 我的尝试:首先可以注意到 但分开由此(如果我还记得,公式仅适用于简单的线性回归...),我不确定如何从此处继续。ħ我y^i=β0+∑i=1kβkXk+some polynomial terms of degree ≥2y^i=β0+∑i=1kβkXk+some polynomial terms of degree ≥2\hat{y}_i = \beta_0 + \sum\limits_{i=1}^{k}\beta_k X_k + \text{some polynomial terms of degree }\geq 2hihih_i

2
了解独立成分分析
我已经看到并喜欢了“ 使主成分分析有意义”这个问题,现在对于独立成分分析也有相同的问题。我的意思是我想对理解ICA的直观方式提出一个全面的问题? 我想了解。我想达到目的。我想得到它的感觉。我坚信: 除非您可以向祖母解释,否则您并不会真正理解。 - 艾尔伯特爱因斯坦 好吧,我无法向外行或奶奶解释这个概念 为什么选择ICA?这个概念有什么需要? 您将如何向外行解释?
18 intuition  ica 


5
为什么要使用极值理论?
我来自土木工程学院,在该学院中,我们使用极值理论(例如GEV分布)来预测某些事件的值,例如最大风速,即风速的 98.5%会降低到的值。 我的问题是,为什么要使用这样的极值分配?如果仅使用总体分布并获得98.5%概率的值,会不会更容易?

1
哈尔蒂冈人的浸水测试的解释
我想找到一种方法来量化我凭经验获得的某些分布的双峰强度。据我了解,关于量化双峰态的方法仍有一些争议。我选择使用Hartigans的Dip测试,这似乎是R上唯一可用的测试(原始论文:http : //www.stat.washington.edu/wxs/Stat593-s03/Literature/hartigan85a.pdf)。Hartigans的倾角测试定义为:“倾角测试通过经验分布函数和最小化最大差异的单峰分布函数之间的所有样本点上的最大差来度量样本中的多峰”。 我想完全理解在使用统计信息之前应该如何解释。我期望如果分布是多峰的(将其定义为“与单峰分布的最大差异”),则浸入试验会增加。但是:您可以在Wikipedia页面上阅读有关多峰分布的信息:“小于0.05的值表示显着的双峰,而大于0.05但小于0.10的值表明双峰具有边际意义。” 。这种说法来自本文(图2)。根据本文,当分布为双峰时,浸入测试指数接近于0。这让我感到困惑。 为了正确解释Hartigans的Dip测试,我构造了一些分布(原始代码从这里开始),然后增加了exp(mu2)的值(从现在开始称为“双模强度” -编辑:我应该将其称为“强度”双峰的”),以获得双峰。在第一个图中,您可以看到一些分布示例。然后,我估计了与那些不同的模拟分布相关的浸入测试指数(第二张图)和p值(第三幅图)(包装浸入测试)。使用的R代码在我的文章结尾。 我在这里展示的是,当分配为双峰时,倾角测试指数较高,而Pvalue较低。这与您可以在互联网上阅读的内容相反。 我不是统计学专家,所以我几乎不了解Hartigans的论文。我想就正确解释Hartigans浸测的正确方式发表一些意见。我在哪里错了? 谢谢你们。问候, TA 模拟分布示例: 哈蒂根氏浸测指数相关: Hartigan的Dip测试p.value相关联: library(diptest) library(ggplot2) # CONSTANT PARAMETERS sig1 <- log(3) sig2 <- log(3) cpct <- 0.5 N=1000 #CREATING BIMOD DISTRIBUTION bimodalDistFunc <- function (n,cpct, mu1, mu2, sig1, sig2) { y0 <- rlnorm(n,mean=mu1, sd = sig1) y1 <- rlnorm(n,mean=mu2, …
18 r  distributions 

1
套索,山脊或弹性净解路径是单调的条件是否明确?
从该套索图(glmnet)得出的结论问题说明了套索估计量的解决路径不是单调的。也就是说,一些系数在缩小之前就已经增长了绝对值。 我已将这些模型应用于几种不同类型的数据集,但从未见过这种“狂野”的行为,直到今天,他们一直认为它们总是单调的。 是否有一组明确的条件可确保求解路径是单调的?如果路径改变方向,是否会影响结果的解释?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.