统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
如何解释这些acf和pacf图
以下是每月数据系列的acf和pacf图。第二个图是带有ci.type ='ma'的acf: acf图中高值的持续性可能代表了长期的积极趋势。问题是这是否代表季节性变化? 我尝试查看有关此主题的其他站点,但不确定这些图是否显示季节性。 ACF和PACF图分析 帮助解释ACF-和PACF-图 帮助了解以下ACF图片 自相关和部分自相关解释 编辑:以下是滞后高达60的图形: 以下是diff(my_series)的图: 直到滞后60: 编辑:此数据来自:这是测试自杀人数数据中季节性影响的适当方法吗? 在这里,贡献者没有考虑值得一提的原始或差异系列的acf和pacf图(因此它一定不重要)。在几个地方仅引用了残差的acf / pacf图。

4
在交叉验证之外调整超参数有多糟糕?
我知道在交叉验证之外执行超参数调整会导致对外部有效性的偏高估计,因为您用来衡量性能的数据集与用于调整功能的数据集相同。 我想知道的是,这个问题有多严重。我可以理解,这对于选择功能真的很不利,因为这使您可以调整大量的参数。但是,如果您使用的是LASSO之类的东西(它只有一个参数,即正则化强度),或者是一个没有特征选择的随机森林(它可以具有一些参数,却没有添加/删除噪声特征那么引人注目)? 在这些情况下,您对培训误差的估计有多乐观? 我非常感谢您提供任何有关此方面的信息-案例研究,论文,文献数据等。谢谢! 编辑:为澄清起见,我不是在谈论在训练数据上评估模型性能(即根本不使用交叉验证)。“交叉验证之外的超参数调整”是指仅使用交叉验证来估计每个模型的性能,而不包括外部第二交叉验证循环来校正超参数调整过程中的过拟合(与在训练过程中过度安装)。请参见此处的答案。

1
为什么最佳线性无偏预测器(BLUP)的估计值与最佳线性无偏估计器(BLUE)的估计值为何不同?
我知道它们之间的差异与模型中的分组变量是固定效应还是随机效应有关,但我不清楚为什么它们不相同(如果它们不相同)。 如果相关,我特别对使用小面积估计时的工作方式感兴趣,但是我怀疑这个问题与固定和随机效应的任何应用有关。

1
边际效应标准误差如何使用增量法?
我有兴趣更好地理解delta方法,以近似包括交互项的回归模型的平均边际效应的标准误差。我已经研究了增量方法下的相关问题,但没有一个提供了我想要的东西。 考虑以下示例数据作为激励示例: set.seed(1) x1 <- rnorm(100) x2 <- rbinom(100,1,.5) y <- x1 + x2 + x1*x2 + rnorm(100) m <- lm(y ~ x1*x2) 我感兴趣的平均边际效应(AMES)x1和x2。为了计算这些,我只需执行以下操作: cf <- summary(m)$coef me_x1 <- cf['x1',1] + cf['x1:x2',1]*x2 # MEs of x1 given x2 me_x2 <- cf['x2',1] + cf['x1:x2',1]*x1 # MEs of x2 given x1 mean(me_x1) …

2
与PCA相比,SVD有什么优势吗?
我知道如何用数学方法计算PCA和SVD,并且我知道两者都可以应用于线性最小二乘回归。 从数学上讲,SVD的主要优点似乎是可以将其应用于非平方矩阵。 两者都集中在矩阵的分解上。除了提到的SVD的优势之外,使用SVD相对于PCA是否还有其他优势或见解?X⊤XX⊤XX^\top X 我真的是在寻找直觉,而不是任何数学上的差异。
20 pca  least-squares  svd 

6
中位数是“均值”的某种概括的均值类型吗?
“均值”的概念远远超出了传统的算术平均值。它是否延伸到包括中位数?类推, 原始数据⟶ID原始数据⟶意思原始均值 ⟶ID− 1算术平均值原始数据⟶收据倒数 ⟶意思倒数⟶收据− 1谐波均值原始数据⟶日志日志 ⟶意思平均对数⟶日志− 1几何平均数原始数据⟶广场方格 ⟶意思均方⟶广场− 1均方根原始数据⟶秩等级 ⟶意思平均等级⟶秩− 1中位数原始数据⟶ID原始数据⟶意思原始均值⟶ID-1个算术平均值原始数据⟶收据倒数⟶意思平均倒数⟶收据-1个谐波均值原始数据⟶日志日志⟶意思平均对数⟶日志-1个几何平均数原始数据⟶广场方格⟶意思均方根⟶广场-1个均方根原始数据⟶秩等级⟶意思平均等级⟶秩-1个中位数 \text{raw data} \overset{\text{id}}{\longrightarrow} \text{raw data} \overset{\text{mean}}{\longrightarrow} \text{raw mean} \overset{\text{id}^{-1}}{\longrightarrow} \text{arithmetic mean} \\ \text{raw data} \overset{\text{recip}}{\longrightarrow} \text{reciprocals} \overset{\text{mean}}{\longrightarrow} \text{mean reciprocal} \overset{\text{recip}^{-1}}{\longrightarrow} \text{harmonic mean} \\ \text{raw data} \overset{\text{log}}{\longrightarrow} \text{logs} \overset{\text{mean}}{\longrightarrow} \text{mean log} \overset{\text{log}^{-1}}{\longrightarrow} \text{geometric mean} \\ \text{raw data} \overset{\text{square}}{\longrightarrow} \text{squares} …
20 mean  average  median 

2
计算因子得分的方法,PCA或因子分析中的“得分系数”矩阵是什么?
根据我的理解,在基于相关性的PCA中,我们得到的是因子(在这种情况下,主成分)加载,而变量和因子之间的相关性就是什么。现在,当我需要在SPSS中生成因子得分时,我可以直接获取每个因子的每个受访者的因子得分。我还观察到,如果将“ 组件得分系数矩阵 ”(由SPSS生成)乘以标准化原始变量,则得到的分数得分与从SPSS获得的因子得分相同。 有人可以帮我了解如何计算“成分得分系数矩阵”或“因子得分系数矩阵”(通过它们可以计算因子或成分得分)吗?不同的计算因子评分方法在此矩阵上有何不同?

1
如何在R的线性回归中获得均方误差的值
让由R函数lm获得的线性回归模型想知道是否可以通过均方误差命令获得。 我有一个示例的以下输出 > lm <- lm(MuscleMAss~Age,data) > sm<-summary(lm) > sm Call: lm(formula = MuscleMAss ~ Age, data = data) Residuals: Min 1Q Median 3Q Max -16.1368 -6.1968 -0.5969 6.7607 23.4731 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 156.3466 5.5123 28.36 <2e-16 *** Age -1.1900 0.0902 -13.19 <2e-16 *** --- …
20 r  regression  error 

2
吉布斯采样与常规MH-MCMC
我一直在阅读有关Gibbs采样和Metropolis Hastings算法的文章,并有几个问题。 据我了解,在吉布斯抽样的情况下,如果我们有一个大的多元问题,我们从条件分布中抽样,即抽样一个变量,而其他变量保持不变,而在MH中,我们从整个联合分布抽样。 该文件说的一件事是,建议的样本始终在Gibbs抽样中接受,即建议的接受率始终为1。对我来说,这似乎是一个很大的优势,因为对于大型多元问题,MH算法的拒绝率似乎变得很大。如果确实如此,那么为什么一直不使用Gibbs Sampler来生成后验分布的原因是什么?

2
线性变换后随机向量的协方差
如果是随机向量并且是一个固定矩阵,有人可以解释为什么甲Ç ö v [ 甲ž ] = 甲Ç ö v [ Ž ] 甲⊤。ZZ\mathbf {Z}AAAcov[AZ]=Acov[Z]A⊤.cov[AZ]=Acov[Z]A⊤.\mathrm{cov}[A \mathbf {Z}]= A \mathrm{cov}[\mathbf {Z}]A^\top.
20 covariance 

4
是否有类似决策树的无监督聚类算法?
我有一个由5个要素组成的数据集:A,B,C,D,E。它们都是数字值。我要做的不是以密度为基础的聚类,而是以类似决策树的方式对数据进行聚类。 我的意思是这样的: 该算法可以基于特征C将数据划分为X个初始簇,即,X个簇可以具有小C,中等C,大C和非常大的C值等。接下来,在X个簇节点的每个下,算法进一步划分根据特征A将数据分为Y个簇。算法将继续进行,直到使用了所有特征。 我上面描述的算法就像决策树算法。但是我需要它用于无监督的聚类,而不是有监督的分类。 我的问题如下: 这样的算法已经存在吗?这种算法的正确名称是什么 是否有一个R / python包/库实现了这种算法?

3
针对某些值测试模型系数(回归斜率)
在R,当我有一个(广义)线性模型(lm,glm,gls,glmm,...),我怎样才能测试系数(回归斜率)对大于0的任何其它值?在模型摘要中,会自动报告系数的t检验结果,但仅用于与0进行比较。我想将其与另一个值进行比较。 我知道我可以使用一个小技巧与reparametrizing y ~ x为y - T*x ~ x,其中T是测试值,并运行此重新参数模型,但我追求简单的解决方案,这将可能在原有的模式工作。
20 r  regression  t-test 


3
解释样条结果
我正在尝试使用R拟合GLM的样条曲线。一旦拟合出样条曲线,我希望能够获取生成的模型并在Excel工作簿中创建建模文件。 例如,假设我有一个数据集,其中y是x的随机函数,并且斜率在特定点处突然变化(在这种情况下,x = 500)。 set.seed(1066) x<- 1:1000 y<- rep(0,1000) y[1:500]<- pmax(x[1:500]+(runif(500)-.5)*67*500/pmax(x[1:500],100),0.01) y[501:1000]<-500+x[501:1000]^1.05*(runif(500)-.5)/7.5 df<-as.data.frame(cbind(x,y)) plot(df) 我现在使用 library(splines) spline1 <- glm(y~ns(x,knots=c(500)),data=df,family=Gamma(link="log")) 我的结果显示 summary(spline1) Call: glm(formula = y ~ ns(x, knots = c(500)), family = Gamma(link = "log"), data = df) Deviance Residuals: Min 1Q Median 3Q Max -4.0849 -0.1124 -0.0111 0.0988 1.1346 …
20 splines 

2
KKT与套索回归的无约束公式
L1惩罚回归(又名套索)以两种形式表示。设两个目标函数为 Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. 然后将两种不同的制剂是 argminβQ1argminβQ1 \text{argmin}_\beta \; Q_1 受 ||β||1≤t,||β||1≤t, ||\beta||_1 \leq t, 和等同 argminβQ2.argminβQ2. \text{argmin}_\beta \; Q_2. 使用Karush-Kuhn-Tucker(KKT)条件,很容易看出第一种配方的平稳性条件等同于采用第二种配方的梯度并将其设置为0。我找不到,也找不到,是第一种配方的补充松弛条件λ(||β||1−t)=0λ(||β||1−t)=0\lambda\left(||\beta||_1 - t\right) = 0如何通过第二种配方的溶液保证得到满足。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.