统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
指数族为什么不包括所有分布?
我正在读这本书: 主教,模式识别和机器学习(2006年) 将指数族定义为以下形式的分布(方程2.194): p(x|η)=h(x)g(η)exp{ηTu(x)}p(x|η)=h(x)g(η)exp⁡{ηTu(x)}p(\mathbf x|\boldsymbol \eta) = h(\mathbf x) g(\boldsymbol \eta) \exp \{\boldsymbol \eta^\mathrm T \mathbf u(\mathbf x)\} 但是我没有看到对h(x)h(x)h(\mathbf x)或u(x)u(x)\mathbf u(\mathbf x)。这是否意味着通过适当选择h(\ mathbf x)和\ mathbf u(\ mathbf x)(实际上只有其中一个必须正确选择!),任何分布都可以采用这种形式?那么,指数族为何不包括所有概率分布呢?我想念什么?h(x)h(x)h(\mathbf x)u(x)u(x)\mathbf u(\mathbf x) 最后,我感兴趣的一个更具体的问题是:伯努利分布在指数族中吗?维基百科声称是这样,但是由于我对这里的某些事情显然感到困惑,所以我想知道为什么。

3
如何执行等距对数比转换
我的运动行为(睡眠,久坐和进行体育锻炼所花费的时间)数据总计约为24(以每天的小时数表示)。我想创建一个变量,以捕获在每种行为中花费的相对时间-有人告诉我,等距对数比转换可以完成此任务。 看来我应该在R中使用ilr函数,但是找不到任何带有代码的实际示例。我从哪里开始? 我的变量是睡眠时间,平均久坐时间,平均平均轻度运动,平均中等强度的运动和平均剧烈运动。睡眠是自我报告的,而其他睡眠则是加速度计数据有效天的平均值。因此,对于这些变量,情况不等于24。 我的猜测:我正在SAS中工作,但是看起来R在这部分将更容易使用。因此,首先仅导入感兴趣变量的数据。然后使用acomp()函数。然后我无法弄清楚ilr()函数的语法。任何帮助将非常感激。

2
是否应在不进行替代的情况下抽取随机抽取的用于小批量训练神经网络的训练样本?
我们定义一个时期为已经遍历所有可用训练样本的全部,而最小批量大小则是我们求平均值以找到下降梯度所需的权重/偏差的样本数。 我的问题是,我们是否应该从训练示例集中取而代之,以便在一个时期内生成每个小批量生产。我觉得我们应该避免替换,以确保我们实际上“抽取了所有样本”以满足时代的要求,但是很难以一种或另一种方式找到确定的答案。 我已经尝试使用Google搜索和阅读Ch。Nielsen的《神经网络与深度学习》中的 1种,但没有找到明确的答案。在该文本中,尼尔森(Nielsen)没有指定随机抽样而不进行替换,而是暗示这样做。 如果需要,可以在这里找到更清晰的正式培训形式-https: //stats.stackexchange.com/a/141265/131630 编辑:这个问题似乎与我相似,但目前尚不清楚如何将期望的线性对独立性无视的事实应用于这种情况- 是否应在有或没有替代的情况下进行抽样


3
如何将序数分类变量作为自变量处理
我正在使用Logit模型。我的因变量是二进制。但是,我有一个独立变量,该变量是分类的并包含响应:1.very good, 2.good, 3.average, 4.poor and 5.very poor。因此,它是序数(“定量分类”)。我不确定如何在模型中处理此问题。我正在使用gretl。 [@ttnphns的注:尽管问题说模型是logit的(因为因数是分类的),但关键问题-序数自变量-基本上是相同的,无论是分类还是定量的因数。因此,这个问题也与线性回归同样相关-与逻辑回归或其他logit模型一样。]

2
对于超参数调整,粒子群优化优于贝叶斯优化的优势?
关于贝叶斯优化(1)的大量当代研究用于调整ML超参数。此处的驱动动机是,需要最少数量的数据点来做出明智的选择,以选择值得尝试的点(目标函数调用价格昂贵,因此减少选点会更好),因为训练模型会占用大量时间-适度我正在处理的大型SVM问题可能需要几分钟到几个小时才能完成。 另一方面,Optunity是一个粒子群实现,可以解决同一任务。我对PSO并不十分熟悉,但是在要求更多的试验点和目标函数评估来评估超参数表面的意义上,PSO的效率似乎必须较低。 我是否错过了使PSO在机器学习环境中优于BO的关键细节?还是在针对超参数调整任务的两个始终固有的上下文之间进行选择? (1)Shahriari等人,“将人类带出循环:贝叶斯优化理论综述”。

2
如何在强化学习中发挥奖励作用
在研究强化学习时,我遇到了许多形式的奖励函数:,R (s ,a ,s '),甚至是仅取决于当前状态的奖励函数。话虽如此,我意识到“制作”或“定义”奖励功能并非易事。R (s ,a )[R(s,一种)R(s,a)R ( s ,a ,s′)[R(s,一种,s′)R(s,a,s') 这是我的问题: 是否有有关奖励功能的规定? 奖励功能还有其他形式吗?例如,多项式形式可能取决于状态?

2
梯度下降可以应用于非凸函数吗?
我只是在学习优化,而难以理解凸优化和非凸优化之间的区别。根据我的理解,凸函数是“函数图上任意两点之间的线段位于图的上方或上方”的凸函数。在这种情况下,可以使用梯度下降算法,因为存在一个最小值,并且梯度将始终使您达到该最小值。 但是,该图中的功能如何: 此处,蓝线段在红色功能下方交叉。但是,该函数仍具有一个最小值,因此梯度下降仍将您带到该最小值。 所以我的问题是: 1)该图中的函数是凸的还是非凸的? 2)如果不是凸的,那么是否仍然可以使用凸优化方法(梯度下降)?


2
效应大小要对Wilcoxon进行秩检验吗?
一些作者(例如Pallant,2007年,第225页;请参见下图)建议通过将测试统计量除以观察次数的平方根来计算Wilcoxon符号秩检验的效应大小: r = ZñX+ nÿ√[R=žñX+ñÿr = \frac{Z}{\sqrt{n_x + n_y}} Z是SPSS(请参见下图)以及wilcoxsign_testR中的测试统计信息输出。(另请参阅我相关的问题:wilcoxsign_test中的teststatistic vs linearstatistic) 其他人建议使用Bravais-Pearson()或Spearman()相关系数(取决于数据类型)。r = c o v (Xÿ)小号d(X)× 小号d(是)[R=CØv(Xÿ)sd(X)×sd(ÿ)r = \frac{cov(XY)}{sd(X) \times sd(Y)}[R小号[R小号r_S 当您计算它们时,两个rs甚至远不是相同的。例如,对于我当前的数据: r = 0.23(对于)r = ZñX+ nÿ√[R=žñX+ñÿr = \frac{Z}{\sqrt{n_x + n_y}} r = 0.43(皮尔逊) 这些将暗示效果大小完全不同。 那么,要使用的正确的效果大小是什么,这两个大小如何r相互关联? Pallant,J.(2007)的第224页(底部)和225页。SPSS生存手册:

2
添加的变量图(部分回归图)在多元回归中有什么解释?
我有一个电影数据集模型,并使用了回归: model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) library(ggplot2) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) 给出了输出: 现在,我第一次尝试使用名为“添加的变量图”的方法,得到以下输出: car::avPlots(model, id.n=2, id.cex=0.7) 问题是我试图使用google理解添加的变量图,但是我无法理解它的深度,看到该图我理解了它基于与输出相关的每个输入变量的偏斜表示。 我能否获得更多细节,例如其如何证明数据规范化?


2
REML或ML比较具有不同固定效果但具有相同随机效果的两个混合效果模型?
背景: 注意:我的数据集和R代码包含在文本下方 我希望使用AIC比较使用R中的lme4包生成的两个混合效果模型。每个模型都有一个固定效果和一个随机效果。模型之间的固定效果不同,但模型之间的随机效果保持不变。我发现如果我使用REML = T,则model2的AIC分数较低,但是如果我使用REML = F,则model1的AIC分数较低。 支持使用ML: Zuur等。(2009年;第122页)建议“要比较具有嵌套固定效应(但具有相同随机结构)的模型,必须使用ML估计而不是REML。” 这向我表明我应该使用ML,因为两个模型的随机效果都相同,但是固定效果却不同。[Zuur等。2009。R.Springer的《混合效应模型和生态学扩展》。 支持使用REML: 但是,我注意到当我使用ML时,两个模型之间与随机效应相关的剩余方差有所不同(模型1 = 136.3;模型2 = 112.9),但是当我使用REML时,模型之间是相同的(模型1 =模型2 = 151.5)。这对我来说意味着我应该改为使用REML,以便具有相同随机变量的模型之间的随机残差保持相同。 题: 在固定效应改变而随机效应保持不变的模型比较中,使用REML比ML更有意义吗?如果不是,您能解释为什么还是将我指向其他能解释更多内容的文献吗? # Model2 "wins" if REML=T: REMLmodel1 = lmer(Response ~ Fixed1 + (1|Random1),data,REML = T) REMLmodel2 = lmer(Response ~ Fixed2 + (1|Random1),data,REML = T) AIC(REMLmodel1,REMLmodel2) summary(REMLmodel1) summary(REMLmodel2) # Model1 "wins" …

5
请问 -squared有 -值?
我似乎对尝试理解平方值是否也具有p值感到困惑。prrrppp 据我了解,与一组数据点线性相关,的取值范围是-1到1,无论该值是多少,它的p值都可以显示r是否与0显着不同(即,如果两个变量之间存在线性关系)。− 1rrr−1−1-1111ppprrr000 继续进行线性回归,可以将函数拟合到数据,由等式Y=a+bXY=a+bXY = a + bX。aaa和bbb (截距和斜率)也具有ppp以显示它们是否明显不同于000。 假设我至今都明白了一切正确的,是ppp的-值rrr和ppp为-值bbb一样的东西吗?那么说不是p值不是rrr平方而是ppp值是rrr或bbb是否正确呢?

5
cv.glmnet结果的可变性
我cv.glmnet用来查找预测变量。我使用的设置如下: lassoResults&lt;-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda&lt;-lassoResults$lambda.min results&lt;-predict(lassoResults,s=bestlambda,type="coefficients") choicePred&lt;-rownames(results)[which(results !=0)] 为了确保结果是可重复我set.seed(1)。结果变化很大。我运行了完全相同的代码100,以查看结果的可变性。在98/100次运行中,总是选择一个特定的预测变量(有时仅靠预测变量);选择其他预测变量(系数非零)通常为50/100次。 因此对我来说,每次交叉验证运行时,都可能会选择一个不同的最佳lambda,因为折叠的初始随机性很重要。其他人已经看到了这个问题(CV.glmnet结果),但是没有建议的解决方案。 我在想,一个显示98/100的图像可能与所有其他图像高度相关吗?如果我只是运行LOOCV(),结果的确稳定,但是我很好奇为什么当时它们是如此可变。fold-size=nfold-size=n\text{fold-size} = nnfold&lt;nnfold&lt;n\text{nfold} < n

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.