统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答



8
您如何可视化3个类别变量之间的关系?
我有一个包含三个分类变量的数据集,我想在一张图中直观地显示所有三个变量之间的关系。有任何想法吗? 目前,我正在使用以下三个图形: 每张图都针对基线抑郁水平(轻度,中度,严重)。然后,在每个图表中,我查看治疗(0,1)与抑郁改善之间的关系(无,中等,严重)。 这3个图可以查看三向关系,但是有一种已知的方法可以处理一个图吗?

3
分析ACF和PACF图
我想看看我是否在分析我的ACF和PACF曲线的正确轨道上: 背景:(参考文献:菲利普·汉斯·弗朗西斯,1998年) 由于ACF和PACF都显示出重要的价值,因此我认为ARMA模型将满足我的需求 ACF可用于估计MA部分,即q值,PACF可用于估计AR部分,即p值 为了估计模型阶数,我查看了a。)ACF值是否足够消亡,b。)ACF信号是否过度差分,以及c。)ACF和PACF在某些滞后是否显示任何明显且易于解释的峰值 ACF和PACF可能不仅建议一种模型,而且在考虑其他诊断工具后需要从许多模型中进行选择 考虑到这一点,我继续说,最明显的模型似乎是ARMA(4,2),因为ACF值在滞后4处消失,而PACF在1和2处出现尖峰。 另一种分析方法是ARMA(2,1),因为我看到我的PACF中出现两个明显的峰值,而我的ACF中出现一个明显的峰值(此后,值从更低的点(0.4)开始消失。 查看我的样本内预测结果(使用简单的平均绝对百分比误差),ARMA(2,1)的结果要比ARMA(4,2)好得多。所以我使用ARMA(2,1)! 您能否确认我的分析ACF和PACF图的方法和发现? 帮助赞赏! 编辑: 描述性统计: count 252.000000 mean 29.576151 std 7.817171 min -0.920000 25% 26.877500 50% 30.910000 75% 34.915000 max 47.430000 Skewness of endog_var: [-1.35798399] Kurtsosis of endog_var: [ 5.4917757] Augmented Dickey-Fuller Test for endog_var: (-3.76140904255411, 0.0033277703768345287, {'5%': -2.8696473721448728, '1%': -3.4487489051519011, '10%': …



2
如何使用family = Gamma解释GLM中的参数
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 5年前。 我对带有伽玛分布因变量的GLM的参数解释有疑问。这是R通过日志链接返回给我的GLM的结果: Call: glm(formula = income ~ height + age + educat + married + sex + language + highschool, family = Gamma(link = log), data = fakesoep) Deviance Residuals: Min 1Q Median 3Q Max -1.47399 -0.31490 -0.05961 0.18374 1.94176 Coefficients: Estimate Std. Error t value …

1
Firth Logistic回归模型选择
在我正在使用的小型数据集()中,几个变量为我提供了理想的预测/分离效果。因此,我使用Firth Logistic回归来处理该问题。ñ 〜100n∼100n\sim100 如果我通过AIC或BIC选择最佳模型,那么在计算这些信息标准时是否应该在可能性中包括Firth惩罚项?

2
GINI得分与对数似然比之间的关系是什么
我正在研究分类树和回归树,拆分位置的一种方法是GINI得分。 现在,当两个分布之间相同数据的似然比的对数为零时,我习惯于确定最佳分割位置,这意味着隶属的可能性同等可能。 我的直觉说,必须存在某种联系,GINI必须在信息数学理论(Shannon)中有良好的基础,但是我对GINI的理解不够深刻,无法自己得出这种关系。 问题: GINI杂质评分作为分裂度量的“第一原理”推导是什么? GINI分数与似然比或其他信息理论基础的对数有何关系(香农熵,pdf和交叉熵是其中的一部分)? 参考文献: 加权基尼标准是如何定义的? 分类和回归树背后的数学 http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (已添加) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity 香农的熵描述为: H(x)=ΣiP(xi)logbP(xi)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right) 将其扩展到多元情况下,我们得到: H(X,Y)=ΣxΣyP(x,y)logbP(x,y)H(X,Y)=ΣxΣyP(x,y)logb⁡P(x,y) H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right) 条件熵的定义如下: H(X|Y)H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,=H(X,Y)−H(Y)H(X|Y)=Σyp(x,y)logb⁡p(x)p(x,y)or,H(X|Y)=H(X,Y)−H(Y)\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} …


2
如何将二项式GLMM(glmer)应用于百分比而不是是-否计数?
我有一个重复测量实验,其中因变量是一个百分比,并且我有多个因素作为自变量。我想glmer从R包中使用lme4它(通过指定family=binomial)作为逻辑回归问题,因为它似乎可以直接容纳此设置。 我的数据如下所示: > head(data.xvsy) foldnum featureset noisered pooldur dpoolmode auc 1 0 mfcc-ms nr0 1 mean 0.6760438 2 1 mfcc-ms nr0 1 mean 0.6739482 3 0 melspec-maxp nr075 1 max 0.8141421 4 1 melspec-maxp nr075 1 max 0.7822994 5 0 chrmpeak-tpor1d nr075 1 max 0.6547476 6 1 chrmpeak-tpor1d nr075 1 …




6
后验与先验和可能性大不相同
如果先验和可能性彼此之间非常不同,则有时会发生后验与两者都不相似的情况。例如,请参阅此图片,它使用正态分布。 尽管从数学上讲这是正确的,但是这似乎与我的直觉不符-如果数据与我坚信不移的信念或数据不符,我希望这两个范围都不会表现良好,并且期望后验整个范围或围绕先验和可能性的双峰分布(我不确定哪个更合乎逻辑)。我当然不会期望在既不符合我先前的信念也不符合数据的范围内出现后紧态。我知道随着收集到更多数据,后验将朝着可能性发展,但是在这种情况下,这似乎是违反直觉的。 我的问题是:我对这种情况的理解是有缺陷的(还是有缺陷的)。在这种情况下,后验函数是否正确?如果没有,还可以如何建模? 为了完整性起见,先验被指定为,似然度被指定为。N(μ = 6.1 ,σ = 0.4 )ñ(μ = 1.5 ,σ= 0.4 )N(μ=1.5,σ=0.4)\mathcal{N}(\mu=1.5, \sigma=0.4)ñ(μ = 6.1 ,σ= 0.4 )N(μ=6.1,σ=0.4)\mathcal{N}(\mu=6.1, \sigma=0.4) 编辑:看一些给出的答案,我觉得我没有很好地解释这种情况。我的观点是,鉴于模型中的假设,贝叶斯分析似乎会产生非直觉的结果。我的希望是,后验将以某种方式“解释”错误的建模决策,但考虑到这一点绝对不是这种情况。我将在回答中对此进行扩展。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.