统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答





4
如何解释轮廓图的均值?
我正在尝试使用轮廓图来确定数据集中的聚类数量。给定数据集Train,我使用以下matlab代码 Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` 下面将得到的曲线图,给出与x轴作为簇的簇号和Y轴平均轮廓值。 我如何解释该图?我该如何确定群集的数量?

3
为什么不将t-SNE用作聚类或分类的降维技术?
在最近的一项作业中,我们被告知在MNIST数字上使用PCA将尺寸从64(8 x 8图像)减小到2。然后,我们不得不使用高斯混合模型对数字进行聚类。仅使用2个主要成分的PCA不会产生不同的聚类,因此该模型无法产生有用的分组。 但是,使用带有2个组件的t-SNE,可以更好地分离群集。当将高斯混合模型应用于t-SNE组件时,会产生更多不同的簇。 在下面的图像对中,可以看到具有2个分量的PCA和具有2个分量的t-SNE的差异,其中将变换应用于MNIST数据集。 我已经读到t-SNE仅用于高维数据的可视化(例如在此答案中),但是鉴于其产生的簇不同,为什么不将其用作降维技术,然后将其用于分类模型或一个独立的群集方法?

3
如何解释随机森林模型中准确度的均值下降和GINI的均值下降
我在理解如何解释“随机森林”软件包的可变重要性输出时遇到了一些困难。准确度的平均下降通常被描述为“由于置换每个特征中的值而导致的模型准确度的下降”。 这是关于整个功能还是关于功能中的特定值的声明?在这两种情况下,通过从模型中删除有问题的特征(或特征中的值)而将未正确分类的观测值的数量或比例平均准确率降低了吗? 假设我们有以下模型: require(randomForest) data(iris) set.seed(1) dat <- iris dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other')) model.rf <- randomForest(Species~., dat, ntree=25, importance=TRUE, nodesize=5) model.rf varImpPlot(model.rf) Call: randomForest(formula = Species ~ ., data = dat, ntree = 25, proximity = TRUE, importance = TRUE, nodesize = 5) Type of random forest: classification Number of trees: …


2
为什么似然比检验分布卡方?
为什么似然比检验的检验统计量分布卡方? 2 (ln 大号一升吨米直径:d È 升 − ln 大号Ñ ü 升升米直径:d È 升 )〜χ2dF一升吨- dFnull2(ln⁡ 大号一种升Ť 米ØdË升-ln⁡ 大号ñü升升 米ØdË升)〜χdF一种升Ť-dFñü升升22(\ln \text{ L}_{\rm alt\ model} - \ln \text{ L}_{\rm null\ model} ) \sim \chi^{2}_{df_{\rm alt}-df_{\rm null}}

5
使用CDF查找期望值
首先,我要说这是书本上的作业问题。我花了几个小时寻找如何找到期望值,并确定自己一无所知。 令具有CDF。 找到为的那些值针对的存在。XXXF(x)=1−x−α,x≥1F(x)=1−x−α,x≥1F(x) = 1 - x^{-\alpha}, x\ge1E(X)E(X)E(X)αα\alphaE(X)E(X)E(X) 我什至不知道该如何开始。如何确定存在值?我也不知道如何处理CDF(我假设这意味着累积分布函数)。当您具有频率函数或密度函数时,有一些公式可以找到期望值。维基百科说,可以用概率密度函数来定义的CDF,如下所示:αα\alphaXXXfff F(x)=∫x−∞f(t)dtF(x)=∫−∞xf(t)dtF(x) = \int_{-\infty}^x f(t)\,dt 据我所知。我从这里去哪里? 编辑:我的意思是把。x≥1x≥1x\ge1

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 




2
这是最先进的回归方法吗?
我一直关注Kaggle比赛很久了,后来我意识到许多获胜策略涉及至少使用“三巨头”之一:装袋,助推和堆叠。 对于回归,而不是专注于建立一个可能的最佳回归模型,而是建立多个回归模型,例如(广义)线性回归,随机森林,KNN,NN和SVM回归模型,并以合理的方式将结果融合为一个-多次执行每种方法。 当然,对每种方法的扎实理解是关键,并且可以基于线性回归模型讲述直观的故事,但是我想知道这是否已成为最先进的方法论,以便获得最佳结果。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.