统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
对于模型拟合,实际测量的AIC和c统计量(AUC)有什么区别?
赤池信息准则(AIC)和c统计量(ROC曲线下的面积)是用于逻辑回归的模型拟合的两种度量。当两种方法的结果不一致时,我很难解释发生了什么。我猜他们正在衡量模型拟合的不同方面,但是这些具体方面是什么? 我有3个逻辑回归模型。模型M0具有一些标准协变量。M1型将X1加到M0上;模型M2将X2添加到M0(因此M1和M2不嵌套)。 从M0到M1和M2的AIC差异约为15,这表明X1和X2均可提高模型拟合度,且幅度大致相同。 c统计量为:M0,0.70;M1,0.73;M2 0.72。从M0到M1的c统计量差异很大(DeLong等人,1988年的方法),但是从M0到M2的差异并不显着,表明X1改善了模型拟合,但X2没有。 X1不是常规收集的。X2应该定期收集,但在大约40%的情况下会丢失。我们要决定是开始收集X1,还是改善X2的收集,还是删除两个变量。 根据AIC,我们得出结论,变量对模型进行了类似的改进。与开始收集一个全新的变量(X1)相比,改进X2的收集可能更容易,因此我们将致力于改进X2的收集。但是从c统计量来看,X1改进了模型,而X2却没有改进,因此我们应该忘记X2并开始收集X1。 由于我们的建议取决于我们关注的统计数据,因此我们需要清楚地了解它们所测量的差异。 任何意见欢迎。
29 logistic  roc  aic  auc 

3
逻辑回归中简单预测对优势比的解释
我对使用逻辑回归有些陌生,并且对以下值的解释之间的差异有些困惑,我认为这是相同的: 指数贝塔值 使用beta值预测结果的可能性。 这是我使用的模型的简化版本,营养不足和保险都是二进制的,财富是连续的: Under.Nutrition ~ insurance + wealth 我的(实际)模型返回的保险指数值为0.8,我将其解释为: “被保险人营养不足的概率是未保险人营养不足的概率的0.8倍。” 但是,当我通过将0和1的值分别输入保险变量和财富平均值来计算个人的概率差异时,营养不足的差异仅为0.04。计算公式如下: Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) / (1+exp(β0 + β1*Insurance + β2*wealth)) 如果有人可以解释为什么这些值不同,以及什么是更好的解释(尤其是第二个值),我将不胜感激。 进一步的澄清编辑 据我了解,未投保的人(其中B1对应于保险)营养不足的可能性为: Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) / (1+exp(β0 + β1*0+ β2*wealth)) 虽然被保险人营养不足的可能性是: Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) / (1+exp(β0 …

4
通过算法识别记录的错误中的峰值的简单方法
我们需要一个预警系统。我正在处理一台已知在负载下具有性能问题的服务器。错误和时间戳一起记录在数据库中。可以采取一些手动干预的步骤来减少服务器负载,但前提是有人知道该问题... 给定一组错误发生的时间,我如何(实时)识别错误尖峰的开始?我们可以定期或针对每个错误发生进行计算。 我们对偶尔的错误并不关心,但是没有特定的阈值。只要我们在五分钟内遇到三个错误,我就可以通知某人,但我敢肯定有更好的方法... 我希望能够根据系统管理员的反馈来调整算法的敏感性。就目前而言,他们希望它相当敏感,即使我们知道我们可以预期会有一些误报。 我不是统计学家,我敢肯定这是显而易见的,并且使用我们现有的工具(SQL Server和老式的ASP JScript)来实现此操作相对简单。我不是在寻找代码的答案,但是,如果它需要其他软件,则可能对我们不起作用(尽管出于我的好奇心,我欢迎提出不切实际但理想的解决方案作为评论)。

1
因子分析中的最佳因子提取方法
SPSS提供了几种因子提取方法: 主成分(根本不是因子分析) 未加权最小二乘 广义最小二乘法 最大似然 主轴 阿尔法分解 图像分解 忽略第一种方法,不是因素分析(而是主成分分析,PCA),哪种方法是“最佳方法”?不同方法的相对优势是什么?基本上,我将如何选择使用哪一个? 另一个问题:是否应该从这6种方法中获得相似的结果?

2
朴素贝叶斯与多项式朴素贝叶斯之间的区别
我之前已经处理过朴素贝叶斯分类器。我最近一直在阅读有关朴素贝叶斯的多项式。 也后验概率=(现有*似然)/(证据)。 我发现朴素贝叶斯与多项式朴素贝叶斯之间的唯一主要区别(在对这些分类器进行编程时)是 多项式朴素贝叶斯计算似然度是单词/令牌(随机变量)的计数,朴素贝叶斯计算似然度如下: 如果我错了纠正我!


2
计算R中的转移矩阵(Markov)
R(内置函数)中是否有一种方法可以根据一组观测值计算马尔可夫链的转移矩阵? 例如,采用如下数据集并计算一阶转换矩阵? dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))
29 r  markov-process 

1
相关矩阵的SVD应该是可加的,但似乎不是
我只是想复制以下论文中的主张,即从Gene Expression Data中找到相关的Biclusters,即: 命题4.如果。那么我们有:XIJ=RICTJXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} 一世。如果是具有加性模型的理想双齐群,则X I J是在列上具有相关性的理想双齐群; ii。如果C J是带加性模型的理想双齐群,则X I J是行相关的理想双齐群。 iii。如果R I和C J都是具有加性模型的理想双齐群,则X I J是理想的相关双齐群。RIRIR_{I}XIJXIJX_{IJ}CJCJC_JXIJXIJX_{IJ}RIRIR_ICJCJC_JXIJXIJX_{IJ} 这些主张很容易得到证明。 ...但是,当然,他们没有证明这一点。 我使用论文中的一些简单示例以及基本代码+自定义R代码来查看我是否可以演示该建议。 corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4) (来自表1F) 一些自定义代码,可以将标准X = svd形式转换为X = R C T,如本文所述:üdVŤüdVŤUdV^TX= R CŤX=[RCŤX=RC^{T} svdToRC <- function(x, ignoreRank = FALSE, r = length(x$d), zerothresh=1e-9) { #convert standard SVD decomposed matrices UEV' …


3
我可以使用什么测试来比较两个或多个回归模型的斜率?
我想测试两个变量对一个预测变量的响应差异。这是一个最小的可复制示例。 library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "virginica") m.ver <- gls(Sepal.Length ~ Petal.Width, data = iris, subset …

3
泊松分布与正态分布有何不同?
我生成了一个具有泊松分布的向量,如下所示: x = rpois(1000,10) 如果我使用制作直方图hist(x),则分布看起来像是熟悉的钟形正态分布。然而,使用柯尔莫哥洛夫-斯米尔诺夫测试ks.test(x, 'pnorm',10,3)说,分布显著不同的正态分布,由于非常小的p值。 所以我的问题是:当直方图看起来与正态分布非常相似时,泊松分布与正态分布有何不同?

2
用正则化或罚分拟合ARIMAX模型(例如,套索,弹性网或岭回归)
我在预测包中使用了auto.arima()函数来拟合具有各种协变量的ARMAX模型。但是,我经常有很多变量可供选择,并且通常最终得到一个最终模型,该模型可以使用其中的一个子集。我不喜欢用于变量选择的临时技术,因为我是人类并且容易受到偏见的影响,但是交叉验证时间序列比较困难,因此我没有找到一种自动尝试可用变量的不同子集的好方法,并且我无法根据自己的最佳判断来调整模型。 当我拟合glm模型时,可以通过glmnet软件包使用弹性网或套索进行正则化和变量选择。R中是否存在用于在ARMAX模型上使用弹性网的现有工具包,还是我必须自己开发?这是个好主意吗? 编辑:手动计算AR和MA项(例如,直到AR5和MA5)并使用glmnet拟合模型是否有意义? 编辑2:看来,FitAR软件包使我受益匪浅,但并非全部。


3
出色的Gibbs采样教程和参考
我想学习Gibbs采样的工作原理,并且正在寻找中级论文的基础。我具有计算机科学背景和基本的统计知识。 有人读过很好的材料吗?你在哪里学的? 谢谢
29 references  gibbs 

5
如何计算加权标准偏差?在Excel中?
所以,我有一个像这样的百分比数据集: 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) 我想找到百分比的标准偏差,但要为其数据量加权。即,第一个和最后一个数据点应主导计算。 我怎么做?有没有一种简单的方法可以在Excel中完成呢?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.