统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
插入符号训练对glmnet是否对alpha和lambda交叉验证?
R caret包是否同时针对模型alpha和模型lambda进行交叉验证glmnet?运行此代码, eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl = Control) 培训日志如下所示。 Fold10.Rep3: alpha=1.0, lambda=NA 什么lambda=NA意思

3
如何在GLM中解释拦截项?
我正在使用R,并且一直在使用具有二项式链接的GLM分析数据。 我想知道输出表中拦截的含义是什么。我的一个模型的截距明显不同,但是变量没有。这是什么意思? 什么是拦截。我不知道我是否只是在迷惑自己,而是在互联网上搜索,没有什么可说的,就是这样,注意它...还是不。 请帮助,一个非常沮丧的学生 glm(formula = attacked_excluding_app ~ treatment, family = binomial, data = data) Deviance Residuals: Min 1Q Median 3Q Max -2.3548 0.3593 0.3593 0.3593 0.3593 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.708 1.033 2.622 0.00874 ** treatmentshiny_non-shiny 0.000 1.461 0.000 1.00000 (Dispersion parameter for binomial family …

3
Gentler贝叶斯统计方法
我最近开始阅读Bolstad撰写的“贝叶斯统计概论”第二版。我有一个介绍性的Stats类,主要涵盖统计测试,并且几乎遍历了回归分析中的一类。我还可以使用其他哪些书籍来补充我对这本书的理解? 我已经完成了前100-125页的罚款。之后,这本书开始谈论假设检验,这是我很激动地介绍的内容,但是有几件事情让我失望: 在计算中使用概率密度函数。换句话说,如何评估这样的方程式。 这整个句子是:“假设我们在pi之前使用beta(1,1)。然后给定y = 8,后验密度为beta(9,3)。零假设的后验概率是...”我相信 beta(1,1)指的是平均值为1而标准偏差为1的PDF?我不知道如何将其转换为beta(9,3)作为后验密度函数。 我确实了解先验与后继的概念,并了解如何使用表格手动应用它们。我得到(我认为!)pi代表假定的人口比例或概率。 我不知道如何将其与我每天会遇到的数据联系在一起并获得结果。


2
当我在回归中包含平方变量时会发生什么?
我从我的OLS回归开始: 其中D是虚拟变量,估计值与p值低的零不同。然后,我进行了Ramsey RESET测试,发现我对该方程有一些误称,因此我将平方x包括在内: ÿ = β 0 + β 1 X 1 + β 2 X 2 1 + β 3 d + εy=β0+β1x1+β2D+εy=β0+β1x1+β2D+ε y = \beta _0 + \beta_1x_1+\beta_2 D + \varepsilon y=β0+β1x1+β2x21+β3D+εy=β0+β1x1+β2x12+β3D+ε y = \beta _0 + \beta_1x_1+\beta_2x_1^2+\beta_3 D + \varepsilon 平方项解释了什么?(Y非线性增加?) 通过这样做,我的D估计值不再从零变化,而具有较高的p值。我如何解释方程式中的平方项(通常)? 编辑:改善问题。


5
为什么要用低秩近似值打扰?
如果您的矩阵具有n行和m列,则可以使用SVD或其他方法来计算给定矩阵的低秩近似。 但是,低阶近似仍将具有n行和m列。假设您拥有相同数量的特征,低秩近似对于机器学习和自然语言处理如何有用?

4
统计直觉/数据意义
我是一名大二学生,正在学习数学,并且我一直在与一位教授谈论数学能力和统计能力之间的差异。他提出的主要区别之一是“数据意识”,他将其解释为技术能力的结合,同时在一组我非正式地称为“常识性约束”的范围内操作,即在其中看不到问题的现实很多理论。这是我正在谈论的一个示例,该示例出现在Gowers的博客中: 在英国的一些地区,警察收集了有关道路交通事故发生地点的统计信息,确定了交通事故黑点,并在此处放置了高速摄影机,并收集了更多的统计信息。在安装了测速摄像机之后,这些黑点的事故数量肯定会下降。这是否最终表明测速摄像机可以改善道路安全性? 在谈判博弈中主张随机策略的同一个人基本上已经知道了该问题的答案。他说不,因为如果您选择极端情况,那么如果您再次运行实验,您会希望它们不会那么极端。因为没有太多要说的了,所以我决定快速解决这个问题。但是我告诉人们我有一个计划,那就是做一个假的心灵感应实验。我会让他们猜测20次抛硬币的结果,我会尝试将它们抛向心灵。然后,我会选择表现最好的三个和最差的三个,然后再次掷硬币,这次请最好的帮助我将最坏的答案传给我。人们可以轻松地看到,预期性能将得到改善,并且与心灵感应无关。 我要问的是如何通过有关该主题的任何出版物(如果有的话)或通过其他用户发现对开发此技能有帮助的方式,进一步了解这种“数据意义”。如果这个问题需要澄清,我感到抱歉。如果是这样,请发表您的问题!谢谢。

5
是否有一个R函数可以计算余弦相似度矩阵?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 去年关闭。 我想通过基于余弦距离的行聚类制作一个热图。我正在使用R并heatmap.2()制作数字。我可以看到其中有一个dist参数,heatmap.2但是找不到用于生成余弦相异度矩阵的函数。内置dist函数不支持余弦距离,我还发现了一个arules带有dissimilarity()函数的包,但仅适用于二进制数据。

4
泊松随机变量的四舍五入平均值的分布是什么?
如果我具有泊松分布的随机变量,参数为,则(即平均值的整数下限)?λ 1,λ 2,... ,λ Ñ ÿ = ⌊ Σ ñ 我= 1 X 我X1,X2,…,XnX1,X2,…,XnX_1,X_2,\ldots,X_nλ1,λ2,…,λnλ1,λ2,…,λn\lambda_1, \lambda_2,\ldots, \lambda_nY=⌊∑ni=1Xin⌋Y=⌊∑i=1nXin⌋Y=\left\lfloor\frac{\sum_{i=1}^n X_i}{n}\right\rfloor 泊松的总和也就是泊松,但我对统计数据没有足够的信心来确定上述情况是否相同。

2
为逻辑回归绘制预测概率的置信区间
好的,我进行了逻辑回归,并使用该predict()函数根据我的估计来绘制概率曲线。 ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") 很好,但我对绘制概率的置信区间感到好奇。我已经尝试过plot.ci()但是没有运气。谁能指出一些完成此操作的方法,最好是使用car包装或基数R。

2
配对t检验是线性混合效应建模的特例
我们知道,配对t检验只是单向重复测量(或对象内)ANOVA以及线性混合效应模型的一种特殊情况,可以用Rme中的lme()函数的lme()函数进行演示如下所示。 #response data from 10 subjects under two conditions x1<-rnorm(10) x2<-1+rnorm(10) # Now create a dataframe for lme myDat <- data.frame(c(x1,x2), c(rep("x1", 10), rep("x2", 10)), rep(paste("S", seq(1,10), sep=""), 2)) names(myDat) <- c("y", "x", "subj") 当我运行以下配对t检验时: t.test(x1, x2, paired = TRUE) 我得到了这个结果(由于随机生成器,您将得到不同的结果): t = -2.3056, df = 9, p-value = 0.04657 …

1
R中qqline()产生的行的用途是什么?
的qqnorm()一个R函数产生一个正常QQ-情节和qqline()增加了穿过第一和第三四分位数的线。这条线的起源是什么?检查正常性是否有帮助?这不是经典线(线性缩放后,对角线)。ÿ= xÿ=Xy=x 这是一个例子。首先,我比较的理论分布函数经验分布函数: 现在我绘制QQ-情节与线Ŷ = μ + σ X ; 该图大致对应于上一个图的(非线性)缩放比例: 但是,这是带有R qqline的qq图: 这最后一个图没有像第一个图那样显示偏离。ñ(μ^,σ^2)ñ(μ^,σ^2){\cal N}(\hat\mu,\hat\sigma^2)ÿ= μ^+ σ^Xÿ=μ^+σ^Xy=\hat\mu + \hat\sigma x

3
可以直观地解释用于检测非线性相关性的MIC算法吗?
最近,我读了两篇文章。第一个是相关性的历史,第二个是称为最大信息系数(MIC)的新方法。我需要您的帮助以了解MIC方法来估算变量之间的非线性相关性。 此外,可以在作者的网站上找到有关在R中使用它的说明(在下载下): 我希望这将是一个讨论和理解此方法的好平台。我有兴趣讨论这种方法背后的一种直觉以及如何扩展该方法,如作者所说。 “ ... ...我们需要将MIC(X,Y)扩展到MIC(X,Y | Z)。我们将想知道需要多少数据才能获得MIC的稳定估计值,离群值有多容易受到影响,这三个-或更高维度的关系将丢失,甚至更多。MIC是向前迈出的重要一步,但还有更多步骤需要采取。 ”

3
什么时候应该使用带有虚拟编码的多元回归与ANCOVA?
我最近分析了一个使用ANCOVA操纵2个类别变量和1个连续变量的实验。但是,一位审阅者建议,将分类变量编码为虚拟变量的多元回归是对分类变量和连续变量进行实验的更合适的测试。 什么时候使用带有虚拟变量的ANCOVA与多元回归比较合适?在两次测试之间进行选择时应考虑哪些因素? 谢谢。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.