统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

5
与相关系数之间的关系
比方说,我有两个一维数组,一种1个a1a_1和一种2a2a_2。每个包含100个数据点。一种1个a1a_1是实际数据,一种2a2a_2是模型预测。在这种情况下,[R2R2R^2值为: [R2= 1 - S小号[R Ë 小号小号小号吨ö 吨 (1 )。R2=1−SSresSStot (1). R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \quad\quad\quad\quad\quad\ \ \quad\quad(1). 同时,这将等于相关系数的平方值, [R2= (相关系数)2(2 )。R2=(Correlation Coefficient)2(2). R^2 = (\text{Correlation Coefficient})^2 \quad (2). 现在,如果我交换两个:一种2a2a_2是实际的数据,和一种1个a1a_1是模型预测。根据等式(2 )(2)(2),由于相关系数无关紧要,因此[R2R2R^2值相同。然而,从等式(1 )(1)(1),小号小号吨ö 吨= ∑一世(y一世- ÿ¯)2SStot=∑i(yi−y¯)2SS_{tot}=\sum_i(y_i - \bar y )^2时,[R2R2R^2值将改变,因为小号小号吨ö 吨SStotSS_{tot}如果我们切换已经改变ÿyy从一种1个a1a_1到一种2a2a_2 ; 在此同时,小号小号[R Ë 小号= ∑一世(f一世- ÿ¯)2SSres=∑i(fi−y¯)2SS_{res}=\sum_i(f_i-\bar y)^2也不会改变。 我的问题是:这些如何相互矛盾? 编辑: …

4
创建模型时,是否应保留“没有统计学意义的协变量”?
我在模型的计算中有几个协变量,但并不是所有协变量都具有统计学意义。我应该删除那些不是吗? 这个问题讨论了这种现象,但没有回答我的问题: 如何解释ANCOVA中协变量的非显着影响? 但是,该问题的答案中没有任何内容建议删除不重要的协变量,因此,现在我倾向于认为它们应该保留。即使在阅读该答案之前,我也想过,因为协变量仍然可以解释某些方差(从而有助于模型),而不必解释超出某个阈值(显着性阈值,我认为不适用于协变量)的数量。 在CV上还有另一个问题,对于这个问题的答案似乎暗示着应将协变量保持在无关紧要的位置,但是对此尚不清楚。(我想链接到该问题,但是我暂时无法再次找到它。) 因此...模型计算中是否应保留未显示统计显着性的协变量?(我已经编辑了这个问题,以阐明无论如何计算都不会在模型输出中显示协变量。) 为了增加复杂性,如果协变量对于数据的某些子集(必须单独处理的子集)在统计上有意义,该怎么办。我将默认保留这样的协变量,否则在其中一种情况下,要么必须使用不同的模型,要么在统计上缺少重要的协变量。但是,如果您也对此拆分案有答案,请提及它。

5
在R中使用Lars(或glmnet)软件包中的LASSO进行变量选择
抱歉,这个问题有点基本。 我正在寻找在R中的多元线性回归模型中使用LASSO变量选择的方法。我有15个预测变量,其中之一是分类的(会引起问题吗?)。设置好和我使用以下命令:ÿXxxÿyy model = lars(x, y) coef(model) 我的问题是我何时使用coef(model)。这将返回一个包含15行的矩阵,每次添加一个额外的预测变量。但是,没有建议选择哪种模型。我错过了什么吗?有没有办法让我的lars包返回一个“ 最佳 ”模型? 还有其他文章建议使用glmnet代替,但这似乎更复杂。尝试如下,使用相同的和。我在这里错过了什么吗?: ÿXxxÿyy cv = cv.glmnet(x, y) model = glmnet(x, y, type.gaussian="covariance", lambda=cv$lambda.min) predict(model, type="coefficients") 最后一条命令返回我的变量列表,大多数变量带有系数,尽管有些为= 0。这是LASSO 选择的“ 最佳 ”模型的正确选择吗?然后,如果我用所有具有系数的变量拟合线性模型,则not=0得到的系数估计值非常相似,但略有不同。有什么区别的原因吗?用LASSO选择的这些变量重新拟合线性模型并将其作为我的最终模型是否可以接受?否则,我将看不到任何有意义的p值。我错过了什么吗? 是否 type.gaussian="covariance" 确保glmnet使用多元线性回归? 变量的自动归一化是否会完全影响系数?有什么方法可以在LASSO程序中包括交互项? 我希望更多地使用此过程来演示如何使用LASSO,而不是将其实际用于任何重要的推断/预测(如果发生任何变化)的任何模型。 感谢您抽出时间来阅读。对于LASSO / lars / glmnet的任何一般性评论也将不胜感激。

2
Logistic回归功效分析的仿真-设计的实验
这个问题是对@Greg Snow给出的答案的回应,该答案是我提出的有关使用Logistic回归和SAS进行功率分析的问题Proc GLMPOWER。 如果我正在设计一个实验并将对结果进行析因逻辑回归分析,该如何使用模拟(和此处)进行功效分析? 这是一个简单的示例,其中有两个变量,第一个具有三个可能的值{0.03,0.06,0.09},第二个是虚拟指示器{0,1}。对于每种组合,我们估计每种组合的响应率(响应者数量/投放市场的人数)。此外,我们希望因子的第一个组合的数量是其他因子的3倍(可以认为是相等的),因为该第一个组合是我们尝试过的真实版本。这种设置类似于链接问题中提到的SAS课程中给出的设置。 用于分析结果的模型将是具有主要影响和相互作用(响应为0或1)的逻辑回归。 mod <- glm(response ~ Var1 + Var2 + I(Var1*Var2)) 如何模拟用于此模型的数据集进行功率分析? 当我通过SAS运行时Proc GLMPOWER(使用STDDEV =0.05486016 对应于sqrt(p(1-p))其中p是显示的响应率的加权平均值): data exemplar; input Var1 $ Var2 $ response weight; datalines; 3 0 0.0025 3 3 1 0.00395 1 6 0 0.003 1 6 1 0.0042 1 9 0 0.0035 1 …


1
如何在具有统计意义的和非重要意义的分析中解释和报告eta平方/部分eta平方?
我有一些数据,这些数据具有eta平方值和部分eta平方值,这些值作为对组均值差的影响大小的度量。 eta平方和部分eta平方有什么区别?可以使用相同的科恩准则(1988年我认为:0.01 =小,0.06 =中,0.13 =大)来解释它们吗? 另外,如果比较检验(即t检验或单向ANOVA)不显着,是否可以用于报告效应大小?在我的脑海中,这就像说“平均差异未达到统计显着性,但仍需特别注意,因为从eta平方指示的效应大小为中等”。或者,效应量是重要性检验的替代值,而不是互补值吗?

4
R中“。”(点)的含义是什么?
我只是在读《坚果中的R》这本书。好像我跳过了“。”部分。如“ sample.formula”中所述。 > sample.formula <- as.formula(y~x1+x2) 是否像其他语言一样使用字段公式对对象进行采样?如果是这样,我如何找出该对象还有哪些其他字段/功能?(类型声明) 编辑:我刚刚发现另一个令人困惑的使用“。”: > svm(formula = is_spam~., data = spambase.training) (〜。之间的点)
39 r 

2
Logistic回归模型不收敛
我有一些关于航空公司航班的数据(在名为的数据框中flights),我想看看飞行时间是否对到达时间明显延迟(意味着10分钟或更长时间)有任何影响。我以为我会使用逻辑回归,将飞行时间作为预测指标,并将每次飞行是否都显着延迟(一堆伯努利)作为响应。我用下面的代码... flights$BigDelay <- flights$ArrDelay >= 10 delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) summary(delay.model) ...但是得到以下输出。 > flights$BigDelay <- flights$ArrDelay >= 10 > delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) Warning messages: 1: In glm.fit(x = X, y = Y, weights = weights, start = start, etastart = etastart, : algorithm …
39 r  logistic  separation 

6
最小角度回归与套索
最小角度回归和套索趋向于产生非常相似的正则化路径(除系数为零外,其余均相同)。 它们都可以通过几乎相同的算法有效地拟合。 是否有任何实际的理由偏爱一种方法而不是另一种方法?
39 regression  lasso 

3
R对象的模式,类和类型
我想知道R对象的Mode,Class和Type之间有什么区别?R对象的类型可以通过typeof()函数获得,模式可以通过mode()获得,类可以通过class()获得。 还有其他我错过的类似功能和概念吗? 谢谢并恭祝安康!
39 r 

8
如何检验无群体差异的假设?
假设您有一个由两组(例如,男性和女性)组成的研究,研究了一个数字因变量(例如,智力测验分数),并且您假设没有组差异。 题: 有什么好的方法可以测试是否存在小组差异? 您将如何确定充分测试无组差异所需的样本量? 初步想法: 仅仅进行标准的t检验是不够的,因为不能拒绝原假设就并不意味着关注的参数等于或接近于零。对于小样本尤其如此。 我可以查看95%的置信区间,并检查所有值是否都在足够小的范围内;也许正负0.3标准偏差。

8
R中的图形数据概述(摘要)功能
我敢肯定我以前在R包中遇到过这样的函数,但是经过广泛的谷歌搜索之后,我似乎找不到任何地方。我正在考虑的功能为给它的变量生成了图形摘要,并生成了带有一些图形(直方图,也许还有盒子和晶须图)的输出,还有一些文本给出了平均值,SD等详细信息。 我很确定此函数未包含在基本R中,但是我似乎找不到我使用的软件包。 有谁知道这样的功能,如果知道,它在哪个包中?

3
Clojure与R:数据分析的优缺点
我有一个在不久的将来学习R的计划。阅读另一个我发现有关Clojure的问题。现在我不知道该怎么办。 我认为R对我而言的一大优势是,经济学领域的某些人使用了R,包括我的一位主管(尽管另一位主管说:远离R!)。一个Clojure的优势在于它是基于Lisp的,和我已经开始学习Emacs和我热衷于写我自己的定制,这将是有益的(是的,我知道的Clojure和elisp的是Lisp语言的不同方言,但他们Lisp和类似的东西我都会想到)。 我不能问哪个更好,因为我知道这是非常个人的事,但是有人可以给我Cloclore x R的优点(或优点),特别是在实践上吗?例如,哪个应该更容易学习,哪个更灵活或更强大,哪个具有更多的库,更多的支持,更多的用户等等? 我的预期用途:我的估算工作大部分应使用Matlab进行,因此我在统计分析方面并没有寻找太深的东西,而希望使用Excel代替初始数据处理和可视化,汇总统计信息和图表,还要进行一些基本的统计分析或初步估算。
39 r 


5
LDA与Word2Vec
我试图了解潜在Dirichlet分配和word2vec之间的相似度,用于计算单词相似度。 据我了解,LDA将单词映射到潜在主题的概率向量,而word2vec 将单词映射到实数的向量(与逐点互信息的奇异值分解有关,请参阅O. Levy,Y。Goldberg,“神经词嵌入作为隐式矩阵分解”;另请参见word2vec如何工作?)。 我对理论关系(可以被认为是一种概括或另一种变化)和实践(当使用一种而不是另一种)都感兴趣。 有关: 计算文档之间距离的一些标准方法是什么?-DataScience.SE

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.