Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

18
如果解释变量和响应变量在回归之前被独立排序会怎样?
假设我们有数据集与点。我们想要执行线性回归,但是首先我们将值和值彼此独立地排序,从而形成数据集。对新数据集的回归是否有有意义的解释?这有名字吗?n X i Y i(X i,Y j)(X一世,Y一世)(Xi,Yi)(X_i,Y_i)ñnnX一世XiX_iÿ一世YiY_i(X一世,YĴ)(Xi,Yj)(X_i,Y_j) 我想这是一个愚蠢的问题,所以我很抱歉,我没有接受过统计学方面的正式培训。在我看来,这完全破坏了我们的数据,而回归毫无意义。但是我的经理说,这样做的时候,他“大多数时候会得到更好的回归”(这里“更好”意味着更具预测性)。我觉得他在欺骗自己。 编辑:感谢您所有的好和耐心的例子。我向他展示了@ RUser4512和@gung的示例,他仍然坚定不移。他变得烦躁,我变得精疲力尽。我感到垂头丧气。我可能很快就会开始寻找其他工作。

2
R的lm()输出的解释
R中的帮助页面假定我知道这些数字的含义,但我不知道。我试图真正直观地理解这里的每个数字。我将只发布输出并对我发现的内容发表评论。可能(会)有错误,因为我只写我想像的东西。我主要想知道系数中的t值是什么意思,以及为什么它们会显示残留标准误差。 Call: lm(formula = iris$Sepal.Width ~ iris$Petal.Width) Residuals: Min 1Q Median 3Q Max -1.09907 -0.23626 -0.01064 0.23345 1.17532 这是残差的5点汇总(它们的平均值始终为0,对吧?)。可以使用这些数字(我在这里猜)来快速查看是否有任何较大的异常值。如果残差远离正态分布(它们应该是正态分布),您也已经在这里看到了。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.30843 0.06210 53.278 < 2e-16 *** iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ …

6
是有用的或危险的?
我浏览了 Cosma Shalizi的一些讲义(特别是第二堂课的 2.1.1节),并被提醒您,即使具有完全线性的模型,您也可以获得非常低的。R2R2R^2 用Shalizi的示例来解释:假设您有一个模型,其中是已知的。然后\ newcommand {\ Var} {\ mathrm {Var}} \ Var [Y] = a ^ 2 \ Var [x] + \ Var [\ epsilon],解释的方差量为a ^ 2 \ Var [X],因此R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ …



8
Logistic回归中如何处理完美分离?
如果您的变量将目标变量中的零和一完美地分开,R将产生以下“完美或准完美分离”警告消息: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred 我们仍然可以得到模型,但是系数估计被夸大了。 您在实践中如何处理?

5
一个“控制其他变量”到底如何?
这是引起这个问题的文章:不耐烦会使我们发胖吗? 我喜欢这篇文章,它很好地展示了“控制其他变量”(IQ,职业,收入,年龄等)的概念,以便最好地隔离所讨论的两个变量之间的真实关系。 您可以向我解释一下如何实际控制典型数据集上的变量吗? 例如,如果您有2个人的耐心程度和BMI相同,但收入不同,您将如何处理这些数据?您是否将他们分为收入,耐心和BMI相似的不同子组?但是,最终有数十个变量需要控制(IQ,职业,收入,年龄等),然后如何汇总这些(潜在地)100个子组?实际上,现在我已经说了出来,我有一种感觉是这种方法使错误的树陷入困境。 感谢您为我几年来一直想深入了解的事情提供任何信息...!



9
数值示例,以了解期望最大化
我试图很好地掌握EM算法,以便能够实现和使用它。我花了一整天的时间阅读该理论和一篇论文,其中使用EM使用来自雷达的位置信息来跟踪飞机。老实说,我认为我不完全理解基本思想。有人可以给我指出一个数值示例,该示例显示EM的几次迭代(3-4),以解决一个更简单的问题(例如估算高斯分布的参数或正弦序列的序列或拟合直线)。 即使有人可以将我指向一段代码(带有合成数据),我也可以尝试单步执行代码。


3
如果残差是正态分布的,而y不是,该怎么办?
我有一个奇怪的问题。假设您有一个较小的样本,您要使用简单线性模型分析的因变量高度偏左。因此,您假设üüu不是正态分布的,因为这将导致呈正态分布ÿÿy。但是,当您计算QQ正态图时,有证据表明残差呈正态分布。因此,任何人都可以假设误差项是正态分布的,尽管ÿÿy不是。那么,当误差项看起来是正态分布而ÿÿy不是时,它是什么意思呢?



9
y与x的线性回归与x与y的线性回归之间有什么区别?
无论您计算pearson(x,y)还是pearson(y,x),x和y的Pearson相关系数都相同。这表明在给定x的情况下对y进行线性回归或在给定y的情况下对x进行线性回归应该是相同的,但我认为情况并非如此。 当关系不对称时,有人可以阐明这个问题吗?它与皮尔逊相关系数(我一直认为这是总结最佳拟合线)之间有什么关系?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.