Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

3
进行线性回归时,斜率的无先验信息是什么?
在执行贝叶斯线性回归时,需要为坡度分配先验并截取。由于是位置参数,因此分配统一的先验是有意义的;但是,在我看来,类似于比例尺参数,并且在其之前分配制服似乎是不自然的。aaabbbbbbaaa 另一方面,为线性回归的斜率分配通常没有信息的杰弗里·普雷尔()似乎不太正确。首先,它可以是负数。但是我看不出还有什么可能。1/a1/a1/a 那么,贝叶斯线性回归的斜率的“适当”先验信息是什么?(任何参考文献将不胜感激。)

2
如何模拟数据以证明与R(lme4)的混合效果?
作为这篇文章的对应内容,我致力于模拟具有连续变量的数据,使它们适合于相关的截距和斜率。 虽然有关于这一主题伟大的职位在网站上,并在现场之外,我在跨开始到结束例如即将与并联一个简单的,现实生活中的情景模拟数据有困难。 因此,问题是如何模拟这些数据,并使用进行“测试” lmer。对于许多人而言,这并不是什么新鲜事物,但对于其他许多试图了解混合模型的人来说,却可能有用。

2
标度变量作为计数数据-对不对?
在本文中(可通过PubMed Central免费获得),作者使用负二项式回归在得分为0-40的10项筛选工具上对得分进行建模。此过程假定计数数据,这里显然不是这种情况。我希望您对此方法是否可以接受发表意见,因为有时我在工作中使用相同或相似的工具。如果没有,我想知道是否有任何可接受的替代方法。以下是更多详细信息: 所使用的量表是酒精使用障碍识别测试(AUDIT),这是一项10项问卷,旨在筛查酒精使用障碍和有害/有害饮酒。乐器的得分从0到40,并且结果通常偏左。 据我了解,使用计数数据是假设所有“计数”的值彼此独立-每天上急诊室的患者,特定人群中的死亡人数等-它们彼此独立,尽管取决于基础变量。此外,我认为使用计数数据时不能有最大允许计数,尽管我认为当理论最大值与数据中观察到的最大值相比很高时,可以放宽此假设? 使用AUDIT量表时,我们没有真实的计数。我们有10个项目,最大总分40,尽管在实践中很少看到高分。这些项目的分数自然相互关联。 因此违反了使用计数数据所需的假设。但这仍然是可以接受的方法吗?违反这些假设有多严重?在某些情况下可以认为此方法更可接受?该方法是否有不涉及将scale变量减少到类别的替代方法?

1
重新设置似然函数的参数时,仅插入转换后的变量而不是更改变量公式就足够了吗?
假设我正在尝试重新设定指数分布的似然函数的参数。如果我的原始似然函数是: p(y∣θ)=θe−θyp(y∣θ)=θe−θy p(y \mid \theta) = \theta e^{-\theta y} 并且我想使用重新设置参数,因为不是随机变量,而是参数,仅用于插入就足够了吗?ϕ=1θϕ=1θ\phi = \frac{1}{\theta}θθ\theta 我的明确意思是: p(y∣ϕ=1θ)=1ϕe−1ϕyp(y∣ϕ=1θ)=1ϕe−1ϕy p\left(y \mid \phi = \frac{1}{\theta}\right) = \frac{1}{\phi} e^{-\frac{1}{\phi} y} 如果是这样,我不确定这背后的理论是什么。我的理解是,似然函数是参数的函数,所以为什么我不需要使用变量公式的变化使我感到困惑。任何帮助将不胜感激,谢谢!

2
逻辑模型的RMSE(均方根误差)
我对使用RMSE(均方根误差)比较不同逻辑模型的有效性存在疑问。响应为0或1,并且预测为0- 之间的概率1。 以下应用的方式对二进制响应也有效吗? # Using glmnet require(glmnet) load(url("https://github.com/cran/glmnet/raw/master /data/BinomialExample.RData")) cvfit = cv.glmnet(x, y, family = "binomial", type.measure = "mse") A <- predict(cvfit, newx = x, s = "lambda.min", type = "response") RMSE1 <- mean((y - A)^2) # 0.05816881 # glm mydata <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv") mydata$rank <- factor(mydata$rank) mylogit <- glm(admit ~ …

2
在没有仪器的情况下,关于观测数据的模型我们能说些什么?
过去,我曾在多个领域对发表的论文提出过一些问题,这些领域在观测数据(即非受控实验产生的数据)上使用了回归(以及相关模型,例如面板模型或GLM) ,在许多情况下-但并非总是-随时间推移观察到的数据),但没有尝试引入工具变量。 作为回应,我提出了许多批评(例如,当重要变量可能缺失时描述带有偏见的问题),但是由于此处的其他人无疑比我对这方面的知识要了解得多,我想问一下: 在这种情况下,试图得出有关关系的结论(特别是但不限于因果结论)有哪些主要问题/后果? 在没有仪器的情况下,适合此类模型的研究能做些有用的事情吗? 关于这种建模的问题有哪些好的参考文献(书或论文)(最好具有明显的非技术动机来进行后果分析,因为通常提出问询的人具有各种背景,有些人没有很多统计资料)一篇论文?用仪器讨论预防措施/问题也将很有用。 (有关工具变量的基本参考资料在此处,但是如果您要在其中添加任何内容,那也会有所帮助。) 指向发现和使用工具的良好实践示例的指针将是一个好处,但不是这个问题的中心。 [在出现此类问题时,我可能会在这里指出其他任何好的答案。我可能会添加一两个示例。]

1
为什么Elo评分系统使用错误的更新规则?
Elo评级系统使用成对比较中预期和观察到的结果概率之间的交叉熵损失函数的梯度下降最小化算法。我们可以写成一般的损失函数为 Ë= - Σñ ,我p一世大号Ò 克(q一世)E=−∑n,ipiLog(qi) E=-\sum_{n,i} p_i Log (q_i) 其中所有结果和所有反对者的总和。 是事件的所观察到的频率和预期频率。Ñ p 我我q 我一世iiñnnp一世pip_i一世i_iq一世qiq_i 如果只有两个可能的结果(赢或输)和一个对手 Ë= - p 大号ö 克(q)− (1 − p )L o g(1 − q)E=−pLog(q)−(1−p)Log(1−q) E=-p Log (q)-(1-p)Log(1-q) 如果是玩家的排名,而是玩家的排名,我们可以建立期望概率为 然后使用梯度下降更新规则我π Ĵ Ĵ q 我 = È π 我π一世πi\pi_i一世iiπĴπj\pi_jĴjj qĴ=È π Ĵq一世= eπ一世Ëπ一世+ eπĴqi=eπieπi+eπj q_i=\frac{e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}} qĴ= eπĴËπ一世+ …

1
为什么所有PLS组件一起只能解释原始数据的一部分差异?
我有一个由10个变量组成的数据集。我运行偏最小二乘(PLS)来预测这10个变量的单个响应变量,提取10个PLS分量,然后计算每个分量的方差。在原始数据上,我得出所有变量的方差之和为702。 然后,我将每个PLS分量的方差除以该总和,得到由PLS解释的方差的百分比,令人惊讶的是,所有分量一起解释了原始方差的44%。 对此有什么解释?不应该是100%吗?


4
如何避免回归中的log(0)项
我有以下简单的X和Y向量: > X [1] 1.000 0.063 0.031 0.012 0.005 0.000 > Y [1] 1.000 1.000 1.000 0.961 0.884 0.000 > > plot(X,Y) 我想使用X的对数进行回归。为了避免得到log(0),我尝试输入+1或+0.1或+0.00001或+0.000000000000001: > summary(lm(Y~log(X))) Error in lm.fit(x, y, offset = offset, singular.ok = singular.ok, ...) : NA/NaN/Inf in 'x' > summary(lm(Y~log(1+X))) Call: lm(formula = Y ~ log(1 + X)) …

1
区分短期效果和长期效果
我在论文中读了以下句子: 短期系数和长期系数之间存在差异的事实是我们的规范的结果,其中包括滞后的内生变量。 他们对第一个差异进行回归,并包括因变量的滞后。 现在他们争辩说,如果您查看输出中的估计值(例如,称此估计值),则这是对因变量的短期影响。 他们进一步认为,查看 /(1-滞后估计)可以得出p对因变量的长期影响。p pppppppppp 可以在以下脚注23的第20页上找到该文件:https : //www.ecb.europa.eu/pub/pdf/scpwps/ecbwp1328.pdf及其有关短期/长期效果的讨论。 我不完全理解为什么您可以区分对因变量的短期和长期影响。如果有人可以更详细地解释他们的想法,那将非常有帮助。ppp


1
不同频率的回归
我正在尝试进行简单回归,但我的Y变量按月频率观察,而x变量按年频率观察。我将非常感谢有关可用于不同频率回归的合适方法的一些指导。 非常感谢你

1
如何找到平滑样条/黄土回归的p值?
我有一些变量,我很想找到它们之间的非线性关系。因此,我决定拟合一些样条曲线或黄土,并打印漂亮的图(请参见下面的代码)。但是,我还希望获得一些统计数据,以使我了解这种关系是随机性问题的可能性有多大……即,我需要一些总体p值,例如对于线性回归而言。换句话说,我需要知道拟合曲线是否有意义,因为我的代码会将曲线拟合到任何数据。 x <- rnorm(1000) y <- sin(x) + rnorm(1000, 0, 0.5) cor.test(x,y) plot(x, y, xlab = xlab, ylab = ylab) spl1 <- smooth.spline(x, y, tol = 1e-6, df = 8) lines(spl1, col = "green", lwd = 2) spl2 <- loess(y ~ x) x.pr <- seq(min(x), max(x), length.out = 100) lines(x.pr, …
10 r  regression  splines  loess 

3
在线性回归模型还是非线性回归模型之间进行选择
如何选择使用线性回归模型还是非线性回归模型? 我的目标是预测Y。 在简单的和数据集的情况下,我可以通过绘制散点图轻松确定应使用哪种回归模型。xxxyyy 在像和这样的多变量的情况下。如何确定必须使用哪种回归模型?也就是说,我将如何决定使用简单的线性模型还是非线性模型(例如二次,三次等)。x1,x2,...xnx1,x2,...xnx_1,x_2,...x_nyyy 是否有任何技术或统计方法或图形绘制来推断和决定必须使用哪种回归模型?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.