Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

1
自举标准误差和置信区间是否适合违反均等假设的回归?
如果在标准OLS回归中违反了两个假设(误差的正态分布,均方差),自举标准误差和置信区间是否是一种适当的替代方法,以获得关于回归系数的重要性的有意义的结果? 具有自举标准误差和置信区间的显着性测试是否仍可以“异方差”地“起作用”? 如果是,在这种情况下可以使用的适用置信区间(百分位数,BC,BCA)是多少? 最后,如果在这种情况下自举是合适的,那么需要阅读和引用哪些相关文献才能得出这个结论?任何提示将不胜感激!


1
了解逻辑回归的预测
我来自逻辑回归模型(R中的glm)的预测并不像我期望的那样介于0和1之间。我对逻辑回归的理解是,您的输入和模型参数线性组合,并且使用对数链接函数将响应转换为概率。由于logit函数的范围是0到1,因此我希望我的预测范围是0到1。 但是,当我在R中实现逻辑回归时,这不是我看到的: data(iris) iris.sub <- subset(iris, Species%in%c("versicolor","virginica")) model <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub, family = binomial(link = "logit")) hist(predict(model)) 如果有的话,predict(model)的输出对我来说看起来很正常。谁能向我解释为什么我得到的值不是概率?

2
如何解释Stata中的概率模型?
我不确定如何解释我在Stata上运行的概率回归。数据是关于贷款批准的,白色是一个虚拟变量,如果一个人是白人,则为= 1,否则为= 0。任何有关如何阅读此书的帮助将不胜感激。我最想寻找的是如何找到白人和非白人的贷款批准估计概率。有人可以帮我解决这里的文字以及如何使其正常吗?对不起,我不知道该怎么做。 . probit approve white Iteration 0: log likelihood = -740.34659 Iteration 1: log likelihood = -701.33221 Iteration 2: log likelihood = -700.87747 Iteration 3: log likelihood = -700.87744 Probit regression Number of obs = 1989 LR chi2(1) = 78.94 Prob > chi2 = 0.0000 Log likelihood = …

2
如果p> n,套索最多选择n个变量
弹性网的动机之一是对LASSO的以下限制: 在情况下,由于凸优化问题的性质,套索在饱和之前最多选择n个变量。这似乎是变量选择方法的限制功能。此外,除非系数的L1-范数上的界限小于某个值,否则套索的定义不明确。p>np>np > n (http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full) 我知道LASSO是一个二次规划问题,但也可以通过LARS或逐元素梯度下降来解决。但是我不明白,如果,其中是预测变量的数量,是样本大小,那么在这些算法中我会遇到问题。为什么使用弹性网解决了这个问题,我将问题扩大到明显超过变量。p n p + n pp>np>np > npppnnnp+np+np+nppp

5
估计百分比作为回归中的因变量
我将38项考试中学生的排名百分比作为我研究中的因变量。排名百分比由(学生的等级/考试中的学生人数)计算得出。这个因变量具有几乎均匀的分布,我想估计一些变量对因变量的影响。 我使用哪种回归方法?

2
线性回归时,你只知道
假设。Xβ=YXβ=YX\beta =Y 我们地知道,只知道它与每个预测变量。YYYXtYXtYX^\mathrm{t}Y 普通的最小二乘(OLS)解决方案是,这没有问题。β=(XtX)−1XtYβ=(XtX)−1XtY\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y 但是,假设接近奇异(多重共线性),那么您需要估计最佳的岭参数。所有方法似乎都需要的确切值。XtXXtXX^\mathrm{t}XYYY 当仅知道时,是否有其他方法?XtYXtYX^\mathrm{t}Y

2
通过泊松回归生成数据样本
我想知道如何从R中的泊松回归方程生成数据?我对如何解决这个问题感到困惑。 因此,如果我假设我们有两个分布为预测变量和。截距为0,两个系数都等于1。那么我的估计很简单:X1个X1X_1X2X2X_2ñ(0 ,1 )N(0,1)N(0,1) 日志(是)= 0 + 1 ⋅ X1个+ 1 ⋅ X2log⁡(Y)=0+1⋅X1+1⋅X2\log(Y) = 0+ 1\cdot X_1 + 1\cdot X_2 但是,一旦计算出log(Y),如何基于该值生成泊松计数?泊松分布的速率参数是多少? 如果有人可以编写一个简短的R脚本来生成泊松回归样本,那将太棒了!

3
通常的回归与变量不同时的回归
我只是想了解当变量不同时,正常多元/简单回归与多元/简单回归之间的关系。 例如,我正在分析存款余额()与市场利率()之间的关系。如果运行简单的线性回归,则相关性为负且非常显着(大约-.74)。但是,如果我采用对数和因变量和自变量之差,所以我的方程现在是与回归,我的相关性和R ^ 2根本不重要()。ř Ť dÿŤYTY_T[RŤRTR_Tddln(是Ť)dln⁡(YT)d\, \ln(Y_T)R 2 = .004d[R (Ť)dR(T)d\, R(T)[R2= .004R2=.004R^2 = .004 我只是想知道这样低的甚至意味着什么吗?这是否意味着我的模型不合适,或者在查看差异数据时是否忽略了?从数据中我知道原始的两个变量之间存在显着的相关性,但是对于我的模型,我需要查看不同的变量,因此只是想知道如何解决这个问题。R 2[R2R2R^2[R2R2R^2

3
如何比较自举回归斜率?
让我们假设我有两个数据集,分别具有n个对独立变量x和因变量y的数据对的观察。让我们进一步假设,我想通过将观察值(替换后)自举N次并计算回归y = a + bx来生成每个数据集的回归斜率分布。每一次。我如何比较两个分布,以说斜率明显不同?用于测试分布中位数之间差异的U检验将严重依赖于N,即,我重复自举的次数越多,差异将越显着。我如何计算分布之间的重叠来确定显着差异?

6
内生性与未观察到的异质性
内生性和未观察到的异质性有什么区别?我知道内生性来自例如省略的变量吗?但是据我了解,未观察到的异质性会导致相同的问题。但是,这两个概念之间的区别到底在哪里?

4
比较不同预测变量集的重要性
我曾为有特定问题的研究学生提供建议,并且我很想在此站点上得到其他人的意见。 内容: 研究人员具有三种类型的预测变量。每种类型包含不同数量的预测变量。每个预测变量都是一个连续变量: 社交:S1,S2,S3,S4(即四个预测变量) 认知:C1,C2(即两个预测变量) 行为:B1,B2,B3(即三个预测变量) 结果变量也是连续的。样本包括大约60名参与者。 研究人员想评论哪种类型的预测变量在解释结果变量方面更重要。这与对这些类型的预测变量的相对重要性的更广泛的理论关注有关。 问题 有什么好方法可以评估一组预测变量相对于另一组预测变量的相对重要性? 对于每个集合中预测变量数量不同的事实,有什么好的策略? 您可能建议解释什么注意事项? 任何引用示例或技术讨论的内容也将受到欢迎。

3
方差较大的预测变量是否“更好”?
我有一个“基本统计”概念问题。作为一名学生,我想知道我是否在想这完全错误,为什么,如果这样: 假设我正在假设要查看“愤怒管理问题”之间的关系,并在逻辑回归中说离婚(是/否),并且我可以选择使用两个不同的愤怒管理评分-满分均为100。 得分1来自问卷评分工具1和我的其他选择;得分2来自另一份问卷。假设地,我们有理由相信从先前的工作中,愤怒的管理问题会导致离婚。 如果在我的500个人的样本中,得分1的方差比得分2的方差高得多,是否有任何理由相信得分1将是基于其方差来预测离婚的更好得分? 在我看来,这本能地似乎是正确的,但是是这样吗?

1
重叠数据的时间序列回归
我看到了一个回归模型,该模型正在回归滞后(12个月)的按年股票指数回报率,相同股票指数的按年回报率,信用利差(无风险债券和公司债券的月均值之差)收益率),同比通胀率和工业生产同比指数。 因此看起来(尽管在这种情况下,您可以替换印度的特定数据): SP500YOY(T) = a + b1*SP500YOY(T-12) + b2*CREDITSPREAD(T) + b4*INDUSTRIALPRODUCTION(T+2) + b3*INFLATION(T+2) + b4*INFLATIONASYMM(T+2) SP500YOY是SP500指数的按年回报。要计算此值,请计算SP500值的每月平均值,然后转换为每个月的按年回报(即Jan'10-Jan'11,Feb'10- 11月2日,3月10日至11月3日...)。在解释变量方面,SP500YOY的12个月滞后值与时间T处的CREDITSPREAD以及提前两个月的INFLATION和INDUSTRIALPRODUCTION一起使用。对于通货膨胀率是否高于阈值5.0%,INFLATIONASYMM是一个虚拟对象。括号中的索引显示每个变量的时间索引。 这是通过标准OLS线性回归估算的。要使用此模型预测SP500的同比1,2和3个月的同比回报,就必须对通货膨胀和工业生产指数产生3-4和5个月的提前预测。这些预测是在将ARIMA模型分别适合两个模型之后进行的。提前1,2和3个月的CreditSpread预测只是作为心理估计。 我想知道这种OLS线性回归是正确/不正确,有效/无效还是普遍有效的统计实践。 我看到的第一个问题是使用重叠数据。即,将股票指数的每日价值每月平均,然后用于计算按月结转的年收益。这应该使错误项自相关。我认为必须在以下其中一种情况下使用“更正”: 怀特的异方差一致性协方差估计器 Newey&West异方差和自相关一致(HAC)估计量 Hans&Hodrick的异方差一致版本 对这些重叠数据应用标准OLS线性回归(不进行任何校正)是否真的有意义,并且更进一步,使用3周期ARIMA提前预测值作为解释变量,以在原始OLS线性回归中预测SP500YOY?我以前从未见过这样的形式,因此,除非对重叠观察的使用进行校正,否则无法真正判断它。

1
拟合“简单”测量误差模型的方法
我正在寻找可用于估计“ OLS”测量误差模型的方法。 X 我 = X 我 + ë X ,我 ÿ 我 = α + β X 我ÿ一世= Y一世+ eÿ,我yi=Yi+ey,iy_{i}=Y_{i}+e_{y,i} X一世= X一世+ eX ,我xi=Xi+ex,ix_{i}=X_{i}+e_{x,i} ÿ一世= α + βX一世Yi=α+βXiY_{i}=\alpha + \beta X_{i} 其中的误差是独立的正常与未知方差和σ 2 X。在这种情况下,“标准” OLS无效。σ2ÿσy2\sigma_{y}^{2}σ2Xσx2\sigma_{x}^{2} 维基百科有一定的吸引力的解决方案-这两个给力您认为无论是“变化率” 或“可靠性比”λ=σ 2 Xδ= σ2ÿσ2Xδ=σy2σx2\delta=\frac{\sigma_{y}^{2}}{\sigma_{x}^{2}}是已知的,其中σ 2 X是真回归的方差X我。我对此不满意,因为不知道方差的人怎么知道其比率?λ = σ2Xσ2X+ σ2Xλ=σX2σx2+σX2\lambda=\frac{\sigma_{X}^{2}}{\sigma_{x}^{2}+\sigma_{X}^{2}}σ2XσX2\sigma_{X}^2X一世XiX_i 无论如何,除了这两个以外,还有其他解决方案不需要我“了解”参数的任何信息吗? 仅截距和斜率的解决方案就可以了。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.