Questions tagged «weighted-regression»

加权最小二乘回归是在不同数据点具有不同重要性或“权重”时使用的OLS回归的概括。另请参阅[加权数据]。


2
您如何找到加权最小二乘回归的权重?
在WLS回归过程中,我有些失落。我已经获得了数据集,我的任务是测试是否存在异方差性,如果可以,我应该运行WLS回归。 我进行了测试,并发现了异方差的证据,因此我需要运行WLS。有人告诉我WLS基本上是转换模型的OLS回归,但是我对找到转换函数有些困惑。我读过一些文章,建议转换可以是OLS回归的残差平方的函数,但是如果有人可以帮助我走上正确的道路,我将不胜感激。

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
R:glm函数,族=“二项式”和“重量”规格
我对体重与family =“ binomial”在glm中的工作方式非常困惑。在我的理解中,具有family =“ binomial”的glm的可能性指定如下: ,其中y是“观察到的成功比例”,n是已知的试验次数。ynf(y)=(nny)pny(1−p)n(1−y)=exp(n[ylogp1−p−(−log(1−p))]+log(nny))f(y)=(nny)pny(1−p)n(1−y)=exp⁡(n[ylog⁡p1−p−(−log⁡(1−p))]+log⁡(nny)) f(y) = {n\choose{ny}} p^{ny} (1-p)^{n(1-y)} = \exp \left(n \left[ y \log \frac{p}{1-p} - \left(-\log (1-p)\right) \right] + \log {n \choose ny}\right) yyynnn 以我的理解,成功概率ppp由一些线性系数\ beta参数ββ\beta化为p=p(β)p=p(β)p=p(\beta)并且glm函数带有family =“ binomial”搜索: argmaxβ∑ilogf(yi).argmaxβ∑ilog⁡f(yi). \textrm{arg}\max_{\beta} \sum_i \log f(y_i). 然后可以将此优化问题简化为: arg 最大β∑一世日志F(y一世)= arg 最大值β∑一世ñ一世[ y一世日志p (β)1 − p (β)- (- 日志(1 − …

1
回归比率,又称克朗马尔问题
最近,随机浏览的问题引发了我的一位教授几年前对临时评论的记忆,并警告说在回归模型中使用比率。因此,我开始阅读此书,最终导致Kronmal 1993。 我想确保我正确解释了他关于如何建模这些建议的建议。 对于在从属和独立方面均具有相同分母比率的模型: ž− 1ÿ= Z− 11个ñβ0+ Z− 1XβX+ βž+ Z− 1ϵž-1个ÿ=ž-1个1个ñβ0+ž-1个XβX+βž+ž-1个ϵ Z^{-1}Y = Z^{-1}1_n\beta_0 + Z^{-1}X\beta_X + \beta_Z + Z^{-1}\epsilon 除其他比率外,还依赖于(反)分母变量的回归相关比率 分母变量(反)的权重 对于具有因变量作为比率的模型: ÿ= β0+ βXX+ Z1个ñα0+ ZXαX+ Z− 1ϵÿ=β0+βXX+ž1个ñα0+žXαX+ž-1个ϵ Y = \beta_0 + \beta_XX + Z1_n\alpha_0 + ZX\alpha_X + Z^{-1}\epsilon 用原始变量,分母和分母乘以原始变量的回归分子[分类变量是什么?] 权重(反分母) 对于仅具有独立变量比率的模型: ÿ= β0+ XβX+ Z− …


5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
使用lm()时R中权重参数背后的理论
在读研究生一年后,我的“加权最小二乘”的理解是这样的:让y∈Rny∈Rn\mathbf{y} \in \mathbb{R}^n,XX\mathbf{X}是一些n×pn×pn \times p设计矩阵,是一个参数向量中的是误差向量,使得,其中和。然后模型 β∈Rpβ∈Rp\boldsymbol\beta \in \mathbb{R}^pϵ∈Rnϵ∈Rn\boldsymbol\epsilon \in \mathbb{R}^nϵ∼N(0,σ2V)ϵ∼N(0,σ2V)\boldsymbol\epsilon \sim \mathcal{N}(\mathbf{0}, \sigma^2\mathbf{V})V=diag(v1,v2,…,vn)V=diag(v1,v2,…,vn)\mathbf{V} = \text{diag}(v_1, v_2, \dots, v_n)σ2>0σ2>0\sigma^2 > 0y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X}\boldsymbol\beta + \boldsymbol\epsilon 在该假设下的模型称为“加权最小二乘”模型。WLS问题最终是找到 argminβ(y−Xβ)TV−1(y−Xβ).arg⁡minβ(y−Xβ)TV−1(y−Xβ).\begin{equation} \arg\min_{\boldsymbol \beta}\left(\mathbf{y}-\mathbf{X}\boldsymbol\beta\right)^{T}\mathbf{V}^{-1}\left(\mathbf{y}-\mathbf{X}\boldsymbol\beta\right)\text{.} \end{equation} 假设y=[y1…yn]Ty=[y1…yn]T\mathbf{y} = \begin{bmatrix} y_1 & \dots & y_n\end{bmatrix}^{T},β=[β1…βp]Tβ=[β1…βp]T\boldsymbol\beta = \begin{bmatrix} \beta_1 & \dots & \beta_p\end{bmatrix}^{T}和 X=⎡⎣⎢⎢⎢⎢⎢x11x21⋮xn1⋯⋯⋮⋯x1px2p⋮xnp⎤⎦⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢xT1xT2⋮xTn⎤⎦⎥⎥⎥⎥⎥.X=[x11⋯x1px21⋯x2p⋮⋮⋮xn1⋯xnp]=[x1Tx2T⋮xnT].\mathbf{X} = \begin{bmatrix} x_{11} & \cdots …

1
倾向评分权重中治疗权重(IPTW)的逆概率的直观解释?
我了解使用倾向得分计算权重的机制: ,然后将权重应用于回归分析,并且权重用于“控制”治疗组和对照组人群中协变量的作用或使结果与结果变量无关。p(xi)p(xi)p(x_i)wi,j=treatwi,j=control=1p(xi)=11−p(xi)wi,j=treat=1p(xi)wi,j=control=11−p(xi)\begin{align} w_{i, j={\rm treat}} &= \frac{1}{p(x_i)} \\[5pt] w_{i, j={\rm control}} &= \frac{1}{1-p(x_i)} \end{align} 但是,在直觉上,我不了解权重是如何实现的,以及为什么方程式如此构造。


1
加权最小二乘方权重定义:R lm函数与
谁能告诉我为什么我从R加权最小二乘法和矩阵运算的手动解中得到不同的结果? 具体来说,我正在尝试手动求解,其中是权重的对角矩阵,是数据矩阵,是响应向量。 WAx=WbWAx=Wb\mathbf W \mathbf A\mathbf x=\mathbf W \mathbf bWW\mathbf WAA\mathbf Abb\mathbf b 我正在尝试R lm使用weights参数将结果与函数进行比较。

2
在逻辑回归中为高度偏斜的数据集添加权重
我使用的是Logistic回归的标准版本,以使我的输入变量适合二进制输出变量。 但是,在我的问题中,负输出(0s)远大于正输出(1s)。比例为20:1。因此,当我训练分类器时,似乎即使强烈暗示正输出可能性的特征对于其对应参数仍然具有非常低(非常负)的值。在我看来,发生这种情况是因为有太多否定示例将参数拉向它们的方向。 所以我想知道我是否可以为正例添加权重(例如,使用20而不是1)。这可能完全有益吗?如果是这样,我应该如何添加权重(在以下等式中)。 成本函数如下所示: J=(−1/m)⋅∑i=1my⋅log(h(x⋅θ))+(1−y)(1−log(h(x⋅θ)))J=(−1/m)⋅∑i=1my⋅log⁡(h(x⋅θ))+(1−y)(1−log⁡(h(x⋅θ)))J = (-1 / m) \cdot\sum_{i=1}^{m} y\cdot\log(h(x\cdot\theta)) + (1-y)(1 - \log(h(x\cdot\theta))) 此成本函数的梯度(wrt)为:θθ\theta grad=((h(x⋅θ)−y)′⋅X)′grad=((h(x⋅θ)−y)′⋅X)′\mathrm{grad} = ((h(x\cdot\theta) - y)' \cdot X)' 这里, =测试用例数, =特征矩阵, =输出向量, = S型函数, =我们要学习的参数。mmmxxxyyyhhhθθ\theta 最后,我运行梯度下降以找到可能的最低该实现似乎正常运行。JJJ
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.