Questions tagged «errors-in-variables»

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
变量误差回归:从三个站点合并数据是否有效?
最近,我有一个客户来做我的引导程序分析,因为FDA审查员说他们的变量误差回归是无​​效的,因为当合并来自站点的数据时,分析包括来自三个站点的数据,其中两个站点包括一些样本。相同。 背景 客户想使用一种新的测定方法,他们希望证明该方法与现有的认可方法“等效”。他们的方法是比较两种方法应用于相同样品的结果。使用了三个站点进行测试。将变量误差(戴明回归)应用于每个站点的数据。想法是,如果回归显示斜率参数接近1,截距接近0,则表明这两种测定技术给出的结果几乎相同,因此应批准新方法。在站点1,他们有45个样本,给了他们45个配对的观测值。站点2有40个样本,站点3有43个样本。他们进行了三个单独的Deming回归(假设两种方法的测量误差之比为1)。因此,该算法将垂直距离的平方和最小化。 客户在提交的材料中指出,地点1和2所用的一些样品是相同的。在审查中,FDA审查员说Deming回归是无效的,因为使用了共同的样本会导致“干扰”,从而使模型的假设无效。他们要求对Deming结果进行自举调整,以考虑到这种干扰。 那时,由于客户不知道该如何进行引导程序。“干扰”一词很奇怪,我不确定审阅者的确切含义。我认为关键是因为合并数据具有公共样本,所以公共样本之间存在相关性,因此模型误差项不会全部独立。 客户分析 这三个单独的回归非常相似。每个斜率参数接近1,截距接近0。在每种情况下,斜率和截距的95%置信区间分别为1和0。主要区别是站点3上的残留方差略高。此外,他们将此与进行OLS的结果进行了比较,发现它们非常相似(仅在一种情况下,基于OLS的斜率的置信区间不包含1)。如果坡度的OLS CI不包含1,则区间的上限约为0.99。 由于这三个站点的结果如此相似,将站点数据合并起来似乎是合理的。客户进行了汇总的Deming回归,也得出了类似的结果。鉴于这些结果,我为客户撰写了一份报告,对声称回归无效的说法提出了异议。我的观点是,由于两个变量中都存在类似的度量误差,因此客户使用Deming回归作为显示同意/不同意见的方式是正确的。单个站点的回归没有相关误差的问题,因为在给定的站点内没有重复样本。合并数据以获得更紧密的置信区间。 可以通过简单地将数据与站点1中遗漏的常见样本合并来解决此难题。同样,三个单独的站点模型也没有问题并且有效。在我看来,即使没有共同努力,这也提供了有力的证据。此外,对于公共站点,分别在站点1和2进行测量。因此,我认为即使使用所有数据进行汇总分析也是有效的,因为站点1处样品的测量误差与站点2中相应样品的测量误差不相关。这实际上等于在设计中重复了一点空间应该没有问题。它不会创建关联/“干扰”。 在我的报告中,我写道引导分析是不必要的,因为没有相关的调整。这三个站点模型是有效的(站点内没有可能的“干扰”),可以进行合并分析以在合并时删除站点1上的常见样本。这样的汇总分析不会有干扰问题。无需进行自举调整,因为没有偏差可调整。 结论 客户同意我的分析,但害怕将其提交给FDA。他们还是要我进行引导程序调整。 我的问题 A)您是否同意(1)我对客户结果的分析,以及(2)我认为不需要引导程序的论点。 B)鉴于我必须自举Deming回归,是否有任何过程SAS或R可用于我对自举样本进行Deming回归? 编辑:考虑到比尔·胡伯(Bill Huber)的建议,我计划通过对x上的y和对y上的x进行回归来研究变量误差回归的界限。我们已经知道,对于一种版本的OLS,当两个误差方差均相等时,答案与变量误差基本相同。如果对于其他回归也是如此,那么我认为这将表明Deming回归给出了适当的解决方案。你同意吗? 为了满足客户的要求,我需要进行模糊定义的请求引导分析。从伦理上讲,我认为仅提供引导程序是错误的,因为它并不能真正解决客户的真正问题,即证明他们的检测测量程序合理。因此,我将对他们进行分析,并至少要求他们告诉FDA,除了进行引导程序外,我还进行了逆回归并限制了Deming回归,我认为这更合适。我还认为,分析将表明他们的方法与参考等效,因此Deming回归也足够。 我计划使用@whuber在其答案中建议的R程序,以使我能够引导Deming回归。我对R不太熟悉,但我认为我可以做到。我已经将R和R Studio一起安装了。这样对像我这样的新手来说足够容易吗? 我也有SAS,并且对SAS编程更满意。因此,如果有人知道在SAS中执行此操作的方法,我将不胜感激。

2
当具有基于不同样本量的组平均值的预测变量时,该怎么办?
考虑一个经典的数据分析问题,其中您有一个结果YiYiY_{i},以及它与多个预测变量Xi1,...,XipXi1,...,XipX_{i1}, ..., X_{ip}。这里要考虑的基本应用程序类型是 YiYiY_{i}是某些团体级别的结果,例如市的犯罪率iii。 预测变量是组级别的特征,例如城市人口统计学特征iii。 基本目标是拟合回归模型(可能具有随机效应,但暂时不要考虑): E(Yi|Xi)=β0+β1Xi1+...+βpXipE(Yi|Xi)=β0+β1Xi1+...+βpXip E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip} 当一个(或多个)预测变量是每个单位样本量不同的调查结果时,是否会出现技术上的困难?例如,假设Xi1Xi1X_{i1}是城市总分,iii它是来自城市的个体样本的平均响应,iii但是这些平均值所基于的样本量却大不相同: City12345⋮Sample size2010030053⋮CitySample size120210033004553⋮⋮\begin{array}{c|c} {\rm City} & {\rm Sample \ size} \\ \hline 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 …

1
与变量模型中的无偏估计相比,用于回归的偏倚估计量可获得更好的结果
我正在研究“误差中的误差”模型的一些句法数据,以进行一些研究。目前,我只有一个自变量,并且假设我知道因变量的真实值的方差。 因此,利用这些信息,我可以实现因变量系数的无偏估计。 该模型: Ŷ=0.5X-10+ë2其中: ë1〜Ñ(0,σ2)对于一些σë2〜Ñ(0,1x~=x+e1x~=x+e1\tilde{x} = x + e_1 y=0.5x−10+e2y=0.5x−10+e2y = 0.5x -10 + e_2 e1~N(0,σ2)e1~N(0,σ2)e_1\text{~}N(0,\sigma^2)σσ\sigma e2~N(0,1)e2~N(0,1)e_2\text{~}N(0,1) 其中的值是已知的对于每个样品只,并且还的实际价值的标准偏差X为已知样品:σ Xy,x~y,x~y,\tilde{x}xxxσxσx\sigma_x。 我得到的偏向(β使用OLS,然后进行使用调整)系数:β^β^\hat{\beta} β′= β^* σ^2X〜σ2Xβ′=β^∗σ^x~2σx2\beta' = \hat{\beta} * \frac{\hat{\sigma}_\tilde{x}^2}{\sigma_x^2} 我看到,使用该模型,新的系数的无偏估计器要好得多(更接近于实际值),但是MSE比使用有偏估计器要差得多。 怎么了?我期望一个普遍的估计器会比有偏估计器产生更好的结果。 Matlab代码: reg_mse_agg = []; fixed_mse_agg = []; varMult = 1; numTests = 60; for dataNumber=1:8 reg_mses = []; fixed_mses = []; …

1
拟合“简单”测量误差模型的方法
我正在寻找可用于估计“ OLS”测量误差模型的方法。 X 我 = X 我 + ë X ,我 ÿ 我 = α + β X 我ÿ一世= Y一世+ eÿ,我yi=Yi+ey,iy_{i}=Y_{i}+e_{y,i} X一世= X一世+ eX ,我xi=Xi+ex,ix_{i}=X_{i}+e_{x,i} ÿ一世= α + βX一世Yi=α+βXiY_{i}=\alpha + \beta X_{i} 其中的误差是独立的正常与未知方差和σ 2 X。在这种情况下,“标准” OLS无效。σ2ÿσy2\sigma_{y}^{2}σ2Xσx2\sigma_{x}^{2} 维基百科有一定的吸引力的解决方案-这两个给力您认为无论是“变化率” 或“可靠性比”λ=σ 2 Xδ= σ2ÿσ2Xδ=σy2σx2\delta=\frac{\sigma_{y}^{2}}{\sigma_{x}^{2}}是已知的,其中σ 2 X是真回归的方差X我。我对此不满意,因为不知道方差的人怎么知道其比率?λ = σ2Xσ2X+ σ2Xλ=σX2σx2+σX2\lambda=\frac{\sigma_{X}^{2}}{\sigma_{x}^{2}+\sigma_{X}^{2}}σ2XσX2\sigma_{X}^2X一世XiX_i 无论如何,除了这两个以外,还有其他解决方案不需要我“了解”参数的任何信息吗? 仅截距和斜率的解决方案就可以了。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.