Questions tagged «weighted-data»

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
加权方差的偏差校正
对于未加权方差 存在的偏置校正的样本方差,当平均是从相同的数据估计: Var(X):=1Var(X):=1n∑i(xi−μ)2Var(X):=1n∑i(xi−μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2Var(X):=1n−1∑i(xi−E[X])2Var(X):=1n−1∑i(xi−E[X])2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 我正在研究加权均值和方差,并想知道加权方差的适当偏差校正是什么。使用: mean(X):=1∑iωi∑iωiximean(X):=1∑iωi∑iωixi\text{mean}(X):=\frac{1}{\sum_i \omega_i}\sum_i \omega_i x_i 我正在使用的“天真”,未经校正的方差是: Var(X):=1∑iωi∑iωi(xi−mean(X))2Var(X):=1∑iωi∑iωi(xi−mean(X))2\text{Var}(X):=\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 所以我想知道纠正偏见的正确方法是 A) Var(X):=1∑iωi−1∑iωi(xi−mean(X))2Var(X):=1∑iωi−1∑iωi(xi−mean(X))2\text{Var}(X):=\frac{1}{\sum_i \omega_i - 1}\sum_i\omega_i(x_i - \text{mean}(X))^2 或B) Var(X):=nn−11∑iωi∑iωi(xi−mean(X))2Var(X):=nn−11∑iωi∑iωi(xi−mean(X))2\text{Var}(X):=\frac{n}{n-1}\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 或C) Var(X):=∑iωi(∑iωi)2−∑iω2i∑iωi(xi−mean(X))2Var(X):=∑iωi(∑iωi)2−∑iωi2∑iωi(xi−mean(X))2\text{Var}(X):=\frac{\sum_i \omega_i}{(\sum_i \omega_i)^2-\sum_i \omega_i^ 2}\sum_i\omega_i(x_i - \text{mean}(X))^2 A)当权重较小时对我来说没有意义。归一化值可以是0甚至是负数。但是B)(是观察次数)-这是正确的方法吗?您是否有参考资料可以证明这一点?我相信“更新均值和方差估计:一种改进的方法”,DHD West,1979年使用了这种方法。第三,C)是我对这个问题的答案的解释:https : //mathoverflow.net/questions/22203/unbiased-estimate-of-the-variance-of-an-unnormalized-weighted-meannnn 对于C),我刚刚意识到分母看起来很像。这里有一些一般的联系吗?我认为这并不完全一致;显然我们正在尝试计算方差...Var(Ω)Var(Ω)\text{Var}(\Omega) 他们三个似乎都“生存”设置所有的健全性检查。那么我应该在哪个前提下使用哪个呢?“更新:” whuber建议也使用和所有其余的进行完整性检查。这似乎排除了A和B。ωi=1ωi=1\omega_i=1ω1=ω2=.5ω1=ω2=.5\omega_1=\omega_2=.5ωi=ϵωi=ϵ\omega_i=\epsilon

2
为不平衡数据的逻辑回归增加权重
我想用不平衡的数据(9:1)对逻辑回归建模。我想尝试glmR函数中的weights选项,但是我不确定100%会做什么。 可以说我的输出变量是c(0,0,0,0,0,0,0,0,0,1)。现在我想给“ 1”增加10倍的重量。所以我给出权重的论点weights=c(1,1,1,1,1,1,1,1,1,1,1,10)。 当我这样做时,将在最大似然计算中考虑它。我对吗?错误分类“ 1”比错误分类“ 0”仅差10倍。

2
加权主成分分析
经过一番搜索,我发现将观测权重/测量误差纳入主成分分析的内容很少。我发现的结果倾向于依靠迭代方法来包含权重(例如,here)。我的问题是为什么需要这种方法?为什么我们不能使用加权协方差矩阵的特征向量?

1
加权方差,再一次
无偏加权方差已在此处和其他地方得到解决,但似乎仍然令人惊讶。对于第一个链接以及Wikipedia文章中提供的公式似乎已达成共识。这也看起来像R,Mathematica和GSL(而不是MATLAB)使用的公式。但是,Wikipedia文章还包含以下几行,对于加权方差实现而言,这看起来很不错: 例如,如果从同一分布中得出值{2,2,4,5,5,5},那么我们可以将此集合视为未加权样本,也可以将其视为加权样本{2,4, 5}和相应的权重{2,1,3},我们应该得到相同的结果。 我的计算得出原始值的方差为2.1667,加权方差为2.9545。我真的应该期望它们是一样的吗?为什么或者为什么不?

1
诸如加权相关之类的东西?
我收到了一些有趣的数据,其中涉及最受欢迎的音乐艺术家,按地点划分为大约200个国会区。我想看看是否有可能针对某人的音乐偏好来对其进行投票,并确定该人是“像民主党人一样听”还是“像共和党人一样听”。(自然这很轻松,但是数据中确实存在熵!) 我有大约100位艺术家的数据,以及过去三个选举周期中每个地区共和党人和民主党人的平均投票百分比。因此,我对每位艺术家进行了相关分析,以了解哪些听众与民主党人的投票份额成比例最不均衡。对于任何给定的艺术家,这些相关性从大约-0.3到0.3之间变化,中间的很多值几乎没有或没有预测能力。 我有两个问题:首先,每个地区的溪流总数差异很大。现在,我正在将每个地区(例如,碧昂斯)中所有流的百分比与为民主党人投票的百分比相关联。但是,一个地区的总流量可能为数百万,而另一个地区的总流量则为10万。我需要以某种方式加权相关性来解决这个问题吗? 其次,我很好奇如何将这些相关性组合成关于用户政治的综合猜测。假设我选取了绝对相关值最高(正值和负值)的20位艺术家,每个方向上的十位艺术家,然后调查用户对他或她的喜欢程度。因此,我对每位艺术家都投了赞成票或反对票,并加上了所有20个值与政治的相关性。是否存在将这些相关性组合为单个估计的标准方法?(我在想类似《纽约时报》著名的方言测验,它将测验 25个问题的区域概率结合到热点图中。但是在这种情况下,我只需要一个单一的值来了解民主党或共和党人在音乐上的品味如何。 谢谢!

1
加权最小二乘方权重定义:R lm函数与
谁能告诉我为什么我从R加权最小二乘法和矩阵运算的手动解中得到不同的结果? 具体来说,我正在尝试手动求解,其中是权重的对角矩阵,是数据矩阵,是响应向量。 WAx=WbWAx=Wb\mathbf W \mathbf A\mathbf x=\mathbf W \mathbf bWW\mathbf WAA\mathbf Abb\mathbf b 我正在尝试R lm使用weights参数将结果与函数进行比较。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.