Questions tagged «spatial»

有关统计方法的研究领域,这些统计方法在其数学计算中直接使用空间和空间关系(例如距离,面积,体积,长度,高度,方向,中心和/或其他数据空间特征)。

1
40,000篇神经科学论文可能是错误的
我在《经济学人》上看到了一篇关于看似毁灭性论文的文章 [1] ,该论文令人质疑“ 大约有40,000种已发表的[fMRI]研究。他们说,这种错误是由于“错误的统计假设”。我阅读了这篇论文,发现部分原因是多次比较校正,但是我不是fMRI专家,因此很难遵循。 作者所说的错误假设是什么?为什么要做出这些假设?做出这些假设有哪些方法? 信封计算的背面显示,有40,000张fMRI论文的资金超过10亿美元(研究生的工资,运营成本等)。 [1] Eklund等人,“聚类失败:为什么空间范围的fMRI推论会增加假阳性率,PNAS 2016”

4
为什么在GAM中包含纬度和经度会引起空间自相关?
我已经制作了用于毁林的广义加性模型。为了说明空间自相关,我将经度和纬度作为平滑的交互项(即s(x,y))包括在内。 我以阅读许多论文为基础,这些论文的作者说:“要考虑空间自相关,将点的坐标作为平滑项包括在内”,但是这些都从未解释过为什么会这样解释。真令人沮丧。我已经阅读了所有可以在GAM上找到的书籍,以期找到答案,但是大多数书籍(例如,通用加性模型,R的简介,SN Wood)只是在不加解释的情况下触及了该主题。 如果有人可以解释为什么将纬度和经度帐户包含在空间自相关中,以及“帐户”的真正含义,我真的很感激-将其包含在模型中是否足够简单,或者您应该将模型与s(x,y)in和没有模型?术语解释的偏差是否表示空间自相关的程度?

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
为什么Mantel的考试比Moran的I更受青睐?
Mantel的测试广泛用于生物学研究中,以检查动物的空间分布(在空间中)与它们的遗传相关性,侵略率或其他属性之间的相关性。许多优秀的期刊正在使用它( PNAS,动物行为,分子生态学...)。 我捏造了一些自然界中可能出现的模式,但是Mantel的测试似乎无法检测到它们。另一方面,Moran's I的结果更好(请参见各图下的p值)。 为什么科学家们不使用莫兰的我呢?有一些我看不到的隐藏原因吗?如果有某种原因,我如何知道(必须以不同的方式构造假设)以适当地使用我测试的Mantel或Moran的?一个真实的例子会有所帮助。 想象这种情况:每棵树上都有一个乌鸦的果园(17 x 17棵树)。每个乌鸦的“噪音”级别都可用,您想知道乌鸦的空间分布是否由它们发出的噪音决定。 至少有5种可能性: “羽毛鸟聚集在一起。” 相似的乌鸦越多,它们之间的地理距离(单个簇)越小。 “羽毛鸟聚集在一起。” 同样,乌鸦越相似,它们之间的地理距离就越小(多簇),但是一簇嘈杂的乌鸦不知道第二簇的存在(否则它们会融合成一个大簇)。 “单调趋势。” “异性相吸。” 类似的乌鸦不能站在一起。 “随机模式。” 噪声水平对空间分布没有重大影响。 对于每种情况,我都创建了一个点图并使用Mantel检验来计算相关性(不足为奇的是,其结果不显着,我永远也不会尝试在这些点模式之间找到线性关联)。 示例数据:( 尽可能压缩) r.gen <- seq(-100,100,5) r.val <- sample(r.gen, 289, replace=TRUE) z10 <- rep(0, times=10) z11 <- rep(0, times=11) r5 <- c(5,15,25,15,5) r71 <- c(5,20,40,50,40,20,5) r72 <- c(15,40,60,75,60,40,15) r73 <- c(25,50,75,100,75,50,25) rbPal …


5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
在R中生成视觉上吸引人的密度热图
虽然我知道在R中有一系列用于生成热图的函数,但问题是我无法生成视觉上吸引人的图。例如,以下图像是我要避免的热图的很好示例。第一个明显缺乏细节,而另一个(基于相同的观点)太详细而无法使用。这两个图都是由spatstat R包中的density()函数生成的。 如何获得更多的“流量”?我的目标是获得更多商用SpatialKey(屏幕截图)软件能够产生的外观。 有什么提示,算法,程序包或代码行可以带我朝这个方向前进吗?

2
什么样的统计模型或算法可以用来解决约翰·斯诺霍乱问题?
我感兴趣的是学习如何基于John Snow霍乱疫情的数据来发展某种震中的地理近似。在不事先知道井位的情况下,可以使用什么统计模型来解决该问题。 作为一个普遍的问题,您将拥有时间,已知点的位置以及观察者的行走路径。我正在寻找的方法将使用这三件事来估计“爆发”的震中。


4
图像的熵
信息/物理学理论上计算图像熵的最正确方法是什么?我现在不在乎计算效率-理论上我希望它尽可能正确。 让我们从灰度图像开始。一种直观的方法是将图像视为像素包,然后计算 ,其中是灰度级的数量,是与灰度级相关的概率。K p k kH= - Σķpķ升Ò 克2(pķ)H=−∑kpklog2(pk) H = - \sum_k p_k log_2(p_k) ķKKpķpkp_kķkk 这个定义有两个问题: 它适用于一个频段(即灰度级),但是应该如何以一种统计正确的方式将其扩展到多个频段?例如,对于2个频段,一个人应该基于基于并因此基于PMF 吗?如果一个具有多个( >> 2)波段,则,这似乎是错误的。P (X 1 = X 1,X 2 = X 2)乙P (X 1 = X 1,。。。,X 乙 = X 乙)〜1 / Ñ 乙 → ħ 中号甲X(X1个,X2)(X1,X2)(X_1,X_2)P(X1个= x1个,X2= x2)P(X1=x1,X2=x2)P(X_1=x_1,X_2=x_2)乙BBP(X1个= x1个,。。。,X乙= x乙)〜1 / …

2
Matérn协方差函数的原理是什么?
Matérn协方差函数通常在高斯过程中用作核函数。像这样定义 Cν(d)=σ221−νΓ(ν)(2ν−−√dρ)νKν(2ν−−√dρ)Cν(d)=σ221−νΓ(ν)(2νdρ)νKν(2νdρ) {\displaystyle C_{\nu }(d)=\sigma ^{2}{\frac {2^{1-\nu }}{\Gamma (\nu )}}{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}^{\nu }K_{\nu }{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}} 其中是距离函数(例如欧几里得距离),是伽马函数,是第二种修改的Bessel函数,和是正参数。实际上,有很多时间被选择为或。Γ ķ ν ρ ν ν 3dddΓΓ\GammaKνKνK_\nuρρ\rhoνν\nuνν\nu 53232\frac{3}{2}5252\frac{5}{2} 很多时候,该内核比“标准高斯”内核更好,因为它“不那么平滑”,但是除此之外,还有其他原因为什么人们更喜欢这种内核?对其表达方式的某些几何直觉,或对看似神秘的公式的某种解释,将受到高度赞赏。

5
标准偏差的2D模拟?
考虑以下实验:给一组人一个城市列表,并要求他们在世界地图上标记相应的位置(否则未标记)。对于每个城市,您将获得大致以相应城市为中心的点分散。伊斯坦布尔说,一些城市的分散程度要低于其他城市。 假设对于给定的城市,我们得到一组2D样本,代表测试分配的地图上城市(例如,本地坐标系)的位置主题。我想用适当的单位(km)将这个集合中点的“分散”数量表示为一个数字。{(xi,yi)}{(xi,yi)}\{(x_i, y_i)\}(x,y)(x,y)(x, y)iii 对于一维问题,我会选择标准偏差,但是是否可以为上述情况合理选择一个二维模拟?

2
在地图上显示时空相关性
我有整个美国气象站网络的数据。这给了我一个包含日期,纬度,经度和一些测量值的数据框。假设每天收集一次数据,并且受区域范围天气的驱动(不,我们将不进行讨论)。 我想以图形方式显示跨时间和空间的同时测量值如何关联。我的目标是显示正在调查的值的区域同质性(或缺乏同质性)。 资料集 首先,我带了一组在马萨诸塞州和缅因州的车站。我从NOAA的FTP站点上可用的索引文件中按纬度和经度选择了站点。 马上您就会看到一个问题:许多站点具有相似的标识符或非常接近。FWIW,我同时使用USAF和WBAN代码识别它们。深入了解元数据,我发现它们具有不同的坐标和高程,数据从一个站点停止,然后从另一个站点开始。因此,因为我不知道更好,所以必须将它们视为独立的站。这意味着数据包含彼此非常接近的站点对。 初步分析 我尝试按日历月对数据进行分组,然后计算不同对数据之间的普通最小二乘回归。然后,我将所有线对之间的相关性绘制为一条连接测站的线(下图)。线条颜色显示了来自OLS拟合的R2值。然后,该图显示了感兴趣区域中不同站点之间从一月,二月等开始的30多个数据点如何关联。 我已经编写了基础代码,以便仅在每6小时内有数据点时才计算每日平均值,因此数据在各个站点之间应该是可比较的。 问题 不幸的是,在一个绘图上根本没有太多数据可以理解。无法通过减小行的大小来解决。 ķķk 网络似乎太复杂了,所以我认为我需要找到一种降低复杂性或应用某种空间内核的方法。 我也不确定什么是最合适的指标来显示相关性,但是对于目标受众(非技术人员),OLS的相关系数可能只是最简单的解释。我可能还需要提供其他一些信息,例如梯度或标准误差。 问题 我正在学习同时进入该领域和R的方法,并希望就以下方面提出建议: 我要做什么的更正式的名字是什么?有一些有用的术语可以让我找到更多的文献吗?我的搜索正在为必不可少的应用程序绘制空白。 有没有更合适的方法来显示空间上分隔的多个数据集之间的相关性? ...尤其是易于从视觉上显示结果的方法? 这些是否在R中实现? 这些方法是否适合自动化?

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
空间自相关与空间平稳性
假设我们在二维空间中有点,并且我们希望测量属性对属性。典型的线性回归模型当然是 XXXyyyy=Xβ+ϵy=Xβ+ϵy= X\beta + \epsilon 这里有两个问题:第一个是ϵϵ\epsilon项可能在空间上相关(违反独立且相同的误差假设),第二个是回归斜率可能在整个空间中变化。可以通过将空间滞后项纳入模型来解决第一个问题,如 y=ρWy+Xβ+ϵy=ρWy+Xβ+ϵy=\rho W y + X\beta + \epsilon 我们甚至可以将LeSage和Pace所描述的空间Durbin模型与空间自回归遗漏变量(空间固定效应)结合在一起 y=ρWy+Xβ+WXλ+ϵy=ρWy+Xβ+WXλ+ϵy=\rho W y + X\beta + WX\lambda + \epsilon 其中ρρ\rho是权重矩阵W控制的空间相关强度WWW。显然,空间滞后的形式将取决于对空间相关形式的假设。 第二个问题已使用“地理加权回归”(GWR)解决,该技术我并不熟悉,但Brunsdon等人对此进行了解释。(1998)。据我所知,它涉及对加权子区域拟合一组回归模型,从而获得每个\ beta_i的估计值,这些\ beta_iβiβi\beta_i根据其空间而变化, β^i=(XTWiX)−1XTWiyβ^i=(XTWiX)−1XTWiy\hat{\beta}_i = (X^TW_iX)^{-1}X^T W_i y ,其中WWW是另一个空间权重矩阵,不一定与上面的矩阵不同。 我的问题:第一种方法(空间自回归)是否不足以对对的平均边际效应进行无偏估计?GWR似乎过拟合:当然会在空间中变化,但是如果我们想知道某种疗法的平均预期效果而又不考虑其空间位置,那么GWR可以做出什么贡献?XXXyyyββ\beta 这是我对初始答案的尝试: 如果我想知道特定邻里额外一间卧室的价格,似乎GWR是我最好的选择。 如果我想知道一间额外卧室的全球平均保费,我应该使用空间自回归技术。 很想听听其他观点。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.