Questions tagged «spatial»

有关统计方法的研究领域,这些统计方法在其数学计算中直接使用空间和空间关系(例如距离,面积,体积,长度,高度,方向,中心和/或其他数据空间特征)。

2
关于逻辑回归的问题
我想运行一个二元logistic回归模型,以在10年内(1997-2006年)从一组自变量中模拟冲突(因变量)的存在与否,每年有107个观测值。我的独立人是: 土地退化(针对两种退化类型); 人口增加(0-否; 1-是); 生计类型(0-1型; 1-2-2型); 人口密度(三种密度水平); NDVI连续(最大蔬菜生产率); NDVI t − 1(比上一年的蔬菜下降-0-否; 1-是)和t−1t−1_{t-1} 和NDVI t − 2(从两年后的蔬菜开始下降-0-否; 1-是)。t−2t−2_{t-2} 我对此很陌生-这是我的讲师给我的一个项目-因此,我将感谢您的一些建议或指导。我已经测试了多大学衔。 本质上,我的数据被划分为107个观测单位(空间区域),覆盖了10年(总共1070年),对于每个观测单位,它给出的是当时该单位内独立变量条件的“快照”值(区域)。我想知道如何设置逻辑回归(或表格)以分别识别每年的107个值,以便可以评估不同单位年之间的时间NDVI变化吗?

3
图像是否由空间相连的独立区域组成的统计量度
考虑以下两个灰度图像: 第一张图片显示了蜿蜒的河流格局。第二张图片显示了随机噪声。 我正在寻找一种统计量,可以用来确定图像是否可能显示河流图案。 河流图像有两个区域:河流=高价值,其他地方=低价值。 结果是直方图是双峰的: 因此,具有河流图案的图像应具有较高的方差。 但是上面的随机图像也是如此: River_var = 0.0269, Random_var = 0.0310 另一方面,随机图像具有较低的空间连续性,而河流图像具有较高的空间连续性,这在实验方差图中清楚显示: 就像方差“汇总”一个数量的直方图一样,我正在寻找一种空间连续性的度量,以“汇总”实验方差图。 我希望这种度量可以在较小的滞后比较大的滞后更“惩罚”高半方差,因此我想出了: s v a r = ∑ñh = 1γ(小时)/ 小时2 svar=∑h=1nγ(h)/h2\ svar = \sum_{h=1}^n \gamma(h)/h^2 如果我仅从滞后= 1到15加起来,我得到: River_svar = 0.0228, Random_svar = 0.0488 我认为河流图像应该具有较高的方差,但空间方差较低,因此我引入了方差比: r a t i o = v a r / s …

2
人口密度估计模型
通过为每个形状(例如人口普查区,地区,县,州等多边形)分配恒定的人口/面积值,可以使用(人口,面积,形状)数据库来绘制人口密度图。但是,种群通常在其多边形内并不是均匀分布的。 对称映射是通过辅助数据细化这些密度估计的过程。正如最近的评论所指出的,这是社会科学中的一个重要问题。 然后,假设我们有一个辅助的土地覆盖图(或任何其他离散因子)。在最简单的情况下,我们可以使用明显不适合居住的区域(例如水域)来划定人口不在的区域,并相应地将所有人口分配到其余区域。更一般地,每个单元人口普查被雕刻成具有表面区域部分,。因此,我们的数据集被扩充到元组列表ķ X Ĵ 我我= 1 ,2 ,... ,ķjjjkkkxjixjix_{ji}i=1,2,…,ki=1,2,…,ki = 1, 2, \ldots, k (yj,xj1,xj2,…,xjk)(yj,xj1,xj2,…,xjk)(y_{j}, x_{j1}, x_{j2}, \ldots, x_{jk}) 其中是单位的总体(假定无误差地测量),并且-尽管并非严格如此-我们可以假设每个也都被精确测量。用这些术语,目标是将每个分成一个总和 j x j i y jyjyjy_{j}jjjxjixjix_{ji}yjyjy_{j} yj=zj1+zj2+⋯+zjkyj=zj1+zj2+⋯+zjk y_j = z_{j1} + z_{j2} + \cdots + z_{jk} 其中每个和估计居住在土地覆盖类别单元的人口。估计需要无偏见。此分区通过将密度分配给人口普查多边形与土地覆盖类别的交点来细化人口密度图。 ž Ĵ 我 Ĵ 我ž Ĵ 我 / X Ĵ 我 Ĵ …

1
线性回归与空间自相关
我想使用通过遥感获得的一些变量来预测某个地区的树高。像近似生物量,等等。我想首先使用线性回归(我知道这不是最好的主意,但这对我的项目来说是必不可少的步骤)。我想知道空间自相关对它的影响有多严重,如果可能的话,最简单的纠正方法是什么。顺便说一下,我正在R中做所有事情。

2
时空预测误差的探索性分析
数据:我最近致力于分析风电产量预测误差的时空场的随机特性。在形式上,可以说是一个过程 在时间上两次索引(分别为t和h),在空间上一次索引(p),其中H为超前次数(等于约24,有规律地采样),T为“预测时间”(即发布预测的时间,在我的情况下大约为30000,定期进行采样),n为多个空间位置(未网格化,在我的情况下为300)。由于这是与天气有关的过程,因此我也有大量可以使用的天气预报,分析和气象测量。(ϵpt + h | Ť)t = 1 … ,T;h = 1 ,... ,H,p = p1个,… ,pñ(ϵt+h|tp)t=1…,T;h=1,…,H,p=p1,…,pn \left (\epsilon^p_{t+h|t} \right )_{t=1\dots,T;\; h=1,\dots,H,\;p=p_1,\dots,p_n}ŤttHhhpppHHH242424ŤŤTññn 问题:您能否描述一下您将对此类数据执行的探索性分析,以了解过程的相互依赖结构(可能不是线性的)的本质,以便为它提出更好的模型。

1
距离差的统计意义
我在二维网格上有3000多个矢量,具有近似均匀的离散分布。一些向量对满足一定条件。注意:该条件仅适用于向量对,不适用于单个向量。我有大约1500个这样的对的列表,我们称其为组1。组2包含所有其他向量对。我想找出第1组中一对向量之间的距离是否明显小于两个向量之间的平均距离。我怎样才能做到这一点? 统计检验:中心极限定理适用于我的情况吗?也就是说,我可以采用距离样本的方法,并使用学生的t检验比较满足条件的样本的方法与不满足条件的样本的方法吗?否则,什么统计检验适用于此? 样本数量和样本数量:我知道这里有两个变量,对于两个组中的每一个,我需要获取n个大小为m的样本,并取每个样本的平均值。有没有选择n和m的原则方法?它们应该尽可能大吗?还是只要它们具有统计意义,就应该尽可能地少?这两个组的名称是否应该相同?还是对于包含更多向量对的第2组,它们应该更大?

2
在R中聚类空间数据
我有一套每月的海面温度(SST)数据,我想应用一些聚类方法来检测具有相似SST模式的区域。我有一组从1985年到2009年运行的每月数据文件,并希望将聚类应用到每个月作为第一步。 每个文件包含358416点的网格数据,其中约50%是陆地,并用99.99值标记为NA。数据格式为: lon lat sst -10.042 44.979 12.38 -9.998 44.979 12.69 -9.954 44.979 12.90 -9.910 44.979 12.90 -9.866 44.979 12.54 -9.822 44.979 12.37 -9.778 44.979 12.37 -9.734 44.979 12.51 -9.690 44.979 12.39 -9.646 44.979 12.36 我尝试了CLARA聚类方法,并得到了一些明显不错的结果,但在我看来,这也只是平滑(分组)等值线。那么我不确定这是分析空间数据的最佳聚类方法。 是否有其他专门用于此类数据集的聚类方法?一些参考将是开始阅读的好方法。 提前致谢。
12 r  clustering  spatial 

1
是什么导致空间相关图中出现U形图案?
在我自己的工作中,我注意到在检查不同距离的空间相关图时会出现这种模式,在相关中出现了U形模式。更具体地,在小距离箱处的强正相关随距离而减小,然后在特定点到达凹坑,然后向上爬回。 这是来自自然生态保护博客“ 宏观生态游乐场”(3)–空间自相关的示例。 这些在更远距离上更强的正自相关理论上违反了Tobler的第一地理定律,因此我希望它是由数据中的其他某种模式引起的。我希望它们在某个距离处达到零,然后在更远的距离处徘徊在0左右(这在具有低阶AR或MA项的时间序列图中通常会发生)。 如果您执行Google图片搜索,则可以找到这种相同类型的图案的其他一些示例(另请参见此处)。在GIS站点的用户发布了两个例子,该模式出现莫兰的我,但不会出现Geary的C(1,2)。结合我自己的工作,这些模式对于原始数据是可观察到的,但是当使用空间项拟合模型并检查残差时,它们似乎不会持续存在。 我没有在时间序列分析中遇到过显示相似的ACF图的示例,因此我不确定原始数据中的哪种模式会导致这种情况。此评论中的Scortchi推测正弦曲线模式 可能是由于该时间序列中省略的季节性模式引起的。同一类型的空间趋势会在空间相关图中导致这种模式吗?还是相关性计算方式的其他人工产物? 这是我工作的一个例子。样本很大,浅灰色的线是原始数据的19个排列的集合,以生成参考分布(因此可以看到红线的变化预计会很小)。因此,尽管该图并不像第一个所示的那样戏剧性,但是在该图中很容易出现深坑,然后再上升。(还请注意,我的陷阱与其他示例一样不是负面的,如果这在本质上使示例有所不同,我不知道。) 这是数据的核密度图,以查看产生所述相关图的空间分布。

2
为什么在完全分散的点模式中,Moran的I不等于“ -1”
维基百科是错的...还是我听不懂? 维基百科:白色和黑色正方形(“象棋图案”)完全分散,因此莫兰的I为-1。如果将白色方块堆叠到板子的一半,将黑色方块堆叠到板子的另一半,则莫兰的I将接近+1。正方形颜色的随机排列将使Moran's I的值接近于0。 # Example data: x_coor<-rep(c(1:8), each=8) y_coor<-rep(c(1:8), length=64) my.values<-rep(c(1,0,1,0,1,0,1,0,0,1,0,1,0,1,0,1), length=64) rbPal <- colorRampPalette(c("darkorchid","darkorange")) my.Col <- rbPal(10)[as.numeric(cut(my.values,breaks = 10))] # plot the point pattern... plot(y_coor,x_coor,col = my.Col, pch=20, cex=8, xlim=c(0,9),ylim=c(0,9)) 如您所见,点完全分散 # Distance matrix my.dists <- as.matrix(dist(cbind(x_coor,y_coor))) # ...inversed distance matrix my.dists.inv <- 1/my.dists # diagonals are "0" diag(my.dists.inv) …

3
估计空间过程的参数
我得到了个正整数值的网格。这些数字表示的强度应与占据该网格位置的人的信念强度相对应(较高的值表示较高的信念)。一个人通常会影响多个网格单元。n×nn×nn\times n 我认为强度的模式应“看起来像高斯”,因为它将有一个高强度的中心位置,然后强度在所有方向上呈放射状逐渐减小。具体来说,我想将值建模为来自“比例高斯”,其中一个参数用于方差,另一个用于比例因子。 有两个复杂的因素: 由于背景噪声和其他影响,没有人不会对应零值,但该值应较小。但是它们可能是不稳定的,并且一开始可能很难将其建模为简单的高斯噪声。 强度范围可以变化。在一个实例中,值的范围可能在1到10之间,而在另一个实例中,值可能在1到100之间。 我正在寻找合适的参数估计策略或相关文献的指南。指出为什么我以错误的方式完全解决这个问题的指针也将不胜感激:)。我一直在阅读有关克里金法和高斯过程的信息,但这对于我的问题而言似乎是很繁琐的工作。

1
从地理坐标计算内核密度估计的正确方法是什么?
我必须从经度和纬度坐标列表中计算2d内核密度估计值(kde)。但是,纬度一度与经度一度的距离是不同的,这意味着各个内核将是椭圆形的,尤其是该点距赤道越远。 在我的情况下,这些点都足够接近,因此将它们转换为平坦的地球不会引起很多问题。但是,我仍然对在不正确的情况下应该如何正确处理感到好奇。

2
时间序列数据的空间自相关
我有一个20年数据集,其中包含一组多边形(约200个不规则形状的连续多边形)的物种丰富度的年度计数。我一直在使用回归分析来推断每个多边形的趋势(每年计数变化),以及基于管理边界的多边形数据汇总。 我确信数据中存在空间自相关,这肯定会影响汇总数据的回归分析。我的问题是-如何对时间序列数据进行SAC测试?我是否需要查看每年回归分析中残差的SAC(全局Moran's I)?还是我可以全年进行一次测试? 一旦我测试了是的,那么就有SAC了,解决这个问题容易吗?我的统计资料背景很少,我在时空建模方面阅读的所有内容听起来都很复杂。我知道R具有距离加权自协变量函数-这一点简单易用吗? 我真的很困惑如何评估/添加SAC来解决此问题,非常感谢任何建议,链接或参考。提前致谢!

3
寻找平均GPS点
我需要编写一个程序以从大量点中找到平均GPS点。 实际上,发生以下情况: 每个月,一个人记录一个相同静态资产的GPS点。 由于GPS的性质,这些点每个月都会略有不同。 有时,一个人犯了一个错误,并在完全不同的位置记录了错误的资产。 每个GPS点都有确定性权重(HDOP),该权重表示当前GPS数据的准确性。HDOP值较高的GPS点优先于HDOP较低的GPS点。 我如何确定以下内容: 处理具有2个值与单个值(如age)的数据。(找到人口的平均年龄) 确定离群值。在下面的示例中,这些值为[-28.252,25.018]和[-28.632,25.219] 排除异常值后,在其中找到平均GPS点可能是[-28.389,25.245]。 如果可以使用HDOP值为每个点提供的“权重”,那将是一个额外的奖励。
11 outliers  spatial 

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
测量2D正方形中点分布的均匀性
我有一个2D正方形,里面有一组点,例如1000点。我需要一种方法来查看正方形内的点的分布是否散布(或或多或少均匀分布),或者它们倾向于在正方形内的某个点聚集在一起。 我需要一种数学/统计(非编程)方法来确定这一点。我在Google上搜索,发现了诸如拟合优度,Kolmogorov等之类的东西,只是想知道是否还有其他方法可以实现这一目标。需要这个用于课堂论文。 输入:2D正方形和1000点。输出:是/否(是=均匀分布,否=在某些地方聚集在一起)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.