Questions tagged «circular-statistics»

方向统计(也称为圆形或球形统计)是处理方向(单位为 Rn),轴(穿过原点的线 Rn)或 Rn

3
一天中的时间是分类变量吗?
值可以为0、1、2,...,23的“一天中的小时”是分类变量吗?我很想说不,因为例如5比4或3更接近4或6。 另一方面,在23和0之间存在不连续性。 那么,它通常被认为是绝对的吗?请注意,“小时”是自变量之一,而不是我要预测的变量。

4
模拟光盘上的均匀分布
我试图模拟在圆中随机点的注入,以使圆的任何部分都具有相同的出现缺陷的可能性。如果我将圆分成相等面积的矩形,我期望结果分布的每面积计数遵循泊松分布。 由于只需要在圆形区域内放置点,因此我在极坐标中注入了两个均匀的随机分布:(半径)和(极角)。θ[R[RRθθ\theta 但是在完成注入之后,与边缘相比,我显然在圆心得到了更多的点。 在圆上进行这种注入以使点随机分布在整个圆上的正确方法是什么?

2
如何用循环数据检验方差相等
我对比较8个不同样本(每个样本均来自不同人群)中的变异量感兴趣。我知道这可以通过几种使用比率数据的方法来完成:F检验方差相等,Levene检验等。 但是,我的数据是圆形/方向性的(即表现出周期性的数据,例如风向和一般的角度数据或一天中的时间)。我进行了一些研究,并在R的“ CircStats”包中找到了一个测试-“沃森同质性测试”。缺点是该测试仅比较两个样本,这意味着我将不得不对8个样本进行多次比较(然后使用Bonferonni校正)。 这是我的问题: 1)我可以使用更好的测试吗? 2)如果不是,那么沃森检验的假设是什么?它是参数性/非参数性的吗? 3)我可以通过什么算法执行此测试?我的数据在Matlab中,我希望不必将其传输到R中即可运行测试。我宁愿只写自己的函数。

4
神经网络的编码角度数据
我正在训练一个神经网络(细节并不重要),其中目标数据是角度矢量(0到2 * pi之间)。我正在寻找有关如何编码此数据的建议。这是我目前正在尝试的方法(成功有限): 1)C的1编码:我将设置的可能角度分成1000个左右的离散角度,然后通过在相关索引处加1来指示特定角度。这样做的问题在于,网络只是学习输出全0(因为这几乎是完全正确的)。 2)简单缩放:我将网络输出范围([0,1])缩放为[0,2 * pi]。这里的问题是角度自然具有圆形拓扑(即,0.0001和2 * pi实际上彼此紧邻)。使用这种类型的编码,该信息会丢失。 任何建议,将不胜感激!

1
在线性回归中使用循环预测变量
我正在尝试使用风速数据(0,359)和一天中的时间(0,23)拟合模型,但是我担心它们不能很好地拟合线性回归,因为它们本身不是线性参数。我想使用Python对其进行转换。我看到有人提到过至少在风速情况下通过取度的正弦和余弦来计算向量均值的方法,但不是很多。 有没有可能有用的Python库或相关方法?

2
标准差的三角运算
正常随机变量的加法,减法,乘法和除法得到了很好的定义,但是三角运算又如何呢? 例如,让我们假设我正在尝试找到两个楔形的角度(建模为直角三角形),两个导管的尺寸分别为d1d1d_1和d2d2d_2,均被描述为正态分布。 直觉和模拟都告诉我,结果分布是正态的,平均。但是,有一种方法可以计算出角度的分布吗?我在哪里找到答案的参考?arctan(mean(d1)mean(d2))arctan⁡(mean(d1)mean(d2))\arctan\left(\frac{\text{mean}(d_1)}{\text{mean}(d_2)}\right) (在某种程度上,我正在研究机械零件的统计公差。我的第一个冲动是简单地模拟整个过程,检查最终结果是否合理正常,然后计算标准偏差。但是我想知道如果可以使用更整洁的分析方法。)

1
循环数据的时间序列建模
我正在为某些风/浪数据构建ARIMA模型。我为每个变量建立一个单独的模型。 我需要建模的两个变量是波浪和风向。值单位为度(0-360°)。是否可以对值间隔为圆形的此类数据建模?如果不是,哪种类型的模型最适合此类数据?

1
Logistic回归,方向数据为IV
我正在寻找有关使用方向数据(以度为单位的度量)作为回归中的自变量的良好参考;理想情况下,它对于分层非线性模型(数据嵌套)也很有用。我也对定向数据更感兴趣。 我找到了我将要获得的Mardia文本,但想知道是否有好的文章。 我对实用的文章中有关如何处理此类数据的文章更感兴趣,而不是定理和证明或分布等形式声明。谢谢 更新我已经得到了Mardia文本,内容非常全面。经过一番阅读之后,我可能还会有更多问题。

1
循环统计中更高时刻的直觉
在循环统计中,圆上具有值的随机变量的期望值定义为 (请参阅Wikipedia)。这是一个非常自然的定义,方差 因此,我们不需要第二分钟即可定义方差!ZZZSSSm1(Z)=∫SzPZ(θ)dθm1(Z)=∫SzPZ(θ)dθ m_1(Z)=\int_S z P^Z(\theta)\textrm{d}\theta Var(Z)=1−|m1(Z)|.Var(Z)=1−|m1(Z)|. \mathrm{Var}(Z)=1-|m_1(Z)|. 尽管如此,我们定义了较高的矩 我承认,乍一看也很自然,并且与线性统计中的定义非常相似。但是我仍然感到有些不舒服,并且有以下几点mn(Z)=∫SznPZ(θ)dθ.mn(Z)=∫SznPZ(θ)dθ. m_n(Z)=\int_S z^n P^Z(\theta)\textrm{d}\theta. 问题: 1. 用上面定义的更高的矩(直觉)来衡量什么?分布的哪些特性可以用它们的矩来表征? 2.在较高矩的计算中,我们使用复数乘法,尽管我们将随机变量的值仅视为平面中的矢量或角度。我知道复数乘法在这种情况下本质上是角度的加法,但是仍然: 为什么复数乘法对循环数据有意义?

5
最佳距离测量
语境 我有两组数据要比较。在这两组的每个数据元素是含有22角(所有之间的矢量−π−π-\pi和ππ\pi)。角度与给定的人体姿势配置有关,因此姿势由22个关节角度定义。 我最终想要做的是确定两组数据的“紧密度”。因此,对于一组中的每个姿势(22D矢量),我想在另一组中找到其最近的邻居,并为每个最接近的对创建距离图。 问题 我可以简单地使用欧几里得距离吗? 为了有意义,我假设距离度量需要定义为:θ=|θ1−θ2|modπθ=|θ1−θ2|modπ\theta = |\theta_1 - \theta_2| \quad mod \quad \pi,其中|...||...||...|是绝对值,mod是模。然后使用得到的22个theta,我可以执行标准的欧几里德距离计算,t21+t22+…+t222−−−−−−−−−−−−−−√t12+t22+…+t222\sqrt{t_1^2 + t_2^2 + \ldots + t_{22}^2}。 它是否正确? 另一个距离度量标准(例如卡方或Bhattacharyya或其他度量标准)会更有用吗?如果是这样,请您提供一些原因的见解。

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
角度/圆形数据的回归
我指导目标是角度的学习问题。如果我进行简单回归,则模型中的数字360和1会相距很远,但是实际上它们很接近,因此预测x和y坐标感觉不对,因为我试图在此处预测一个数字。解决此问题的正确方法是什么?

3
通过方向独立变量来检验正态分布的DV的关联性吗?
是否存在关于正态分布因变量是否与方向分布变量相关联的假设检验? 例如,如果一天中的时间是解释性变量(并且假设诸如星期几,一年中的月份等不相关),这就是如何解释11pm 比 1am 早 22小时的事实,以及2小时落后于联想的测试凌晨1点?我是否可以测试连续时间是否解释了因变量,而不假设在晚上11:59之后一分钟没有出现午夜12:00? 此测试是否也适用于离散方向性(模块化?)解释变量?还是需要单独测试?例如,如何测试是否按年份的月份解释因变量(假设年份的日期和季节以及特定的年份或十年无关紧要)。一年中的月份绝对会忽略顺序。但是将一年中的月份视为标准序数变量(例如Jan = 1 ... Dec = 12)忽略了1月在11月之后的两个月。

2
从“均匀间隔”的样本开始在单位磁盘上进行回归
我需要解决单位磁盘上的一个复杂的回归问题。最初的问题吸引了一些有趣的评论,但不幸的是没有答案。同时,我学到了更多有关此问题的知识,因此,我将尝试将原始问题分解为子问题,并查看这次是否运气更好。 我有40个温度传感器,它们定期以单位圆盘内的窄环间隔开: 这些传感器会及时获取温度。但是,由于时间变化远小于空间变化,因此我们通过忽略时间变化来简化问题,并假设每个传感器只给我一个时间平均值。这意味着我有40个样本(每个传感器一个),并且没有重复的样本。 我想根据传感器数据建立回归曲面。回归有两个目标:Ť= f(ρ ,θ )+ ϵT=f(ρ,θ)+ϵT=f(\rho,\theta)+\epsilon 我需要估算平均径向温度曲线。通过线性回归,我已经估算出了一个表面,该表面是平均温度表面,因此,我只需要针对积分我的表面,对吗?如果我使用多项式进行回归,那么这一步应该是小菜一碟。θŤ米Ë 一个Ñ= 克1个(ρ )+ ϵTmean=g1(ρ)+ϵT_{mean}=g_1(\rho)+\epsilonθθ\theta 我需要估算径向温度曲线,这样在每个径向位置。P (Ť (ρ )&lt; Ť 95(ρ ))= 0.95Ť95= 克2(ρ )+ ϵT95=g2(ρ)+ϵT_{95}=g_2(\rho)+\epsilonP(T(ρ )&lt; T95(ρ ))= 0.95P(T(ρ)&lt;T95(ρ))=.95P(T(\rho)<T_{95}(\rho))=.95 给定这两个目标,我应该使用哪种技术对单位磁盘进行回归?当然,高斯过程通常用于空间回归。但是,为单位磁盘定义一个好的内核并不是一件容易的事,因此,我想保持简单并使用多项式,除非您认为这是一个失败的策略。我读过有关Zernike多项式的信息。Zernike多项式似乎适用于单位圆上的回归,因为它们在是周期性的。θθ\theta 选择模型后,我需要选择一种估算程序。由于这是一个空间回归问题,因此应将不同位置的错误关联起来。普通最小二乘法假设存在不相关的错误,因此我想广义最小二乘会更合适。假设gls标准R分布中有一个函数,则GLS似乎是一种相对普遍的统计技术。但是,我从未使用过GLS,并且对此表示怀疑。例如,如何估计协方差矩阵?一个可行的示例,即使只有几个传感器,也将是很棒的。 PS我选择使用Zernike多项式和GLS,因为在我看来这样做是合乎逻辑的。但是,我不是专家,如果您觉得我走错了方向,请随意使用完全不同的方法。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.