Questions tagged «frequency»

7
通用时间序列的周期检测
这篇文章是另一篇有关时间序列异常检测通用方法的文章的延续。基本上,在这一点上,我感兴趣的是一种鲁棒的方式来发现受大量噪声影响的通用时间序列的周期性/季节性。从开发人员的角度来看,我想要一个简单的界面,例如: unsigned int discover_period(vector<double> v); 其中v包含样本的数组在哪里,返回值是信号的周期。重点是,同样,我无法对所分析的信号做出任何假设。我已经尝试过基于信号自相关(检测相关图的峰值)的方法,但是它并不像我想要的那样健壮。

11
平均绝对偏差与标准偏差
在Greer(1983)的教科书“ O水平的新综合数学”中,我看到了计算出的平均偏差,如下所示: 总结单个值与平均值之间的绝对差。然后得到其平均值。在本章中,使用术语“ 平均偏差”。 但是我最近看到了一些使用术语标准差的引用,这就是它们的作用: 计算单个值与平均值之间的差的平方。然后得到他们的平均值,最后得到答案的根源。 我对一组通用数据尝试了这两种方法,它们的答案也不同。我不是统计学家。试图教我的孩子们偏差时,我感到困惑。 简而言之,术语“ 标准差”和“ 平均差 ”是否相同?还是我的旧教科书错误?

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

3
如何测量两个频率分布之间的统计“距离”?
我正在执行一个数据分析项目,其中涉及调查一年中网站的使用时间。我想做的是比较使用模式的“一致性”,例如,与每周使用1小时一次或每次使用10分钟一次的模式有多接近6每周次数。我知道可以计算的几件事: 香农熵:衡量结果中的“确定性”相差多少,即概率分布与均匀分布的相差多少? Kullback-Liebler散度:测量一个概率分布与另一个概率分布有多少不同 Jensen-Shannon散度:与KL 散度相似,但在返回有限值时更有用 Smirnov-Kolmogorov检验:一种用于确定连续随机变量的两个累积分布函数是否来自同一样本的检验。 卡方检验:一种拟合优度检验,用于确定频率分布与预期频率分布的差异程度。 我想做的是比较分布中实际使用时间(蓝色)与理想使用时间(橙色)的差异。这些分布是离散的,下面的版本被归一化为概率分布。横轴表示用户在网站上花费的时间(以分钟为单位);这已记录在一年中的每一天;如果用户根本没有上过网站,则该时间为零,但已从频率分布中删除。右边是累积分布函数。 我唯一的问题是,即使我可以使JS-divergence返回一个有限值,但当我查看不同的用户并将其使用分布与理想用户进行比较时,我得到的值几乎是相同的(因此这不是一个好方法。表示两者之间的差异)。同样,当归一化为概率分布而不是频率分布时,会丢失大量信息(例如,学生使用该平台50次,则应垂直缩放蓝色分布,以使长条的总长度等于50,并且橙色栏的高度应为50,而不是1)。我们所说的“一致性”的部分原因是用户访问网站的频率是否会影响他们从网站中获得多少收益;如果他们失去访问该网站的次数,那么比较概率分布就有点不确定了;即使用户持续时间的概率分布接近“理想”使用情况,该用户在一年中可能只使用了1周的平台,这可能不是很一致。 是否有比较完善的技术来比较两个频率分布并计算某种度量,以表征它们的相似度(或相异度)?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.