Questions tagged «aggregation»

指“集中在一起”潜在不均匀的数据组。

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
如何将一周的分钟数据汇总为小时数?
您将如何获得每日多个时段的每小时数据,并在同一图中显示12个“主机”的结果?也就是说,我想绘制一个24小时周期的样子,以获取一周的数据。最终目标是在采样之前和之后比较两组该数据。 dates Host CPUIOWait CPUUser CPUSys 1 2011-02-11 23:55:12 db 0 14 8 2 2011-02-11 23:55:10 app1 0 6 1 3 2011-02-11 23:55:09 app2 0 4 1 我已经能够很好地运行xyplot(CPUUser〜date | Host)。但是,我不想显示一周中的每个日期,而是希望将X轴作为一天中的小时数。 尝试将这些数据放入xts对象会导致错误,例如“ order.by需要适当的基于时间的对象” 这是数据帧的str(): 'data.frame': 19720 obs. of 5 variables: $ dates : POSIXct, format: "2011-02-11 23:55:12" "2011-02-11 23:55:10" ... $ …

6
R中获取由标识符分组的数据帧的第一行的快速方法
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 有时,我只需要按标识符将数据集的第一行获取,例如当每个人有多个观察值时检索年龄和性别时。在R中最快(或最快)的方法是什么?我在下面使用了aggregate(),并怀疑还有更好的方法。在发布此问题之前,我在Google上进行了一些搜索,发现并尝试了ddply,但感到惊讶的是它运行速度极慢,并给我数据集上的内存错误(400,000行x 16列,7,000个唯一ID),而aggregate()版本相当快。 (dx <- data.frame(ID = factor(c(1,1,2,2,3,3)), AGE = c(30,30,40,40,35,35), FEM = factor(c(1,1,0,0,1,1)))) # ID AGE FEM # 1 30 1 # 1 30 1 # 2 40 0 # 2 40 0 # 3 35 1 # 3 35 1 ag <- data.frame(ID=levels(dx$ID)) ag <- …
14 r  dataset  aggregation  plyr 

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。

1
来自正态分布组合的分位数
我了解不同年龄儿童的人体测量尺寸分布(例如肩跨度)。对于每个年龄和维度,我都有均值,标准差。(我也有八个分位数,但我认为我无法从中得到想要的东西。) 对于每个维度,我想估算长度分布的特定分位数。如果我假设每个维度都是正态分布的,则可以使用均值和标准偏差来实现。我是否可以使用一个漂亮的公式来获取与特定分位数的分布相关的值? 反向操作非常简单:对于特定值,对于每个正态分布(年龄),将面积都设置在该值的右侧。对结果求和,然后除以分布数。 更新:这是图形形式的相同问题。假设每个彩色分布都是正态分布。 而且,很明显,我可以尝试一堆不同的长度,并不断更改它们,直到获得与我的精度足够接近所需分位数的长度为止。我想知道是否有比这更好的方法。如果这是正确的方法,那么它有名字吗?

1
您如何选择时间序列中的分析单位(聚合级别)?
如果您可以在任何时间精度水平上测量观测值的时间序列,并且您的研究目标是确定X和Y之间的关系,那么是否有任何经验依据来选择特定级别的聚合而不是另一种聚合?该选择是否仅基于理论和/或实际限制? 对于这个主要问题,我有三个子问题: X或Y在较大级别内的任何非随机变化是否足以选择较小级别的聚合(其中非随机是观测的任何时间模式)? X和Y之间的关系在较小聚合级别上的任何变化是否足以证明较小分析单位的合理性?如果某种变化是可以接受的,那么如何决定多少变化太大呢? 人们是否可以引用出于经验原因或理论原因而认为一种分析单位比另一分析单位引人注目的/定义明确的论点? 我很清楚空间分析中的可修改面积单位问题(Openshaw 1984)。我并没有声称自己是该材料的专家,但是到目前为止,我只想认为较小的分析单位总是更好,因为人们不太可能犯生态谬论(Robinson 1950)。如果您有一个有关汇总地理单位的直接相关参考或答案,我也将不胜感激。

2
汇总中保留哪些统计信息?
如果我们有一个较长的高分辨率时间序列,并且有很多杂讯,通常有必要将数据聚合为较低的分辨率(例如,从每日到每月的值),以更好地了解正在发生的事情,从而有效地去除一些噪音。 我已经看过至少一篇论文,然后将一些统计信息应用于汇总数据,包括对单独变量进行线性回归的。那有效吗?我本来以为,由于降低了噪声,平均过程会稍微修改结果。r2r2r^2 通常,是否可以将某些统计信息应用于汇总的时间序列数据,而其他统计信息则不能?如果是这样,哪个?是线性组合的,也许吗?

2
我应该为每个社区运行单独的回归,还是社区可以简单地作为聚合模型中的控制变量?
我正在运行带有连续资产索引变量作为DV的OLS模型。我的数据来自三个相似的社区,彼此之间的地理位置非常接近。尽管如此,我认为使用社区作为控制变量很重要。事实证明,社区在1%的水平(-4.52的t评分)上具有重要意义。社区是3个不同社区中的1个的名义/类别变量,编码为1,2,3。 我的问题是,这种高度的意义是否意味着我应该对社区进行个别回归,而不是作为一个整体。否则,使用社区作为控制变量是否可以做到这一点?

6
如何在R中的data.frame中查找因子的所有唯一组合的摘要统计信息?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 我想为data.frame中每个唯一的因素组合计算data.frame中变量的摘要。我应该使用plyr做到这一点吗?我可以使用循环而不是apply(); 因此只要找出每种独特的组合就足够了。


2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.