Questions tagged «application»

统计和统计建模的应用

5
学习统计思维的好游戏?
有没有能让玩家“像统计学家一样思考”的游戏? 例如,lightbot让您“像程序员一样思考”(以非常基本的方式)。是否有为娱乐或教学而设计的游戏,可以帮助您熟悉相关性,p值,最小二乘法,方差,各种概率分布,回归均值等基本概念。 一个例子就是这种相关性猜测游戏。 (我之所以问是因为我正在考虑开发这样的应用程序,并且试图广泛了解现有的工作内容)

2
人为全球变暖的证据达到“黄金标准”:他们是如何做到的?
Reuter在2019年2月25日发表的文章中的这一消息目前已成为新闻: 人为全球变暖的证据达到“黄金标准” [科学家]说,人们对人类活动正在升高地球表面的热量的信心达到了“五西格玛”水平,这是一个统计量表,这意味着只有在这种情况下,如果存在没有变暖。 我相信这是指本文“庆祝气候变化科学三大关键事件的周年纪念日”,其中包含一个图,如下图所示(这是一个草图,因为我找不到原始的,类似的开源图像免费图片在这里找到)。来自同一研究小组的另一篇文章似乎是更原始的来源(此处使用1%的有效度而不是)。5个σ5σ5\sigma 该图显示了三个不同研究组的测量结果:遥感系统,卫星应用和研究中心以及位于汉斯维尔的阿拉巴马大学。 该图显示了信噪比随趋势长度变化的三个上升曲线。 所以,在某种程度上科学家在测量了全球变暖(或气候变化?)的人为信号水平,这显然是一些证据的科学标准。5个σ5σ5\sigma 对我来说,这样的图具有很高的抽象水平,它引发了许多问题,并且总的来说,我对“他们是如何做到的?”这个问题感到好奇。。我们如何用简单的单词(不是那么抽象)来解释这个实验,又如何解释级别的含义?††^{\dagger}5个σ5σ5\sigma 我在这里问这个问题是因为我不想讨论气候。相反,我想要有关统计内容的答案,尤其是要弄清楚使用/声明的语句的含义。5个σ5σ5 \sigma ††^\dagger什么是原假设?他们如何设置实验以获得人为信号?信号的影响大小是多少?只是一个很小的信号,而我们现在只是因为噪声在减小而测量,还是信号在增大?为创建统计模型做出什么样的假设,通过它们它们可以确定5 sigma阈值的交叉点(独立性,随机效应等)?为什么不同研究组的三个曲线不同,它们具有不同的噪声还是具有不同的信号?对于后者,对于概率和外部有效性的解释意味着什么?

5
常见分布的真实示例
我是一名研究生,对统计感兴趣。我总体上喜欢这种材料,但是有时我很难考虑将其应用于现实生活中。具体来说,我的问题是关于常用的统计分布(正态-β-伽玛等)。我猜在某些情况下,我得到了使分布变得非常漂亮的特定属性-例如指数的无记忆属性。但是对于其他许多情况,我对教科书中常见发行版的重要性和应用领域都没有直觉。 可能有很多很好的消息源可以解决我的问题,如果您能分享这些问题,我将非常高兴。如果我可以将其与现实生活中的示例联系起来,那么我会更加热衷于该材料。

6
什么是一些有趣且写得很好的应用统计论文?
有哪些好的论文描述了统计学的应用,它们既有趣又有益于阅读?需要明确的是,我并不是真正在寻找描述新的统计方法的论文(例如,关于最小角度回归的论文),而是寻找描述如何解决实际问题的论文。 例如,第二本“交叉验证期刊俱乐部”(Cross-Validated Journal Club)的气候论文就是其中一件适合我所寻找的论文。我正在寻找更多类似于统计的论文,而不是机器学习论文,但我想这是一种模糊的区分(我将Netflix奖论文归类为临界点,而将情感分析论文归为某种东西。我不在寻找)。 我之所以问是因为,我所见过的大多数统计应用要么是您在教科书中看到的小片段,要么是与我自己的作品有关的东西,所以我想扩展一下。


4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

5
James-Stein在野外收缩?
我被詹姆斯·斯坦因收缩的思想所吸引(即,对可能独立的法线向量的一次观测的非线性函数可能是对随机变量均值的更好估计,其中“更好”是通过平方误差来衡量的) )。但是,我从未在应用程序工作中看到它。显然,我没有足够的阅读能力。是否有经典的例子说明James-Stein在实际应用中改进了估计?如果不是,这种缩水仅仅是出于好奇吗?




4
良好的范例/书籍/资源,可学习有关应用机器学习的知识(不仅限于ML本身)
我以前参加过ML课程,但是现在我正在从事与ML相关的项目工作,因此我在实际应用中费了不少力气。我敢肯定,我正在做的事情已经过研究/处理,但是我找不到特定的主题。 我在网上找到的所有机器学习示例都很简单(例如,如何在Python中使用KMeans模型并查看预测)。我正在寻找有关如何实际应用这些资源的良好资源,也许是大规模机器学习实现和模型培训的代码示例。我想学习如何有效地处理和创建新数据,从而使ML算法更加有效。

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.