Questions tagged «distributions»

分布是概率或频率的数学描述。

3
分布到底是什么?
我对概率统计不了解,并且希望学习。我看到“分布”一词在不同的上下文中到处使用。 例如,离散随机变量具有“概率分布”。我知道这是什么 连续随机变量具有概率密度函数,则对于,概率密度函数从到的积分是在评估的累积分布函数。x∈Rx∈Rx\in\mathbb{R}−∞−∞-\inftyxxxxxx 显然,至少在谈论连续随机变量时,“分布函数”与“累积分布函数”同义(问题:它们是否总是同义词?)。 然后是许多著名的发行。 分布分布,等等。但是分布到底是什么?它是Γ随机变量的累积分布函数吗?还是Γ随机变量的概率密度函数?ΓΓ\Gammaχ2χ2\chi^2ΓΓ\GammaΓΓ\GammaΓΓ\Gamma 但是,有限数据集的频率分布似乎是直方图。 长话短说:在概率统计中,“分布”一词的定义是什么? 我知道数学中的分布定义(配备归纳极限拓扑的测试函数集合的对偶空间的一个元素),而不是概率和统计。

5
样本均值的抽样分布如何近似于总体均值?
我尝试学习统计信息是因为我发现它是如此普遍,以至于如果我对它的理解不正确,它就会禁止我学习一些东西。我很难理解样本均值的抽样分布这一概念。我不明白某些书籍和网站对它的解释方式。我想我有一个了解,但不确定它是否正确。以下是我试图理解它的尝试。 当我们谈论某种呈正态分布的现象时,通常(并非总是)涉及人口。 我们希望使用推论统计来预测有关某些人口的某些信息,但是并没有所有的数据。我们使用随机抽样,大小为n的每个样本被选择的可能性均等。 因此,我们抽取大量样本,假设为100,然后根据中心极限定理,这些样本的均值分布将近似为正态。样本均值的平均值将近似于总体均值。 现在我不明白的是,很多时候您会看到“一个100个人的样本……”我们是否需要10个或100个100个人的样本来近似均值人口?还是我们可以抽取一个足够大的样本(比如说1000),然后说均值将近似于总体均值?还是我们从1000人中抽取了1000个人,然后从100个人中随机抽取了100个人中的100个人,然后将其用作近似值? 是否采取足够大的样本来近似(几乎)均值始终有效?人口甚至需要正常工作才能正常工作吗?

2
哪种分布最常用于建模服务器响应时间?
我有一个基于Servlet的应用程序,其中我测量完成对该Servlet的每个请求所花费的时间。我已经计算出简单的统计数据,例如均值和最大值;但是,我想进行一些更复杂的分析,因此我相信我需要对这些响应时间进行建模。 我肯定地说,响应时间遵循一些众所周知的分布,并且有充分的理由相信分布是正确的模型。但是,我不知道这种分布应该是什么。 想到对数正态和Gamma,您可以制作一种适合实际响应时间的数据。是否有人对响应时间应遵循的分布有看法?





2
从不正确的分布中采样(使用MCMC和其他方法)
我的基本问题是:如何从不正确的分布中抽样?从不正确的分布中取样甚至有意义吗? 西安的评论在某种程度上解决了这个问题,但我正在寻找有关此问题的更多详细信息。 更特定于MCMC: 在谈论MCMC和阅读论文时,作者强调要获得适当的后验分布。有著名的Geyer(1992)论文,作者忘了检查他们的后验是否正确(否则是一篇出色的论文)。 但是,假设我们有一个似然和不适当的先验分布使得所得后也不合适,并且MCMC从分发用于样品。在这种情况下,样本表明什么?此样本中有任何有用的信息吗?我知道这里的马尔可夫链就是瞬态的或零循环的。如果是零循环,是否有任何积极的收获?θF(x | θ )F(X|θ)f(x|\theta)θθ\theta 最后,在Neil G 在这里的回答中,他提到了 您通常可以从后方取样(使用MCMC),即使操作不当也是如此。 他提到这种采样在深度学习中很常见。如果这是真的,那有什么意义呢?

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
统计算法开发人员候选人有哪些好的面试问题?
我正在就统计/机器学习/数据挖掘上下文中的算法开发人员/研究人员的位置采访人们。 我正在寻找问题,以明确确定候选人对基础理论的熟悉程度,理解程度和灵活度,例如期望和方差的基​​本属性,一些常见分布等。 我当前需要解决的问题是:“有一个未知量,我们想估计。为此,我们有估计器,在给定,它们都是无偏且独立的,并且每个都有一个已知的方差,每个方差都不同。找到最优估计量,该方差是无偏的且方差最小。”XXXY1,Y2,…,YnY1,Y2,…,YnY_1, Y_2, \ldots, Y_nXXXσ2iσi2\sigma_i^2Y=f(Y1,…,Yn)Y=f(Y1,…,Yn)Y=f(Y_1,\ldots, Y_n) 我希望任何认真的候选人都可以轻松地处理它(给了一些时间进行计算),但是令我惊讶的是,据称来自相关领域的候选人竟然没有取得最小的进步。因此,我认为这是一个很好的,有区别的问题。这个问题的唯一问题是它仅仅是一个。 还有什么其他问题可以使用呢?另外,在哪里可以找到此类问题的集合?

5
同时滚动的各种多面体骰子的分布是什么?
从一组地下城与龙的骰子中取出5种柏拉图式固体。这些骰子由4面,6面(常规),8面,12面和20面骰子组成。所有数字均从数字1开始,然后向上计数至总数1。 立即将它们全部滚动,取其总和(最小总和为5,最大为50)。这样做多次。分布是什么? 显然,它们的趋势将趋向于低端,因为更低的数字多于更高的数字。但是在单个模具的每个边界处是否会有明显的拐点? [编辑:显然,似乎没有。根据其中一位评论员,平均值为(5 + 50)/2=27.5。我没想到这一点。我仍然希望看到一个图形。] [Edit2:看到n个骰子的分布分别与每个骰子相同(加在一起)更有意义。]

2
不同分布的中值绝对偏差(MAD)和SD
对于正态分布的数据,标准偏差和中位数绝对偏差通过以下方式关联:σσ\sigmaMADMAD\text{MAD} σ=Φ−1(3/4)⋅MAD≈1.4826⋅MAD,σ=Φ−1(3/4)⋅MAD≈1.4826⋅MAD,\sigma=\Phi^{-1}(3/4)\cdot \text{MAD}\approx1.4826\cdot\text{MAD}, 其中是标准正态分布的累积分布函数。Φ()Φ()\Phi() 其他分布有类似关系吗?

2
抽样分布是否可以推理?
一些贝叶斯主义者抨击常识性推断,指出“没有唯一的采样分布”,因为这取决于研究者的意图(Kruschke,Aguinis和Joo,2012,第733页)。 例如,某位研究人员开始收集数据,但在40名参与者参加之后,他的资金却被意外削减。此处如何定义采样分布(以及后续的CI和p值)?我们是否仅假设每个组成样本的N = 40?还是由不同N的样本组成,每个样本的大小由他的资金可能被削减的其他随机次数决定? 教科书中的t,F,卡方(等)零分布均假设N对于所有组成样本都是固定且恒定的,但实际上可能并非如此。对于每个不同的停止过程(例如,在一定时间间隔后或直到我的助手厌倦为止),似乎存在不同的采样分布,并且使用这些“尝试且真实的”固定N分布是不合适的。 这种批评对频繁出现的CI和p值的合法性有多大损害?有理论上的反驳吗?似乎通过攻击采样分布的概念,频繁推断的整个体系是微不足道的。 任何学术参考都将不胜感激。

4
如何对在转换后仍然不正常的非正常数据执行回归?
我有一些数据(158例)来自于李克特量表对21个调查表项目的回答。我真的希望/需要进行回归分析,以查看问卷中的哪些项目可以预测对整体项目的满意度(满意度)。响应不是正态分布的(根据KS测试),我已经以我能想到的各种方式(逆,对数,log10,sqrt,平方)对其进行了转换,并且顽固地拒绝了正态分布。残留图看起来到处都是,所以我认为进行线性回归并假装其表现正常(这也不是泊松分布)确实是不合法的。我认为这是因为答案非常接近(平均值为3.91,95%CI为3.88至3.95)。 所以,我在想我是否需要一种转换数据的新方法,或者需要某种非参数回归,但是我不知道我在SPSS中可以做的任何事情。

1
两个独立随机变量的乘积
我有大约1000个值的样本。这些数据是从两个独立的随机变量的乘积获得的ξ∗ψξ∗ψ\xi \ast \psi 。所述第一随机变量具有均匀分布ξ∼U(0,1)ξ∼U(0,1)\xi \sim U(0,1)。第二随机变量的分布未知。如何估算第二个(ψψ \psi )随机变量的分布?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.