Questions tagged «distributions»

分布是概率或频率的数学描述。

2
我得出的这种离散分布(递归差分方程)叫什么名字?
我在电脑游戏中遇到了这个发行版,并想进一步了解它的行为。这取决于在给定数量的玩家动作之后是否应该发生某个事件。除此之外的细节无关紧要。它似乎也适用于其他情况,我发现它很有趣,因为它很容易计算并产生一条长尾巴。 每一步nnn,游戏产生均匀的随机数0≤X&lt;10≤X&lt;10 \leq X < 1。如果X&lt;p(n)X&lt;p(n)X < p(n),则触发事件。事件一旦发生,游戏将重置n=0n=0n = 0 并再次运行该序列。我只对发生此问题的事件感兴趣,因为这代表了游戏使用的分布。(此外,有关多个事件的任何问题都可以通过一个事件模型来回答。) 这里的主要“异常”是此分布中的概率参数随时间增加,或者换句话说,阈值随时间增加。在示例中,它线性变化,但我想其他规则也可以适用。经过nnn步或用户的操作后, p(n)=knp(n)=kn p(n) = kn 对于一些常数0&lt;k&lt;10&lt;k&lt;10 < k < 1。在某个特定点nmaxnmaxn_{\max} ,我们得到p(nmax)≥1p(nmax)≥1p(n_{\max}) \geq 1 。仅保证在该步骤发生该事件。 我能够确定 f(n)=p(n)[1−F(n−1)]f(n)=p(n)[1−F(n−1)] f(n) = p(n)\left[1 - F(n - 1)\right] 和 表示PMF和CDF。简而言之,事件在第步将发生的概率等于概率减去事件在任何先前步骤中已经发生的概率。F(n)=p(n)+F(n−1)[1−p(n)]F(n)=p(n)+F(n−1)[1−p(n)] F(n) = p(n) + F(n-1)\left[1 - p(n)\right] f(n)f(n)f(n)F(n)F(n)F(n)nnnp(n)p(n)p(n) 这是我们的朋友蒙特卡洛(Monte Carlo)的情节,很有趣,。中位数为21,平均为22。 k≈0.003k≈0.003k \approx 0.003 这大致相当于数字信号处理的一阶差分方程,这就是我的背景,因此我发现它相当新颖。我也对可以根据任意公式变化的想法感到好奇。p(n)p(n)p(n) …

2
泊松分布是否稳定,MGF是否有反演公式?
首先,我对泊松分布是否“稳定”存在疑问。非常幼稚(而且我不太确定“稳定”的分布),我使用MGF的产品算出了Poisson分布RV的线性组合的分布。看来我得到了另一个泊松,其参数等于各个RV的参数的线性组合。所以我得出结论,泊松是“稳定的”。我想念什么? 其次,MGF是否有像特征函数一样的反演公式?


2
卡方变量的无穷集合的阶数统计(例如最小值)?
这是我第一次来,因此,请让我知道我是否可以以任何方式(包括格式,标签等)来澄清我的问题。(希望我以后可以编辑!)我试图找到参考,并尝试使用归纳法解决自己,但都失败了。 我正在尝试简化一种分布,该分布似乎可以简化为具有不同自由度的无数独立随机变量的无穷集合的有序统计。具体而言,在独立的中第个最小值的分布是什么?χ2χ2\chi^2mmmχ22,χ24,χ26,χ28,…χ22,χ42,χ62,χ82,…\chi^2_2,\chi^2_4,\chi^2_6,\chi^2_8,\ldots 我会对特殊情况感兴趣:(独立)的最小值的分布是什么?m=1m=1m=1χ22,χ24,χ26,…χ22,χ42,χ62,…\chi^2_2,\chi^2_4,\chi^2_6,\ldots 对于最小的情况,我能够将累积分布函数(CDF)编写为无限乘积,但无法进一步简化。我使用了的CDF 为 (对于m = 1,这确认了下面关于等价指数为2的等价物的第二条评论。)则最小CDF可以写为F_ {min}(x)= 1-(1-F_2(x) )(1-F_4(x))\ ldots = 1- \ prod_ {m = 1} ^ \ infty(1-F_ {2m}(x))= 1- \ prod_ {m = 1} ^ \ infty \ left (e ^ {-x / 2} \ sum_ {k = 0} ^ {m-1} \ frac {x ^ …




3
离散分布近似
当您知道离散分布X的均值\ mu,方差\ sigma ^ 2,偏度\ gamma_1和超峰度\ gamma_2时,对于给定的两个整数m,n逼近的最佳方法是什么,并且从形状\ gamma_1和\ gamma_2的(非零)度量中清楚看出,法线近似不适合吗?米,Ñ μ σ 2 γ 1 γ 2 X γ 1 γ 2P[R [ Ñ ≤ X≤ 米]Pr[n≤X≤m]Pr[n \leq X \leq m]米,Ñm,nm,nμμ\muσ2σ2\sigma^2γ1个γ1\gamma_1γ2γ2\gamma_2XXXγ1个γ1\gamma_1γ2γ2\gamma_2 通常,我会使用带整数校正的正态近似值... P[R [ (Ñ - ½)≤ X≤ (m + ½)] = P[R [ (Ñ - ½)- μσ≤ ž≤ (米+ ½)- …


1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 &lt;- function(x,z,sx=0.3,sz=0.4) { x &lt;- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n &lt;- 500 x &lt;- runif(n)/20;z &lt;- runif(n); xs &lt;- seq(0,1,length=30)/20;zs &lt;- seq(0,1,length=30) pr &lt;- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth &lt;- matrix(test1(pr$x,pr$z),30,30) f &lt;- test1(x,z) y &lt;- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
凭直觉,为什么交叉熵可以度量两个概率分布的距离?
对于两个离散分布和,交叉熵定义为pppqqq H(p ,q)= − ∑Xp (x )对数q( x )。H(p,q)=-∑Xp(X)日志⁡q(X)。H(p,q)=-\sum_x p(x)\log q(x). 我不知道为什么这将是两个概率分布之间距离的直观度量? 我看到是熵p,其中的措施“惊喜” p。H(p,q)是用q代替p的度量。我仍然不理解该定义背后的直观含义。H(p ,p )H(p,p)H(p,p)ppppppH(p ,q)H(p,q)H(p,q)pppqqq

1
衡量工作日内分布的均匀性
我有一个与此问题类似的问题: 如何测量分布的不均匀性? 我在一周中的每一天都有一组概率分布。我想测量每个分布与(1 / 7,1 / 7,...,1/7)的接近程度。 目前,我正在使用上述问题的答案;L2-范数,当分布在一天中的某一天质量为1时,值为1,对于(1 / 7,1 / 7,...,1/7)最小。我线性缩放它,使其在0到1之间,然后将其翻转,使0表示完全不均匀,而1表示完全均匀。 这很好用,但是我有一个问题。它将每个工作日均视为7维空间中的一个维度,因此不考虑天数的接近性;换句话说,即使(1 / 2,1 / 2,0,0,0,0,0)和(1 / 2,0,0,1 / 2,0,0,0)的得分相同尽管从某种意义上说,后者更“分散”和统一,理想情况下应该获得更高的分数。显然增加了复杂性,即天的顺序是循环的。 我该如何改变这种启发式方法来考虑天的临近?

4
将数据分为N个相等的组
我有一个数据框,其中包含4列中的值: 例如:ID,price,click count,rating 我想做的是将此数据帧“拆分”为N个不同的组,其中每个组将具有相同数量的行,且行,点击数和评级属性的分布相同。 任何建议都将受到高度赞赏,因为我对如何解决这个问题丝毫不了解!
11 r  distributions 

2
什么是对数赔率分布?
我正在阅读一本关于机器学习的教科书(Witten等人的《数据挖掘》,2011年),并且遇到了这段话: ...此外,可以使用不同的分布。尽管通常对于数字属性来说,正态分布是一个不错的选择,但它不适用于具有预定最小值但没有上限的属性;在这种情况下,“对数正态”分布更为合适。可以通过“对数奇数”分布来模拟上下边界的数值属性。 我从未听说过这种分布。我在Google上搜索了“对数分布”,但找不到任何相关的完全匹配项。有人可以帮我吗?这种分布是什么,为什么对上下有界的数字有帮助? PS:我是软件工程师,而不是统计学家。

3
最小二乘什么时候会是个坏主意?
如果我有回归模型: 其中 和,ÿ= Xβ+ εY=Xβ+ε Y = X\beta + \varepsilon V [ε]=Id∈ [Rn × nV[ε]=Id∈Rn×n\mathbb{V}[\varepsilon] = Id \in \mathcal{R} ^{n \times n}E [ε]=(0,…,0)E[ε]=(0,…,0)\mathbb{E}[\varepsilon]=(0, \ldots , 0) 什么时候使用(的普通最小二乘估计量)对估计量而言是一个糟糕的选择?β最小二乘βOLS\beta_{\text{OLS}}ββ\beta 我试图找出一个最小二乘效果不好的例子。因此,我正在寻找能够满足先前假设但产生不良结果的错误分布。如果分布族由均值和方差决定,那将是很大的。如果没有,也可以。 我知道“不好的结果”有点模糊,但我认为这个想法是可以理解的。 为了避免混淆,我知道最小二乘不是最佳的,并且有更好的估算器,例如岭回归。但这不是我的目标。我想要一个最小二乘不自然的例子。 我可以想象,误差向量位于的非凸区域中,但是我不确定。ϵϵ\epsilon[RñRn\mathbb{R}^n 编辑1:作为帮助答案的想法(我想不出进一步的方法)。为蓝色。因此,考虑线性无偏估计量何时不是一个好主意可能会有所帮助。β最小二乘βOLS\beta_{\text{OLS}} 编辑2:正如Brian指出的那样,如果的条件不好,则是一个坏主意,因为方差太大,应改用Ridge回归。我更感兴趣的是知道应该采用哪种分布,以使最小二乘无效。XX′XX′XX'β最小二乘βOLS\beta_{\text{OLS}}εε\varepsilon β最小二乘〜β+(X′X)− 1X′εβOLS∼β+(X′X)−1X′ε\beta_{\text{OLS}} \sim \beta+(X'X)^{-1}X'\varepsilon是否与零均值和方差的身份矩阵分布,使这个估计不是有效?εε\varepsilon

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.