Questions tagged «distributions»

分布是概率或频率的数学描述。

3
直方图中的间隔数是否有上限?
我读过的书本,介绍如何选择几篇文章和摘录良好的间隔数(箱)的数据集的直方图,但我想知道如果有一个硬最高基于点的数量区间的数数据集或其他标准。 背景:我问的原因是我试图基于研究论文中的程序编写软件。该过程的第一步是从数据集中创建多个直方图,然后根据特征函数(由本文的作者定义)选择最佳分辨率。我的问题是作者没有提到要测试的间隔数的上限。(我要分析数百个数据集,每个数据集可以具有不同的“最佳”箱数。另外,选择最佳箱数也很重要,因此手动查看结果并选择一个好的箱数不会工作。) 仅仅将最大间隔数设置为数据集中的点数是一个很好的准则,还是在统计中通常使用其他标准?

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
物流增长数据的误差分布是什么?
在生态学中,我们经常使用逻辑增长方程: ñŤ=ķñ0Ë[R Ťķ+ñ0Ër t − 1Nt=KN0ertK+N0ert−1 N_t = \frac{ K N_0 e^{rt} }{K + N_0 e^{rt-1}} 要么 ñŤ=ķñ0ñ0+ (K-ñ0)Ë- - [R ŤNt=KN0N0+(K−N0)e−rt N_t = \frac{ K N_0}{N_0 + (K -N_0)e^{-rt}} 其中是承载能力(达到最大密度),是初始密度,是增长率,是从初始开始的时间。ķKKñ0N0N_0[RrrŤtt 的值具有一个的上限和一个下限,下限为。ñŤNtN_t(K)(K)(K)(ñ0)(N0)(N_0)000 此外,在我的特定上下文中,使用光密度或荧光进行测量,这两者均具有理论最大值,因此具有很强的上限。ñŤNtN_t 因此,围绕的误差最好用有界分布来描述。ñŤNtN_t 在值,该分布可能具有很强的正偏度,而在值接近K时,该分布可能具有很强的负偏度。因此,该分布可能具有可以链接到的形状参数。ñŤNtN_tñŤNtN_tñŤNtN_t 方差也可以随着增加。ñŤNtN_t 这是一个图形示例 与 K<-0.8 r<-1 N0<-0.01 t<-1:10 max<-1 可以用 library(devtools) source_url("https://raw.github.com/edielivon/Useful-R-functions/master/Growth%20curves/example%20plot.R") 考虑到模型和提供的经验信息,围绕的理论误差分布是?ñŤNtN_t 此分布的参数与或时间值关系(如果使用参数,则该模式不能与直接关联,例如logis正态)?ñŤNtN_tñŤNtN_t 这个分布是否具有在实现的密度函数?[RRR 到目前为止探索的方向: …
10 r  distributions  pdf  ecology 

1
证明序列减少(通过绘制大量点来支持)
上个月我在SE上发布的许多问题都是为了帮助我解决这一特定问题。问题均已回答,但我仍然无法提出解决方案。因此,我认为我应该直接问我要解决的问题。 让 Xn∼FnXn∼FnX_n \sim F_n,在哪里 Fn= (1 − (1 −Fn − 1)C)CFn=(1−(1−Fn−1)c)cF_n = (1-(1-F_{n-1})^c)^c, F0= xF0=xF_0 = x, Ç ≥ 2c≥2c\geq 2 (整数),以及每个 FñFnF_n 超过CDF (0 ,1 )(0,1)(0,1)。 我想证明 EXnEXn\mathbb{E}X_n 减少 nnn 对所有人 ccc (甚至对于任何特定 ccc)!我可以证明FnFnF_n 以独特的解收敛到狄拉克质量 xc=(1−(1−x)c)c)xc=(1−(1−x)c)c)x_c = (1-(1-x)^c)^c) 对于 c=2c=2c=2, x2=(3−5–√)/2≈.38x2=(3−5)/2≈.38x_2 = (3-\sqrt{5})/2 \approx .38。当看CDFS增加时nnn都是一样的 ccc,所有cdf交叉在 xnxnx_n。的价值F(x)F(x)F(x) 减少值 …

5
为什么连续均匀分布中的概率之和不是无穷大?
上面显示了均匀分布(连续)的概率密度函数。曲线下的面积为1-这很有意义,因为概率分布中所有概率的总和为1。 形式上,上述概率函数(f(x))可以定义为 [a,b]中x的1 /(ba) 否则为0 考虑到我必须在a(例如2)和b(例如6)之间选择一个实数。这使均匀概率= 0.25。但是,由于在该间隔中存在无限数量的数字,所有概率之和是否不应该等于无穷大?我在俯视什么? f(x)不是x出现的概率吗?

3
统计量与伽玛分布的独立性
设是来自伽马分布G a m m a (α ,β )的随机样本。X1个,。。。,XñX1,...,XnX_1,...,X_nģ 一米米一个(α ,β)Gamma(α,β)\mathrm{Gamma}\left(\alpha,\beta\right) 让和小号2是样品均值和样本方差,分别。X¯X¯\bar{X}小号2S2S^2 然后证明或反驳该和小号2 / ˉ X 2是独立的。X¯X¯\bar{X}小号2/ X¯2S2/X¯2S^2/\bar{X}^2 我的尝试:由于,我们需要检查的独立性ˉX和(X我小号2/ X¯2= 1n − 1∑ñ我= 1(X一世X¯− 1 )2S2/X¯2=1n−1∑i=1n(XiX¯−1)2S^2/\bar{X}^2 = \frac{1}{n-1} \sum_{i=1}^n \left(\frac{X_i}{\bar{X}}-1\right)^2 X¯X¯\bar{X},但我应该怎么建立它们之间的独立性?(X一世X¯)ñ我= 1(XiX¯)i=1n\left(\frac{X_i}{\bar{X}} \right)_{i=1}^{n}

1
在给定时刻生成随机变量
我知道前分配时刻。我也知道我的分布是连续的,单峰的并且形状良好(看起来像伽马分布)。是否有可能:ññN 使用某种算法,从该分布生成样本,在极限条件下哪些样本将具有完全相同的矩? 通过分析解决此问题? 我知道,除非有无限的时刻,否则这个问题不可能有独特的解决方案。我很高兴有任何东西。 由于评论的澄清: 我不需要恢复原始发行版。在给定的时刻我需要任何东西。

1
0删减的多元法线的均值和方差是多少?
设在。的均值和协方差矩阵是什么(最大逐元素计算)?Z∼N(μ,Σ)Z∼N(μ,Σ)Z \sim \mathcal N(\mu, \Sigma)RdRd\mathbb R^dZ+=max(0,Z)Z+=max(0,Z)Z_+ = \max(0, Z) 例如,这是因为,如果我们在深层网络中使用ReLU激活功能,并通过CLT假定给定层的输入近似正常,则这就是输出的分布。 (我确信很多人以前都已经计算过了,但是我找不到以合理可读的方式列出的结果。)


2
显示
如果,则找到。X∼C(0,1)X∼C(0,1)X\sim\mathcal C(0,1)Y=2X1−X2Y=2X1−X2Y=\frac{2X}{1-X^2} 我们有FY(y)=Pr(Y≤y)FY(y)=Pr(Y≤y)F_Y(y)=\mathrm{Pr}(Y\le y) =Pr(2X1−X2≤y)=Pr(2X1−X2≤y)\qquad\qquad\qquad=\mathrm{Pr}\left(\frac{2X}{1-X^2}\le y\right) =⎧⎩⎨⎪⎪⎪⎪⎪⎪Pr(X∈(−∞,−1−1+y2√y])+Pr(X∈(−1,−1+1+y2√y]),ify&gt;0Pr(X∈(−1,−1+1+y2√y])+Pr(X∈(1,−1−1+y2√y]),ify&lt;0={Pr(X∈(−∞,−1−1+y2y])+Pr(X∈(−1,−1+1+y2y]),ify&gt;0Pr(X∈(−1,−1+1+y2y])+Pr(X∈(1,−1−1+y2y]),ify&lt;0\qquad\qquad=\begin{cases} \mathrm{Pr}\left(X\in\left(-\infty,\frac{-1-\sqrt{1+y^2}}{y}\right]\right)+\mathrm{Pr}\left(X\in\left(-1,\frac{-1+\sqrt{1+y^2}}{y}\right]\right),\text{if}\quad y>0\\ \mathrm{Pr}\left(X\in\left(-1,\frac{-1+\sqrt{1+y^2}}{y}\right]\right)+\mathrm{Pr}\left(X\in\left(1,\frac{-1-\sqrt{1+y^2}}{y}\right]\right),\text{if}\quad y<0 \end{cases} 我不知道上述区分大小写是否正确。 另一方面,以下似乎是一个更简单的方法: 我们可以使用身份来写Y=tan(2tan−1X)Y=tan⁡(2tan−1⁡X)Y=\tan(2\tan^{-1}X)2tanz1−tan2z=tan2z2tan⁡z1−tan2⁡z=tan⁡2z\frac{2\tan z}{1-\tan^2z}=\tan 2z 现在,X∼C(0,1)⟹tan−1X∼R(−π2,π2)X∼C(0,1)⟹tan−1⁡X∼R(−π2,π2)X\sim\mathcal C(0,1)\implies\tan^{-1}X\sim\mathcal R\left(-\frac{\pi}{2},\frac{\pi}{2}\right) ⟹2tan−1X∼R(−π,π)⟹2tan−1⁡X∼R(−π,π)\qquad\qquad\qquad\quad\implies 2\tan^{-1}X\sim\mathcal R(-\pi,\pi) ⟹tan(2tan−1X)∼C(0,1)⟹tan⁡(2tan−1⁡X)∼C(0,1)\qquad\qquad\qquad\quad\implies\tan\left(2\tan^{-1}X\right)\sim\mathcal C(0,1),最后一个是2对1转换。 但是如果要求我从定义中得出的分布,我想第一种方法就是如何进行。计算有点混乱,但是我得出正确的结论吗?也欢迎任何其他解决方案。YYY Johnson-Kotz-Balakrishnan的连续单变量分布(Vol.1)突出了柯西分布的这一特性。事实证明,这只是一般结果的特例。

2
非随机伯努利变量的这个随机和的概率分布是多少?
我试图找到随机分布的变量总数之和的概率分布。这是一个例子: 约翰在客户服务呼叫中心工作。他接到有问题的电话,并设法解决问题。他无法解决的问题,他将其转发给上级。假设他一天接到的电话数量遵循Poisson分布,平均值为。每个问题的难度从非常简单的东西(他绝对可以解决)到非常专业的问题(他都不知道如何解决)不等。假设他将能够解决第i个问题的概率p i遵循具有参数α和β的Beta分布,并且与先前的问题无关。他一天解决的电话数量分布如何?μμ\mup一世pip_iαα\alphaββ\beta 更正式地说,我有: 为我= 0 ,1 ,2 ,。。。,Nÿ= 我(N&gt; 0 )∑ñ我= 0X一世Y=I(N&gt;0)∑i=0NXiY = I(N > 0)\sum_{i = 0}^{N} X_i我= 0 ,1 ,2 ,。。。,Ni=0,1,2,...,Ni = 0, 1, 2, ..., N 其中,(X 我| p 我)〜乙Ë ř Ñ Ò ù 升升我(p 我)和p 我〜乙Ë 吨一个(α ,β )ñ〜P ø 我小号小号ø Ñ(μ )N∼Poisson(μ)N \sim \mathrm{Poisson}(\mu)(X一世| …

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
根据数学理论从“倾斜均匀分布”生成随机数
出于某种目的,我需要从“倾斜均匀”分布中生成随机数(数据)。该分布的“斜率”可能会在某个合理的间隔内变化,然后我的分布应基于该斜率从均匀变为三角形。这是我的推论: 让我们简化一下,生成数据格式为到000(蓝色,红色是均匀分布)。为了获得蓝线的概率密度函数,我只需要那条线的方程式。从而:乙BB F(x )= t g(φ )X + ÿ(0 )f(x)=tg(φ)x+Y(0)f(x) = tg(\varphi)x + Y(0) 由于(图片): Ť g ^(φ )ÿ(0 )= 1 / B - Y(0 )B / 2= 1乙- 吨克(φ )B2tg(φ)=1/B−Y(0)B/2Y(0)=1B−tg(φ)B2\begin{align} tg(\varphi) &= \frac{1/B - Y(0)}{B/2} \\[5pt] Y(0) &= \frac{1}{B} - tg(\varphi)\frac{B}{2} \end{align} 我们有: F(x )= t g(φ )X + …

2
Markov,Chebyshev不等式严密的随机变量
我对构造Markov或Chebyshev不等式严密的随机变量感兴趣。 一个简单的示例是以下随机变量。 。其均值为0,方差为1,并且 P (| X | ≥ 1 )= 1。对于这个随机变量,chebyshev是紧的(保持相等)。P(X= 1 )=P(X=−1)=0.5P(X=1)=P(X=−1)=0.5P(X=1)=P(X=-1) = 0.5P(|X|≥1)=1P(|X|≥1)=1P(|X| \ge 1) = 1 P(|X|≥1)≤Var(X)12=1P(|X|≥1)≤Var(X)12=1P(|X|\ge 1) \le \frac{\text{Var}(X)}{1^2} = 1 是否存在马尔可夫和切比雪夫紧的其他有趣(非均匀)随机变量?一些例子将是很好的。

1
法线的二次形式的分布
我试图找出 这里 Ž 我〜Ñ(0 ,1 ),IID我知道,单独服用各条款, Ñ Σ我= 1 ž 2 我〜χ 2(Ñ ) 和 1(n−1)∑i=1nZ2i−(∑i=1nZi)2(∗)(n−1)∑i=1nZi2−(∑i=1nZi)2(∗) (n-1) \sum_{i=1}^n Z_i^2 - \left( \sum_{i=1}^n Z_i \right)^2 \qquad (*) Zi∼N(0,1)Zi∼N(0,1)Z_i \sim \mathcal{N}(0,1)∑i=1nZ2i∼χ2(n)∑i=1nZi2∼χ2(n) \sum_{i=1}^n Z_i^2 \sim \chi^2(n) 但是我不确定(*)的分布1n(∑i=1nZi)2∼χ2(1).1n(∑i=1nZi)2∼χ2(1). \frac{1}{n}\left( \sum_{i=1}^n Z_i \right)^2 \sim \chi^2(1).

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.