Questions tagged «convergence»

收敛通常是指随着样本量趋于无穷大,一定样本量的序列趋于恒定。收敛还是迭代算法的一个属性,可以稳定在某个目标值上。

1
二项式分布函数何时高于/低于其极限泊松分布函数?
令表示二项分布函数(DF),其参数和在: \ begin {equation} B(n,p,r)= \ sum_ {i = 0} ^ r \ binom {n} {i} p ^ i(1-p)^ {ni},\ end {equation } 和让F(\ NU,R)表示泊松DF与参数A \在\ mathbb R 2 +在评价中的R \ \ {0,1,2,\ ldots \} : \开始{方程} F(一,r)= e ^ {-a} \ sum_ {i = 0} ^ r \ frac …

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


2
为什么期望最大化算法可以保证收敛到局部最优值?
我已经阅读了一些关于EM算法的解释(例如,来自Bishop的模式识别和机器学习以及Roger和Gerolami的第一门机器学习课程)。我理解EM的派生是可以的。我还理解了为什么算法会覆盖某些东西:在每一步我们都会改善结果,并且似然性以1.0为界,因此,通过使用一个简单的事实(如果函数增加并且有界则收敛),我们知道算法会收敛为一些解决方案。 但是,我们怎么知道它是局部最小值?在每一步中,我们仅考虑一个坐标(潜在变量或参数),因此我们可能会遗漏某些东西,例如局部最小值要​​求同时移动两个坐标。 我相信这与EM是一个实例的一般爬山算法类似。因此,对于一般的爬山算法,对于函数f(x,y)= x * y,我们会遇到这个问题。如果我们从(0,0)点开始,那么只有同时考虑两个方向,我们才能从0值向上移动。

2
极值理论-显示:从正常到冈贝尔
的最大值 simiid根据极值理论,标准正态收敛于标准Gumbel分布。X1,…,Xn.∼X1,…,Xn.∼X_1,\dots,X_n. \sim 我们如何证明这一点? 我们有 P(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(\max X_i \leq x) = P(X_1 \leq x, \dots, X_n \leq x) = P(X_1 \leq x) \cdots P(X_n \leq x) = F(x)^n 我们需要查找/选择常数的序列,以便:F \ left(a_n x + b_n \ right)^ n \ rightarrow ^ {n \ rightarrow \ infty} G(x )= e ^ {-\ exp(-x)}an>0,bn∈Ran>0,bn∈Ra_n>0,b_n\in\mathbb{R}F(anx+bn)n→n→∞G(x)=e−exp(−x)F(anx+bn)n→n→∞G(x)=e−exp⁡(−x)F\left(a_n …


3
具有非零渐近方差的渐近一致性-它代表什么?
这个问题以前已经提出过,但是我想问一个具体的问题,试图得出一个可以澄清(和分类)它的答案: 在“穷人的无症状”中, (a)概率收敛为常数的一系列随机变量 与之相反 (b)一系列随机变量,其概率收敛于一个随机变量(因此分布于该变量)。 但是在“智者的渐近”中,我们也可以 (c)一系列随机变量,它们的概率收敛到一个常数,同时在极限处保持非零方差。 我的问题是(从下面我自己的探索性答案中窃取): 我们如何才能理解渐近一致但也具有非零的有限方差的估计量?这种差异反映了什么?它的行为与“通常的”一致估计量有何不同? 与(c)中描述的现象相关的线程(另请参见注释): 一致估计和无偏估计之间有什么区别? /stats/120553/convergence-of-an-estimator-with-infinite-variance 为什么渐近一致估计量在无穷大处没有零方差? 几乎可以确定收敛和极限方差为零

1
中心极限定理和大数定律
关于中央极限定理(CLT),我有一个非常初学者的问题: 我知道CLT指出iid随机变量的均值近似为正态分布(对于,其中n是求和的索引)或标准化随机变量将具有标准正态分布。n→∞n→∞n \to \inftynnn 现在,《大数定律》粗略地说,iid随机变量的均值(概率或几乎确定地)收敛至其期望值。 我不明白的是:如果按照CLT的规定,均值大致呈正态分布,那么它又如何同时收敛到期望值呢? 对我而言,收敛将意味着,随着时间的推移,平均值取非预期值的概率几乎为零,因此,分布的确不是正态的,而是除预期值外,各处均几乎为零。 欢迎任何解释。


5
为什么k-均值不给出全局最小值?
我读到k-means算法仅收敛到局部最小值,而不收敛到全局最小值。为什么是这样?我可以从逻辑上考虑初始化如何影响最终的聚类,并且存在次优聚类的可能性,但是我没有找到任何可以从数学上证明这一点的东西。 另外,为什么k-means是一个迭代过程?我们不能仅将目标函数wrt与质心进行部分区分,将其等于零以找到使该函数最小化的质心吗?为什么我们必须使用梯度下降来逐步达到最小?

2
中心极限定理的动力学系统观点?
(最初发布于MSE。) 我已经看到许多关于经典中心极限定理的启发式讨论,都把正态分布(或任何稳定分布)说成是概率密度空间中的“吸引子”。例如,在Wikipedia的治疗方法顶部考虑以下句子: 在更一般的用法中,中心极限定理是概率论中一组弱收敛定理中的任何一个。他们都表达了这样一个事实,即许多独立且均匀分布的(iid)随机变量的总和,或者具有特定依赖类型的随机变量将倾向于根据一小部分吸引子分布进行分布。当iid变量的方差是有限的时,吸引子分布为正态分布。 这种动态系统语言很有启发性。费勒在第二卷中对CLT的处理中也提到了“吸引力”(我想知道这是否是该语言的来源),而本笔记中的尤瓦尔·弗利姆斯(Yuval Flimus)甚至谈到了“吸引力盆地”。(我不认为他的意思是“ 事先可以推断出吸引盆的确切形式”,而是“ 事先可以推断出吸引子的确切形式”;但是,语言在那里。)我的问题是:这些可以吗?动态类比可以精确吗?我不知道它们在哪本书中-尽管许多书确实强调了正态分布对于卷积下的稳定性(以及傅立叶变换下的稳定性)是特殊的。这基本上告诉我们,法线很重要,因为它是一个固定点。CLT进一步发展,告诉我们这不仅是一个固定点,而且是吸引子。 为了使此几何图形精确,我假设将相空间作为一个合适的无限维函数空间(概率密度的空间),并将演化算子与初始条件重复卷积。但是我不知道使这张照片起作用的技术性或是否值得追求。 我猜想,因为我找不到确实可以明确采用这种方法的治疗方法,所以我认为这是可以做的或者很有趣,这肯定存在一些错误。如果是这样,我想听听为什么。 编辑:在整个Math Stack Exchange和MathOverflow中,读者可能会对三个类似的问题感兴趣: 高斯分布作为某些分布空间(MO)中的固定点 通过最大熵(MO)的中心极限定理 是否有通过某些不动点定理证明中心极限定理?(MSE)

1
glmer中收敛警告的含义
我正在使用R中包中的glmer函数lme4,并且正在使用bobyqa优化器(即我的默认设置)。我收到警告,我很好奇这意味着什么。 Warning message: In optwrap(optimizer, devfun, start, rho$lower, control = control, : convergence code 3 from bobyqa: bobyqa -- a trust region step failed to reduce q 我搜索“信任区域步骤无法减少q”。在minqa程序包中找到了一些信息,上面写着 “请咨询Powell进行解释”。我做到了(如果需要,您也可以!请参见下面的参考资料和指向它们的链接),但是我不明白。实际上,我没有找到关于减少q的任何信息。 MJD Powell(2007)“ NEWUOA在无导数的无约束最小化方面的发展”,剑桥大学,应用数学和理论物理系,数值分析组,报告NA2007 / 05,http: //www.damtp.cam.ac.uk/ user / na / NA_papers / NA2007_05.pdf。 MJD Powell(2009),“没有导数的有界约束优化的BOBYQA算法”,报告号DAMTP 2009 / NA06,英国剑桥大学数学科学中心。http://www.damtp.cam.ac.uk/user/na/NA_papers/NA2009_06.pdf。 附言:我知道我可以更改优化器,并且我将查看是否可以得到没有警告或错误的输出。根据Ben Bolker的评论/答案,我还将检查渐变和粗麻布。我使用的是glmer内dredge从MuMIn,我不知道,如果本的答案没有一些额外的工作,修修补补,但我会在上面工作,一旦我的电脑上完成它在做什么,反正我离题了。 更新资料 …

1
斯坦
我正在浏览Stan文档,可以从此处下载。我对他们实施Gelman-Rubin诊断程序特别感兴趣。最初的论文Gelman&Rubin(1992)定义了潜在的水垢减少因子(PSRF)如下: 令为第个采样的马尔可夫链,并让整个独立的链采样。假设为第链的均值,而为整体均值。定义 其中 并定义Xi,1,…,Xi,NXi,1,…,Xi,NX_{i,1}, \dots , X_{i,N}iiiMMMX¯i⋅X¯i⋅\bar{X}_{i\cdot}iiiX¯⋅⋅X¯⋅⋅\bar{X}_{\cdot \cdot}W=1M∑m=1Ms2m,W=1M∑m=1Msm2,W = \dfrac{1}{M} \sum_{m=1}^{M} {s^2_m}, s2m=1N−1∑t=1N(X¯mt−X¯m⋅)2.sm2=1N−1∑t=1N(X¯mt−X¯m⋅)2.s^2_m = \dfrac{1}{N-1} \sum_{t=1}^{N} (\bar{X}_{m t} - \bar{X}_{m \cdot})^2\,. BBB B=NM−1∑m=1M(X¯m⋅−X¯⋅⋅)2.B=NM−1∑m=1M(X¯m⋅−X¯⋅⋅)2.B = \dfrac{N}{M-1} \sum_{m=1}^{M} (\bar{X}_{m \cdot} - \bar{X}_{\cdot \cdot})^2 \,. 定义 使用估算PSRF ,其中 其中。V^=(N−1N)W+(M+1MN)B.V^=(N−1N)W+(M+1MN)B.\hat{V} = \left(\dfrac{N-1}{N} \right)W + \left( \dfrac{M+1}{MN} \right)B\,. [R= VR^−−√R^\sqrt{\hat{R}}d ˚F = 2 V / …

1
高维回归:为什么
我正在尝试阅读有关高维回归领域的研究;当大于,即。似乎经常出现在回归估计量的收敛速度方面。Ñ p > > Ñ 日志p / Ñpppnnnp>>np>>np >> nlogp/nlog⁡p/n\log p/n 例如,这里的等式(17)表示套索拟合满足 1β^β^\hat{\beta}1n∥Xβ^−Xβ∥22=OP(σlogpn−−−−−√∥β∥1).1n‖Xβ^−Xβ‖22=OP(σlog⁡pn‖β‖1). \dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,. 通常,这还意味着logplog⁡p\log p应该小于nnn。 关于\ log p / n的比例为何logp/nlog⁡p/n\log p/n如此突出,是否有任何直觉? 而且,从文献中看来,当\ log p \ geq n时,高维回归问题变得复杂logp≥nlog⁡p≥n\log p \geq n。为什么会这样呢? 有没有很好的参考资料来讨论ppp和nnn应增长多快的问题?

1
GLM中的对数似然性是否可以保证收敛到全局最大值?
我的问题是: 是否可以保证广义线性模型(GLM)收敛到全局最大值?如果是这样,为什么? 此外,链接函数对确保凸性有哪些约束? 我对GLM的理解是它们最大化了高度非线性的似然函数。因此,我可以想象有几个局部最大值,您收敛到的参数集取决于优化算法的初始条件。但是,在进行了一些研究之后,我没有找到一个单一的来源来表明存在多个局部最大值。此外,我对优化技术不是很熟悉,但是我知道Newton-Raphson方法和IRLS算法非常容易出现局部最大值。 请尽可能在直观和数学的基础上进行解释! 编辑:dksahuji回答了我的原始问题,但我想在上面添加后续问题[ 2 ]。(“链接函数上有什么约束可确保凸性?”)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.