Questions tagged «approximation»

分布,函数或其他数学对象的近似值。近似事物意味着找到它的某种表示形式,这在某些方面较为简单,但并不精确。

4
正常随机变量的近似阶数统计
是否存在用于某些随机分布的顺序统计的众所周知的公式?特别是正常随机变量的一阶和最后一阶统计量,但也可以理解为更通用的答案。 编辑:为澄清起见,我正在寻找可以或多或少明确评估的近似公式,而不是确切的整数表达式。 例如,对于正常rv的一阶统计量(即最小值),我已经看到以下两个近似值: e1:n≥μ−n−12n−1√σe1:n≥μ−n−12n−1σe_{1:n} \geq \mu - \frac{n-1}{\sqrt{2n-1}}\sigma 和 e1:n≈μ+Φ−1(1n+1)σe1:n≈μ+Φ−1(1n+1)σe_{1:n} \approx \mu + \Phi^{-1} \left( \frac{1}{n+1} \right)\sigma 其中第一个,对于,给出大约,这似乎是一个松散的界限。n=200n=200n=200e1:200≥μ−10σe1:200≥μ−10σe_{1:200} \geq \mu - 10\sigma 第二个给出而快速的Monte Carlo给出,所以这并不是一个很差的近似值,但也不是很好,并且更重要的是,我对它的来源一无所知。e1:200≈μ−2.58σe1:200≈μ−2.58σe_{1:200} \approx \mu - 2.58\sigmae1:200≈μ−2.75σe1:200≈μ−2.75σe_{1:200} \approx \mu - 2.75\sigma 有什么帮助吗?


2
两个iid对数正态随机变量的差
令和为2个iidrv,其中。我想知道的分布。X 2日志(X 1),日志(X 2)〜Ñ (μ ,σ )X 1 - X 2X1X1X_1X2X2X_2log(X1),log(X2)∼N(μ,σ)log⁡(X1),log⁡(X2)∼N(μ,σ)\log(X_1),\log(X_2) \sim N(\mu,\sigma)X1−X2X1−X2X_1 - X_2 我所能做的最好是将二者的泰勒级数取整,得出的差值是两个法线rv和两个卡方rv的差之和,以及其余各项之间的差。是否有更直接的方法来获取2个iid对数正态rv之间的差异的分布?

2
机器学习技术是“近似算法”吗?
最近在cstheory stackexchange上有一个类似ML的问题,我发布了一个答案,推荐Powell的方法,梯度下降,遗传算法或其他“近似算法”。有人在评论中告诉我,这些方法是“启发式”方法,而不是 “近似算法”,并且常常不接近理论最优值(因为它们“经常陷入局部极小值”)。 别人同意吗?另外,在我看来,如果我将启发式算法设置为探索很大的搜索空间(例如,将参数/步长设置得很小),可以保证哪种算法可以接近理论最优值。在论文中没有看到。有人知道这已经在论文中显示或证明过了吗?(如果不是针对大型算法,则可能针对小型算法,例如NN等)

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
正态近似于均匀和分布的误差
一种近似于正态分布的幼稚方法是将大约均匀分布在上的IID随机变量加在一起,然后根据中心极限定理对它们进行重新缩放和重新缩放。(旁注:还有更精确的方法,例如Box-Muller变换。)IID随机变量的总和称为均匀总和分布或Irwin-Hall分布。100100100[0,1][0,1][0,1]U(0,1)U(0,1)U(0,1) 用正态分布近似均匀和分布时的误差有多大? 每当出现这种类型的问题以近似IID随机变量的总和时,人们(包括我)都会提出Berry–Esseen定理,这是中心极限定理的有效形式,因为存在第三阶矩: |Fn(x)−Φ(x)|≤Cρσ3n−−√|Fn(x)−Φ(x)|≤Cρσ3n|F_n(x) - \Phi(x)| \le \frac{C \rho}{\sigma^3 \sqrt n} 其中是n个 IID随机变量的重新定标和的累积分布函数,\ rho是绝对的第三中心矩E |(X-EX)^ 3 |。,\ sigma是标准偏差,C是绝对常数,可以取为1甚至1/2。FnFnF_nnnnρρ\rhoE|(X−EX)3|E|(X−EX)3|E|(X-EX)^3|σσ\sigmaCCC1111/21/21/2 这是不令人满意的。在我看来,对于离散的二​​项式分布,Berry-Esseen估计最接近锐利,对于对称的二项式分布,最大误差为000。最大的错误来自最大的跳跃。但是,统一的总和分布没有跳跃。 数值测试表明,误差的减小比c / \ sqrt n更快c/n−−√c/nc/\sqrt n。 使用C=1/2C=1/2C=1/2,Berry–Esseen估计为|Fn(x)−Φ(x)|≤12132112√3n−−√≈0.650n−−√|Fn(x)−Φ(x)|≤121321123n≈0.650n|F_n(x) - \Phi(x)| \le \frac{\frac12 \frac{1}{32}}{\frac{1}{\sqrt{12}^3} \sqrt n} \approx \frac{0.650}{\sqrt n} 这对于n=10,20,40n=10,20,40n=10,20,40为约0.2050.2050.205,0.1450.1450.145,和0.1030.1030.103,分别。对于实际的最大差异n=10,20,40n=10,20,40n=10, 20, 40似乎是约0.002810.002810.00281,0.001390.001390.00139和0.0006920.0006920.000692,分别,这要小得多,并且似乎落入如c/nc/nc/n,而不是c/n−−√c/nc/\sqrt n。

5
为什么要用低秩近似值打扰?
如果您的矩阵具有n行和m列,则可以使用SVD或其他方法来计算给定矩阵的低秩近似。 但是,低阶近似仍将具有n行和m列。假设您拥有相同数量的特征,低秩近似对于机器学习和自然语言处理如何有用?

3
评估正态分布的确定间隔
我知道正态分布的CDF缺少易于处理的公式,这是因为其中包含复杂的误差函数。 但是,我想知道是否有一个不错的公式。或针对此问题的“最新技术”近似值是什么。N(c−≤x&lt;c+|μ,σ2)N(c−≤x&lt;c+|μ,σ2)N(c_{-} \leq x < c_{+}| \mu, \sigma^2)

1
随机厨房水槽如何工作?
去年在NIPS 2017上,阿里·拉希米(Ali Rahimi)和本·雷赫特(Ben Recht)的论文“大型内核机器的随机特征” 获得了时间测试奖,他们引入了随机特征,后来被编纂为随机厨房水槽算法。作为公开发表论文的一部分,他们表明可以在5行Matlab中实现他们的模型。 % Approximates Gaussian Process regression % with Gaussian kernel of variance gamma^2 % lambda: regularization parameter % dataset: X is dxN, y is 1xN % test: xtest is dx1 % D: dimensionality of random feature % training w = randn(D,d); b = 2 * pi …

1
随机函数求根
假设我们有一个函数,我们只能通过一些噪声来观察它。我们不能计算˚F (X )直接,只有˚F (X )+ η其中η是一些随机噪声。(在实践中:我使用某种蒙特卡洛方法计算f (x )。)f(x)f(x)f(x)f(x)f(x)f(x)f(x)+ηf(x)+ηf(x) + \etaηη\etaf(x)f(x)f(x) 有什么方法可以找到根,即计算x使得f (x )= 0?fffxxxf(x)=0f(x)=0f(x) = 0 我正在寻找使所需的求值次数最少的方法,因为这在计算上很昂贵。f(x)+ηf(x)+ηf(x)+\eta 我对泛化到多个维度的方法特别感兴趣(即,求解)。f(x,y)=0,g(x,y)=0f(x,y)=0,g(x,y)=0f(x,y) = 0, g(x,y) = 0 我也对可以利用有关方差的某些信息的方法感兴趣,因为在使用MCMC 计算f (x )时,可能会得到一些估计。ηη\etaf(x)f(x)f(x)

5
对于平均置信区间的近似误差时
令是一族iid随机变量,其值在,具有均值和方差{Xi}ni=1{Xi}i=1n\{X_i\}_{i=1}^n[0,1][0,1][0,1]μμ\muσ2σ2\sigma^2。给出均值的简单置信区间,只要知道就 使用σσ\sigmaP(| X¯−μ|&gt;ε)≤σ2nε2≤1nε2(1).P(|X¯−μ|&gt;ε)≤σ2nε2≤1nε2(1). P( | \bar X - \mu| > \varepsilon) \le \frac{\sigma^2}{n\varepsilon^2} \le\frac{1}{n \varepsilon^2} \qquad (1). 同样,由于渐近分布为标准正态随机变量,因此有时使用正态分布来“构造”近似置信区间。X¯−μσ/n√X¯−μσ/n\frac{\bar X- \mu}{\sigma/\sqrt{n}} 在多项选择题答案统计考试中,我不得不使用这种近似代替(1)(1)(1)每当时。我一直对此感到非常不舒服(超出您的想象),因为无法量化近似误差。n≥30n≥30n \geq 30 为什么使用法线逼近而不是?(1)(1)(1) 我不想再盲目地应用规则。是否有好的参考文献可以支持我拒绝这样做并提供适当的替代方法?((1)是我认为合适的替代方法的示例。)n≥30n≥30n \geq 30(1)(1)(1) 在这里,虽然σσ\sigma和E[|X|3]E[|X|3]E[ |X|^3]未知,但它们很容易被限制。 请注意,我的问题是一个参考请求,尤其是有关置信区间的请求,因此与此处建议作为部分重复的问题的区别有所不同和此处。那里没有答案。

3
如何计算与异常大的Z分数相关的概率?
用于网络主题检测的软件包可以返回非常高的Z分数(我见过的最高Z分数是600,000+,但是Z分数超过100的情况非常普遍)。我打算证明这些Z分数是伪造的。 巨大的Z得分对应于极低的关联概率。相关概率的值在正态分布的Wikipedia页面(以及可能的每个统计资料教科书)上给出,Z分数最高为6。所以... 问题:如何计算n到1,000,000之间的误差函数?1−erf(n/2–√)1−erf(n/2)1-\mathrm{erf}(n/\sqrt{2}) 我特别希望已经实施了此软件包(如果可能)。到目前为止,我发现的最好的是WolframAlpha,它设法以n = 150(此处)进行计算。


1
t检验的“近似正常”评估
我正在使用Welch的t检验来测试均值。底层分布远非正常分布(比此处相关讨论的示例更偏斜)。我可以获取更多数据,但希望有一些原则性的方法来确定在多大程度上可以这样做。 是否有一个很好的试探法可以评估样本分布是否可以接受?与正常性的哪些偏差最令人担忧? 是否还有其他方法(例如,对样本统计数据依赖引导置信区间)会更有意义?

1
N正态id的乘积的近似分布?特例μ≈0
给定 iid和,寻找:X Ñ ≈ Ñ(μ X,σ 2 X)μ X ≈ 0ñ≥ 30N≥30N\geq30Xñ≈ ñ(μX,σ2X)Xn≈N(μX,σX2)X_n\approx\mathcal{N}(\mu_X,\sigma_X^2)μX≈ 0μX≈0\mu_X \approx 0 精确封闭形式分布近似值 ÿñ= ∏1个ñXñYN=∏1NXnY_N=\prod\limits_{1}^{N}{X_n} 相同乘积的渐近(指数?)逼近 这是一个特殊情况,是一个更一般的问题。μX≈ 0μX≈0\mu_X \approx 0

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.