Questions tagged «optimization»

将此标记用于统计信息中的优化用途。

2
最大似然参数偏离后验分布
我有一个似然函数大号(d| θ)L(d|θ)\mathcal{L}(d | \theta)为我的数据的概率ddd给出一些模型参数θ∈RNθ∈RN\theta \in \mathbf{R}^N,我想估计。假设先验参数平坦,则似然度与后验概率成正比。我使用MCMC方法来采样这种可能性。 查看生成的收敛链,我发现最大似然参数与后验分布不一致。例如,对于一个参数的边缘化后验概率分布可能是θ0∼N(μ=0,σ2=1)θ0∼N(μ=0,σ2=1)\theta_0 \sim N(\mu=0, \sigma^2=1),而值θ0θ0\theta_0在最大似然点是θML0≈4θ0ML≈4\theta_0^{ML} \approx 4,基本上是几乎最大值θ0θ0\theta_0通过MCMC采样器遍历。 这是一个说明性的例子,不是我的实际结果。实际分布要复杂得多,但是某些ML参数在其各自的后验分布中具有类似的不太可能具有p值。注意,我的一些参数的有界(例如0≤θ1≤10≤θ1≤10 \leq \theta_1 \leq 1); 在范围内,先验总是一致的。 我的问题是: 这样的偏差本身就是问题吗?显然,我不希望ML参数与它们的每个边缘化后验分布的最大值完全一致,但是从直觉上来说,感觉它们也不应该在尾部深处发现。这种偏离会自动使我的结果无效吗? 这是否一定有问题,在数据分析的某个阶段是否可能是特定病理的症状?例如,是否有可能做出一般性的陈述,说明这种偏差是由不正确的收敛链,不正确的模型还是对参数的过度约束引起的?

2
使用KKT 显示范数正则回归与范数约束回归之间的等价关系
根据参考文献1册,第二册和纸。 已经提到,正规化回归(Ridge,LASSO和Elastic Net)与其约束公式之间存在等价关系。 我还查看了交叉验证1和交叉验证2,但是我看不到明确的答案表明等价或逻辑。 我的问题是 如何使用Karush–Kuhn–Tucker(KKT)证明这种等效性? 以下公式适用于Ridge回归。 注意 这个问题不是功课。只是增加了我对该主题的理解。 更新 我还不知道

2
错误率是正则化参数lambda的凸函数吗?
在Ridge或Lasso中选择正则化参数lambda时,建议的方法是尝试使用不同的lambda值,测量验证集中的错误,最后选择返回最低错误的lambda值。 如果函数f(lambda)= error是凸的,这对我来说并不束手无策。会是这样吗?即,该曲线是否可以具有多个局部最小值(这意味着在lambda的某个区域中找到Error的最小值并不排除在某些其他区域中存在返回较小的Error的Lambda的可能性) 您的建议将不胜感激。

3
随机计算机模型的优化
对于Google来说,这对我来说是一个艰巨的主题,因为在搜索中使用“优化和随机”一词几乎会自动默认为搜索随机优化。但是,我真正想知道的是,当计算机模型输出是随机的(即不确定的)时,存在哪些方法可以优化计算机模型? 例如,如果您考虑一个计算机模型,其中有一些未知函数代表计算机模型的输出,那么存在许多用于解决问题的统计方法,例如f(x)f(x)f(x) minxf(x)∈Xminf(x)x∈X\begin{align*} \min&\,\,\,\, f(x)\\ x&\in\mathcal{X} \end{align*} 当f(x)f(x)f(x)是确定性的时。但是,当f(x)f(x)f(x)随机时会发生什么?有没有解决问题的方法,或者充其量只能解决 minxE[f(x)]∈XminE[f(x)]x∈X\begin{align*} \min&\,\,\,\, \mathbb{E}[f(x)]\\ x&\in\mathcal{X} \end{align*} 其中E(⋅)E(⋅)\mathbb{E}(\cdot)是通常的期望运算符。

2
关于给定响应变量的最佳分箱
我正在寻找相对于给定响应(目标)二进制变量并以最大间隔数为参数的连续变量的最佳合并方法(离散化)。 示例:我对“身高”(数字连续)和“ has_back_pains”(二进制)变量的人有一组观察。我想将高低离散化为最多3个间隔(组),以不同比例的背部疼痛患者来做,这样算法就可以最大程度地使各组之间的差异最大化(例如,在给定限制的情况下,每个间隔至少有x个观察值)。 解决此问题的明显方法是使用决策树(一个简单的单变量模型),但我在R中找不到任何将“最大分支数”作为参数的函数-它们全部将变量除分成2块(<= x和> x)。SAS矿工具有“最大分支”参数,但我正在寻找非商业解决方案。 我的一些变量只有几个唯一值(可以视为离散变量),但我想将它们离散化为较小的间隔。 与我的问题最接近的解决方案是在R中的smbinning包中实现的(依赖于party包中的ctree函数),但是它有两个缺点:无法设置间隔数(但是,您可以通过更改间隔找到解决方法p参数),并且当数据向量的唯一值少于10个时无效。无论如何,您可以在此处看到示例输出(Cutpoint和Odds列至关重要): Cutpoint CntRec CntGood CntBad CntCumRec CntCumGood CntCumBad PctRec BadRate Odds LnOdds WoE IV 1 <= 272 9081 169 8912 9081 169 8912 0.1874 0.9814 0.0190 -3.9653 -0.6527 0.0596 2 <= 311 8541 246 8295 17622 415 17207 0.1762 0.9712 0.0297 -3.5181 -0.2055 …

1
理发师的难题
我的美发师史黛西(Stacey)总是笑着说,但经常因管理时间而受到压力。今天,斯泰西因我的任命而逾期未交,并且非常抱歉。在理发时,我想知道:她的标准约会应该持续多久?(如果可以暂时忽略客户对干净整数的偏爱)。 需要考虑的是某种“涟漪效应”,一个非常晚的客户可能导致一连串的延迟约会。实际上,理发师由于担心这些压力大的日子而直观地学会间隔越来越久。但是,必须要有一些统计天才才能实现最佳,优雅的解决方案。(如果我们稍微降低现实水平) 假设 a)剪发时间是正态分布的, b)只有一个理发师。 预约时间太长,显然会浪费美发师等待下一次约会的时间。让我们将此浪费的时间花费为每分钟$ 1。 但是,如果约会的时间不够长,下一位客户就会一直等待,这对喜欢客户的史黛西来说是每分钟3美元的沉重成本。 Stacey每天最多工作8个小时,并且有足够的需求来满足自己所能容纳的尽可能多的约会 平均剪发需要30分钟,而且要进行性病。10分钟的开发时间。(我们也假设男人的削减和女人的削减是相同的!) 编辑-有些人正确地指出,Stacey可以在他们指定的时间之前参加早期客户。这增加了另一层复杂性,但是如果我们将其视为一个非常现实的问题,则需要将其包括在内。让我们忘记我的90/10假设,并尝试一个可能接近现实的假设。 有些客户迟到,有些则早。客户的平均延迟时间为2分钟,标准差为2分钟(听起来与实际情况差不多吗?) 她的约会应该多长时间? @alexplanation对不起,我已经把您的目标发布了!我相信R读者会感谢您的回答。

3
Nelder Mead的停止标准
我正在尝试实现用于优化功能的Nelder-Mead算法。关于Nelder-Mead的维基百科页面,除其停止标准外,对整个算法都非常清楚。可悲的是: 检查收敛性[需要澄清]。 我自己尝试并测试了一些标准: 如果则停止f(xN+1)−f(x1)&lt;ϵf(xN+1)−f(x1)&lt;ϵf(x_{N+1}) - f(x_1) < \epsilon,其中小,并且是单纯形的第个顶点,从低()到高()函数值。换句话说,当单纯形的最大值几乎等于最小值时。我发现这不能正常工作,因为这不能保证函数在单纯形内部的功能。例如,考虑函数:ϵϵ\epsilonxixix_iiiif(x1)f(x1)f(x_1)f(xñ+ 1)f(Xñ+1个)f(x_{N+1})F(x )= x2F(X)=X2f(x) = x^2当然,这对于优化来说是微不足道的,但是假设我们使用NM来做到这一点,并且让我们的两个单纯形点分别为和。该算法将在此处收敛,而找不到最佳值。X1个= - 1X1个=-1个x_1 = -1X2= 1X2=1个x_2=1 第二种选择涉及评估单纯形的质心:如果。假设如果单纯形和质心的最低点具有类似的值,则单纯形足够小以调用收敛。| F(x1个)− f(xC)| &lt; ϵ|F(X1个)-F(XC)|&lt;ϵ|f(x_1) - f(x_c)| < \epsilon 这是检查收敛的正确方法吗?还是有一种确定的方法来检查这一点?我找不到任何相关资料,因为大多数搜索结果都集中在算法的复杂性上。

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 &lt;- function(x,z,sx=0.3,sz=0.4) { x &lt;- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n &lt;- 500 x &lt;- runif(n)/20;z &lt;- runif(n); xs &lt;- seq(0,1,length=30)/20;zs &lt;- seq(0,1,length=30) pr &lt;- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth &lt;- matrix(test1(pr$x,pr$z),30,30) f &lt;- test1(x,z) y &lt;- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
MAP是
我在其中一门在线课程中遇到了这些幻灯片(第16和#17号幻灯片)。讲师试图解释最大后验估计(MAP)实际上是解决方案L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}],其中θ∗θ∗\theta^{*}是真实参数。 有人可以解释一下如何进行吗? 编辑:添加了幻灯片,以防链接断开。

1
与之间的LASSO关系
我对LASSO回归的理解是选择回归系数来解决最小化问题: 分β∥ ÿ- Xβ∥22 s 。Ť 。∥ β∥1个≤ 吨分β‖ÿ-Xβ‖22 s。Ť。‖β‖1个≤Ť\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t 实际上,这是使用拉格朗日乘数来完成的,从而可以解决问题 分β∥ ÿ- Xβ∥22+ λ ∥ β∥1个分β‖ÿ-Xβ‖22+λ‖β‖1个\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 λλ\lambda和t是什么关系ŤŤt?维基百科无奈地简单地指出“依赖于数据”。 我为什么在乎?首先是出于求知欲。但是我也担心通过交叉验证选择\ lambda的后果λλ\lambda。 具体来说,如果我要进行n倍交叉验证,则可以将n个不同的模型拟合到我的训练数据的n个不同分区中。然后,针对给定的\ lambda,在未使用的数据上比较每个模型的准确性λλ\lambda。但是相同的\ lambda对数据的不同子集λλ\lambda意味着不同的约束(ŤŤt)(即t = f(λ )Ť=F(λ)t=f(\lambda)是“数据相关的”)。 我不是真的要解决交叉验证问题,以找到能够提供最佳偏差精度折衷方案的ŤŤt吗? 通过为每个交叉验证拆分和\ lambda计算\ | \ beta \ | …

1
套索如何随设计矩阵大小缩放?
如果我有一个设计矩阵,其中Ñ是尺寸的观察次数d,什么是求解的复杂性β = argmin β 1X∈ [Rn × dX∈[Rn×dX\in\mathcal{R}^{n\times d}ññnddd与LASSO,wrtn和d?我认为答案应该是关于一个LASSO迭代如何使用这些参数缩放,而不是迭代次数(收敛)如何缩放,除非您另有感觉。β^=argminβ1个2 n| |Xβ-y| |2+ λ | |β| |1个β^=精氨酸β1个2ñ||Xβ-ÿ||2+λ||β||1个\hat{\beta}=\text{argmin}_{\beta}\frac{1}{2n} ||X\beta-y||^{2} + \lambda||\beta||_{1}nñnddd 我已经阅读了以前的LASSO复杂性问题,但似乎与此处和此处有关glmnet的讨论不一致。我知道那里有很多算法,包括glmnet的GLM方法,但是我正在写一篇有关将LASSO组件替换为父算法的论文,并且希望包括关于LASSO复杂性的讨论,特别是和n。我也想知道在基本的非稀疏情况下glmnet的复杂性,但是由于整个算法的复杂性不是很明确,因此参考文献有些令人困惑。dddnnn

2
Tensorflow`tf.train.Optimizer`如何计算梯度?
我正在关注Tensorflow mnist教程(https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py)。 本教程使用tf.train.Optimizer.minimize(特别是tf.train.GradientDescentOptimizer)。我看不到任何传递参数以定义渐变的参数。 Tensor流默认情况下是否使用数值微分? 有没有办法像您一样传递渐变scipy.optimize.minimize?

1
为什么Elo评分系统使用错误的更新规则?
Elo评级系统使用成对比较中预期和观察到的结果概率之间的交叉熵损失函数的梯度下降最小化算法。我们可以写成一般的损失函数为 Ë= - Σñ ,我p一世大号Ò 克(q一世)E=−∑n,ipiLog(qi) E=-\sum_{n,i} p_i Log (q_i) 其中所有结果和所有反对者的总和。 是事件的所观察到的频率和预期频率。Ñ p 我我q 我一世iiñnnp一世pip_i一世i_iq一世qiq_i 如果只有两个可能的结果(赢或输)和一个对手 Ë= - p 大号ö 克(q)− (1 − p )L o g(1 − q)E=−pLog(q)−(1−p)Log(1−q) E=-p Log (q)-(1-p)Log(1-q) 如果是玩家的排名,而是玩家的排名,我们可以建立期望概率为 然后使用梯度下降更新规则我π Ĵ Ĵ q 我 = È π 我π一世πi\pi_i一世iiπĴπj\pi_jĴjj qĴ=È π Ĵq一世= eπ一世Ëπ一世+ eπĴqi=eπieπi+eπj q_i=\frac{e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}} qĴ= eπĴËπ一世+ …

4
是否有关于S形曲线的公式,其范围和范围为[0,1]
基本上,我想将相似性度量转换为用作预测变量的权重。相似之处将在[0,1]上,而我将权重也限制在[0,1]上。我想要执行此映射的参数函数,我可能会使用梯度下降对其进行优化。要求是0映射到0,1映射到1,并且严格增加。还可以理解一个简单的导数。提前致谢 编辑:感谢到目前为止的答复,这些都非常有帮助。为了使我的目的更清楚,任务是预测。我的观察结果是具有单个维度的极稀疏向量,可以对其进行预测。我的输入尺寸用于计算相似度。然后,我的预测是该预测变量的其他观察值的加权总和,其中权重是相似性的函数。为了简单起见,我将权重限制在[0,1]上。希望现在显而易见,为什么我要求0映射为0,要求1映射为1,并要求它严格增加。正如whuber指出的那样,使用f(x)= x可以满足这些要求,并且实际上效果很好。但是,它没有要优化的参数。我有很多观察,所以我可以容忍很多参数。我将手动编码梯度下降,因此我偏爱简单的导数。 例如,给出的许多响应都是关于.5对称的。使参数向左/向右移动(例如使用beta分布)会很有用

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.