Questions tagged «nonlinear»

不推荐使用此标签,因为它太宽了。请找到更具体的标签。


1
非线性模型与广义线性模型:您如何指代逻辑回归,泊松等回归?
我有一个关于语义的问题,我希望统计学家能对此发表看法。 我们知道诸如logistic,泊松等模型属于广义线性模型。该模型包括参数的非线性函数,然后可以使用适当的链接函数,使用线性模型框架对其进行建模。 我想知道您是否考虑(教?)诸如逻辑回归这样的情况: 非线性模型,给定参数的形式 线性模型,因为链接将我们转换为线性模型框架 同时(1)和(2):“开始”为一个非线性模型,但可以这样一种方式使用,使我们可以将其视为线性模型 希望我可以进行一次实际的民意测验...

6
高级回归建模示例
我正在寻找高级线性回归案例研究,以说明使用GLM或OLS建模复杂的多个非线性关系所需的步骤。很难找到超出基本学校例子的资源:我读过的大多数书都不会超出响应的对数转换以及一个预测变量的BoxCox或最佳情况下的自然样条。同样,到目前为止,我所看到的所有示例都在单独的模型(通常在单个预测器模型中)中解决每个数据转换问题。 我知道BoxCox或YeoJohnson转换是什么。我正在寻找的是详细的,真实的案例研究,其中的响应/关系不清楚。例如,响应并非严格为正(因此您不能使用log或BoxCox),预测变量之间以及与响应之间均具有非线性关系,并且最大似然数据转换似乎并不意味着标准0.33或0.5指数。同样,发现剩余方差是非恒定的(从未如此),因此也必须转换响应,并且必须在非标准GLM族回归或响应转换之间进行选择。研究人员可能会做出选择,以避免过度拟合数据。 编辑 到目前为止,我收集了以下资源: 回归建模策略,F。Harrell 应用计量经济学时间序列,W。恩德斯 具有R,G. Petris的动态线性模型 应用回归分析,D。Kleinbaum 统计学习概论,G。James / D。维滕 我只读了最后一篇(ISLR),尽管它比高级回归建模更着重于ML,但它是一篇很好的文章(手表上有5颗五星)。 还有这对CV呈现一个具有挑战性的回归情况下,好的职位。

3
是什么使神经网络成为非线性分类模型?
我正在尝试了解非线性分类模型的数学含义: 我刚刚读了一篇文章,谈论神经网络是一种非线性分类模型。 但是我才意识到: 第一层: h1=x1∗wx1h1+x2∗wx1h2h1=x1∗wx1h1+x2∗wx1h2h_1=x_1∗w_{x1h1}+x_2∗w_{x1h2} h2=x1∗wx2h1+x2∗wx2h2h2=x1∗wx2h1+x2∗wx2h2h_2=x_1∗w_{x2h1}+x_2∗w_{x2h2} 后续层 y=b∗wby+h1∗wh1y+h2∗wh2yy=b∗wby+h1∗wh1y+h2∗wh2yy=b∗w_{by}+h_1∗w_{h1y}+h_2∗w_{h2y} 可以简化为 =b'+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x_1∗w_{x1h1}+x_2∗w_{x1h2})∗w_{h1y}+(x_1∗w_{x2h1}+x_2∗w_{x2h2})∗w_{h2y} =b'+x1(wh1y∗wx1h1+wx2h1∗wh2y)+x2(wh1y∗wx1h1+wx2h2∗wh2y)=b′+x1(wh1y∗wx1h1+wx2h1∗wh2y)+x2(wh1y∗wx1h1+wx2h2∗wh2y)=b′+x_1(w_{h1y}∗w_{x1h1}+w_{x2h1}∗w_{h2y})+x_2(w_{h1y}∗w_{x1h1}+w_{x2h2}∗w_{h2y}) 两层神经网络只是简单的线性回归 =b′+x1∗W′1+x2∗W′2=b′+x1∗W1′+x2∗W2′=b^′+x_1∗W_1^′+x_2∗W_2^′ 这可以显示在任意数量的层上,因为任意数量的权重的线性组合还是线性的。 是什么使神经网络真正成为非线性分类模型? 激活函数将如何影响模型的非线性? 你能解释一下吗?

2
如果自回归时间序列模型是非线性的,它是否仍然需要平稳性?
关于使用递归神经网络进行时间序列预测的思考。与使用线性自回归的ARMA和ARIMA模型相比,它们基本上实现了一种广义的非线性自回归。 如果我们正在执行非线性自回归,那么时间序列是否仍需保持平稳,是否需要以与ARIMA模型相同的方式进行微分? 还是模型的非线性特征使其具有处理非平稳时间序列的能力? 换句话说,ARMA和ARIMA模型的平稳性要求(均值和方差)是由于这些模型是线性的,还是因为其他原因?

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
解释LLE(局部线性嵌入)算法的步骤?
我了解LLE算法背后的基本原理包括三个步骤。 通过某种度量(例如k-nn)找到每个数据点的邻域。 找到每个邻居的权重,这些权重表示邻居对数据点的影响。 根据计算出的权重构造数据的低维嵌入。 但是,在我阅读的所有课本和在线资源中,步骤2和步骤3的数学解释令人困惑。我无法解释为什么使用这些公式。 在实践中如何执行这些步骤?有没有任何直观的方式来解释所使用的数学公式? 参考:http : //www.cs.nyu.edu/~roweis/lle/publications.html

4
线性模型与非线性模型的区别
我已经阅读了有关线性模型与非线性模型的属性的一些解释,但是仍然有时我不确定手头的模型是线性模型还是非线性模型。例如,以下模型是线性的还是非线性的? yt=β0+β1B(L;θ)Xt+εtyt=β0+β1B(L;θ)Xt+εty_t=\beta_0 + \beta_1B(L;\theta)X_t+\varepsilon_t 带有: B(L;θ)=∑k=1Kb(k;θ)LkB(L;θ)=∑k=1Kb(k;θ)LkB(L;\theta)=\sum_{k=1}^{K}b(k;\theta)L^k LkXt=Xt−kLkXt=Xt−kL^kX_t=X_{t-k} 其中表示(衰减的)指数Almon多项式函数,其形式为:b(k;θ)b(k;θ)b(k;\theta) b(k;θ)=exp(θ1k+θ2k2)∑Kk=1exp(θ1k+θ2k2)b(k;θ)=exp⁡(θ1k+θ2k2)∑k=1Kexp⁡(θ1k+θ2k2)b(k;\theta)=\frac{\exp(\theta_1 k+\theta_2k^2)}{\sum_{k=1}^{K}\exp(\theta_1k+\theta_2k^2)} 在我看来,我的主要方程式(第一个方程式)相对于是线性的,因为该项只是乘以一个权重。但是我要说加权函数(最后一个方程)相对于参数 ans是非线性的。θ 1 θ 2XtXtX_tθ1θ1\theta_1θ2θ2\theta_2 有人可以向我解释我的主要函数是线性函数还是非线性函数,这对估计程序意味着什么-我必须应用线性或非线性最小二乘法吗?此外,可辨别的特征是什么,通过它我可以确定一个函数是非线性函数还是线性函数?

3
为什么区分“线性”回归和“非线性”回归很重要?
区分线性模型和非线性模型的重要性是什么?问题非线性与广义线性模型:您如何指代逻辑回归,泊松等回归?它的答案是对广义线性模型的线性/非线性的非常有帮助的说明。区分线性模型和非线性模型似乎至关重要,但是我不清楚为什么?例如,考虑以下回归模型: Ë[ Y∣ X]Ë[ Y∣ X]Ë[ Y∣ X]Ë[ Y∣ X]= β0+ β1个X= β0+ β1个X+ β2X2= β0+ β21个X= { 1 + exp(− [ β0+ β1个X] }− 1(1)(2)(3)(4)(1)E[Y∣X]=β0+β1X(2)E[Y∣X]=β0+β1X+β2X2(3)E[Y∣X]=β0+β12X(4)E[Y∣X]={1+exp⁡(−[β0+β1X]}−1\begin{align} E[Y \mid X] & = \beta_0 + \beta_1 X \tag{1} \\ E[Y \mid X] & = \beta_0 + \beta_1 X + \beta_2 X^2 \tag{2} …

3
高度非线性函数的拟合策略
为了分析生物物理学实验的数据,我目前正在尝试使用高度非线性的模型进行曲线拟合。模型函数基本上看起来像: y=ax+bx−1/2y=ax+bx−1/2y = ax + bx^{-1/2} 在这里,尤其是的值引起了极大的兴趣。bbb 此函数的图解: (请注意,模型函数是基于对系统的全面数学描述,并且看起来效果很好---只是自动拟合很棘手)。 当然,模型函数是有问题的:到目前为止,我尝试过的拟合策略因处的渐近渐近线而失败,尤其是对于嘈杂的数据。x=0x=0x=0 我对这里问题的理解是,简单的最小二乘拟合(我在MATLAB中同时进行了线性和非线性回归;主要是Levenberg-Marquardt)对垂直渐近线非常敏感,因为x中的小误差被极大地放大了。 谁能指出我可以解决此问题的合适策略? 我有一些统计方面的基本知识,但是仍然很有限。我很想学习,如果我只知道从哪里开始的话:) 非常感谢您的建议! 编辑求您原谅忘记提及错误。唯一的显着噪声是,它是可加的。xxx 编辑2有关此问题背景的一些其他信息。上图对聚合物的拉伸行为进行了建模。正如@whuber在评论中指出的那样,您需要来获得如上的图形。b≈−200ab≈−200ab \approx -200 a 关于人们到目前为止如何拟合该曲线:似乎人们通常会切断垂直渐近线,直到找到合适的拟合为止。但是,截止选择仍然是任意的,这使拟合过程不可靠且不可重现。 编辑3&4固定图。

3
卷积神经网络中最终Softmax层之前的非线性
我正在研究并尝试实现卷积神经网络,但是我想这个问题通常适用于多层感知器。 我网络中的输出神经元代表每个类别的激活:最活跃的神经元对应于给定输入的预测类别。为了考虑训练的交叉熵成本,我在网络的末端添加了softmax层,以便将每个神经元的激活值解释为概率值。 我的问题是:输出层中的神经元是否应该对输入应用非线性函数?我的直觉是没有必要: 如果第一世一世i个输出神经元的输入是向量(来自上一层)与该神经元权重之间的点积, X θ 我XŤθ一世XŤθ一世x^T\theta_iXXxθ一世θ一世\theta_i 如果我采用单调非线性函数(如S型或ReLU) 那么较大的激活输出仍将对应于最大,因此从这个角度来看,非线性函数不会改变预测。XŤθ一世XŤθ一世x^T\theta_i 这种解释有问题吗?我是否忽略了一些训练因素,这些因素使输出非线性成为必要? 如果我是对的,那么如果不是使用Sigmoid函数而是使用ReLU函数(不是严格单调的函数,会发生什么变化吗?最大值(0 ,XŤθ一世)最大值(0,XŤθ一世)\max(0,x^T\theta_i) 编辑 关于Karel的答案,其答案主要是“取决于”,这是对我的网络和疑问的更详细描述: 假设我有N个隐藏层,而我的输出层只是代表类的一组神经元上的softmax层(所以我的预期输出是输入数据属于每个类的概率)。假设第一个N-1层具有非线性神经元,那么在第N个隐藏层中使用非线性与线性神经元有什么区别?

1
内核近似的Nystroem方法
我一直在阅读有关低阶内核近似的Nyström方法。该方法在scikit-learn [1]中实现,作为一种将数据样本投影到内核特征映射的低秩近似的方法。 据我所知,给定训练集和一个核函数,它通过将SVD应用于来生成核矩阵的低秩近似。和。{xi}ni=1{xi}i=1n\{x_i\}_{i=1}^nn×nn×nn \times nKKKWWWCCC K=[WK21KT21K22]K=[WK21TK21K22]K = \left [ \begin{array}{cc} W & K_{21}^T \\ K_{21} & K_{22} \end{array} \right ] C=[WK21]C=[WK21]C = \left [\begin{array}{cc} W \\ K_{21} \end{array}\right ],W∈Rl×lW∈Rl×lW \in \mathbb{R}^{l\times l} 但是,我不了解如何使用内核矩阵的低秩近似将新样本投影到近似的内核特征空间。我发现的论文(例如[2])并没有太大帮助,因为它们几乎没有说教性。 另外,我对这种方法在训练和测试阶段的计算复杂性感到好奇。 [1] http://scikit-learn.org/stable/modules/kernel_approximation.html#nystroem-kernel-approx [2] http://www.jmlr.org/papers/volume13/kumar12a/kumar12a.pdf

3
统计模型中非线性的标准和决策是什么?
我希望以下一般性问题有意义。请记住,出于特定问题的目的,我对引入非线性的理论(主题领域)原因不感兴趣。因此,我将提出完整的问题如下: 除了理论(学科领域)以外,出于某种原因将非线性引入统计模型的逻辑框架(标准和可能的决策过程)是什么? 与往常一样,也欢迎相关资源和参考。

2
当解释变量之一可能具有二次项和三次项时,我该如何建模?
我衷心希望我对这个问题的表述方式能够得到明确的回答-如果没有,请让我知道,我会再试一次!我还应该注意,我将使用R进行这些分析。 我plant performance (Ys)怀疑有几种措施受到了我实施的四种治疗的影响- flower thinning (X1), fertilization (X2), leaf clipping (X3)和biased flower thinning (X4)。对于所有可能的Y,N至少为242,因此我的样本量很大。所有地块都进行了稀疏或不间断处理,但每个地块也经历了其他三种处理方式中的一种(也只有一种)(或没有,也有对照地块)。该设计的目的是测试其他三种处理是否能够“掩盖”或“增强”细化效果。因此,通过设计,后三种处理(X2-X4)不能相互作用彼此,因为他们没有交叉,但他们可以每疏花互动-他们可能会做。 我的明确假设是:1)开花稀疏将很重要,并且2)X1*X2, X1*X3, and X1*X4,花卉稀疏与其他三种处理之间的相互作用项也将很重要。就是说,疏花应该很重要,但是其他三种处理方式却应该大大改变疏花的方式。 我想将所有这些信息包括在混合模型中: Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects) 但是有一个困扰:我有充分的理由相信细化对Y的影响是非线性的。它们可能是二次方的,但在某些情况下甚至可能是三次方的。这是因为细化对性能的影响很可能在更高的细化水平下更快地增加。如果我尝试通过为X1添加二次项和三次项来通过上述等式对这种非线性关系进行建模,那么我不确定如何对交互项进行建模-我应该包括X1的所有可能组合(X1)^ 2,以及(X1)^ 3 * X2,X3和X4?因为即使有我拥有的数据点的数量,这似乎也要尝试估计很多参数,而且我不确定如何解释得到的结果。就是说,我没有生物学上的理由认为这将是对情况进行建模的不明智的方式。 因此,对于如何解决此问题,我有三点想法: 首先拟合一个较小的模型,例如Y …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.