Questions tagged «nonlinear-regression»

仅对响应是参数非线性函数的回归模型使用此标记。不要将此标签用于非线性数据转换。

2
拟合曲线时,如何计算拟合参数的95%置信区间?
我正在为数据拟合曲线以提取一个参数。但是,我不确定该参数的确定性以及如何计算/表示其%置信区间。959595 假设数据集包含指数衰减的数据,我将曲线拟合到每个数据集。那么我要提取的信息就是指数。我知道的值ŧ和价值一,我没有兴趣的(那是来自人口变量,而不是过程我试着去模型)。bbbtttaaa 我使用非线性回归来拟合这些参数。但是,我不知道如何为任何方法计算%置信区间,因此也欢迎使用更广泛的答案。959595 f=a⋅e−btf=a⋅e−btf= a\cdot e^{-bt} 获得值后,如何计算其95%的置信区间?提前致谢!bbb959595

1
使用最小二乘法与广义线性模型与非线性最小二乘拟合指数函数
我有一个代表指数衰减的数据集。我想对这个数据拟合指数函数。我尝试对数转换响应变量,然后使用最小二乘法拟合一条线。使用具有对数链接函数和响应变量周围的伽马分布的广义线性模型;并使用非线性最小二乘法。尽管每种方法的两个系数都相似,但我得到的答案不同。我感到困惑的地方是我不确定哪种方法最适合使用以及为什么使用。有人可以比较和对比这些方法吗?谢谢。y=Beaxy=Beaxy = Be^{ax}

6
识别离群值以进行非线性回归
我正在研究螨的功能响应领域。我想做一个回归来估计Rogers II型函数的参数(攻击率和处理时间)。我有一个测量数据集。 我怎样才能最好地确定异常值? 对于我的回归,我在R中使用以下脚本(非线性回归):(日期集是一个简单的2列文本文件,称为data.txt文件,具有N0值(初始猎物数量)和FR值(24小时内被猎物食用的数量): library("nlstools") dat <- read.delim("C:/data.txt") #Rogers type II model a <- c(0,50) b <- c(0,40) plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR") rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)} params1 <- list(attackR3_N=0.04,Th3_N=1.46) RogersII_N <- nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter= 10000)) hatRIIN <- predict(RogersII_N) lines(spline(N0,hatRIIN)) summary(RogersII_N)$parameters 为了绘制残差图,我使用以下脚本: res <- nlsResiduals (RogersII_N) plot (res, type = 0) hist …

2
条件均值独立性意味着OLS估计量的无偏性和一致性
考虑以下多元回归模型:Y=Xβ+Zδ+U.(1)(1)Y=Xβ+Zδ+U.Y=X\beta+Z\delta+U.\tag{1} 这里是列向量; a矩阵; a列向量; Z a n \ times l矩阵;\增量一升\次1个的列向量; 和U,误差项,n \ times1列向量。YYYn×1n×1n\times 1XXXn×(k+1)n×(k+1)n\times (k+1)ββ\beta(k+1)×1(k+1)×1(k+1)\times 1ZZZn×ln×ln\times lδδ\deltal×1l×1l\times 1UUUn×1n×1n\times1 题 我的讲师是《计量经济学概论》教科书,第三版。 詹姆斯·H·斯托克(James H. Stock)和马克·沃森(Mark W.Watson)281,和《计量经济学:荣誉考试复习会》(PDF),第2页。7,向我表达了以下内容。 如果我们假设所谓的条件平均独立性,根据定义,这意味着E(U|X,Z)=E(U|Z),(2)(2)E(U|X,Z)=E(U|Z),E(U|X,Z)=E(U|Z),\tag{2} 并且如果满足最小二乘假设,但条件均值零假设(因此,我们假设)(请参阅1 -3以下),E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z) \neq 0 然后,在这个较弱的假设集合下,中的OLS估计量保持无偏且一致。β^β^\hat{\beta}ββ\beta(1)(1)(1) 我如何证明这一主张?即,1和2以上意味着OLS估计给了我们一个公正的和一致的估计?是否有任何研究文章证明这一主张?ββ\betaββ\beta 评论 最简单的情况是通过考虑线性回归模型给出并证明了OLS估计的如果每个,则是无偏的。Yi=β0+β1Xi+β2Zi+ui,i=1,2,…,n,Yi=β0+β1Xi+β2Zi+ui,i=1,2,…,n,Y_i=\beta_0+\beta_1X_i+\beta_2Z_i+u_i,\quad i=1,2,\ldots,n,β 1 β 1 È (û 我| X 我,Ž 我)= È (û 我| Ž 我)我β^1β^1\hat{\beta}_1β1β1\beta_1E(ui|Xi,Zi)=E(ui|Zi)E(ui|Xi,Zi)=E(ui|Zi)E(u_i|X_i,Z_i)=E(u_i|Z_i)iii 证明无偏的假设和共同正态分布UiUiU_iZiZiZ_i 定义,然后和因此,可以重写为通过,得出现在,由于和共同为正态分布,因此正态分布的理论请参见。推导多元正态分布的条件分布,表示(实际上,我们不需要假设联合正态性,而只需假设此同一性)对于某乘矢量V=U−E(U|X,Z)V=U−E(U|X,Z)V=U-E(U|X,Z)U=V+E(U|X,Z)U=V+E(U|X,Z)U=V+E(U|X,Z)E(V|X,Z)=0.(*)(*)E(V|X,Z)=0.E(V|X,Z)=0\tag{*}.(1)(1)(1)Y=Xβ+Zδ+E(U|X,Z)+V.(3)(3)Y=Xβ+Zδ+E(U|X,Z)+V.Y=X\beta+Z\delta+E(U|X,Z)+V.\tag{3}(2)(2)(2)Y=Xβ+Zδ+E(U|Z)+V.(4)(4)Y=Xβ+Zδ+E(U|Z)+V.Y=X\beta+Z\delta+E(U|Z)+V.\tag{4}UiUiU_iZiZiZ_i …

3
在线性回归模型还是非线性回归模型之间进行选择
如何选择使用线性回归模型还是非线性回归模型? 我的目标是预测Y。 在简单的和数据集的情况下,我可以通过绘制散点图轻松确定应使用哪种回归模型。xxxyyy 在像和这样的多变量的情况下。如何确定必须使用哪种回归模型?也就是说,我将如何决定使用简单的线性模型还是非线性模型(例如二次,三次等)。x1,x2,...xnx1,x2,...xnx_1,x_2,...x_nyyy 是否有任何技术或统计方法或图形绘制来推断和决定必须使用哪种回归模型?

3
统计模型中非线性的标准和决策是什么?
我希望以下一般性问题有意义。请记住,出于特定问题的目的,我对引入非线性的理论(主题领域)原因不感兴趣。因此,我将提出完整的问题如下: 除了理论(学科领域)以外,出于某种原因将非线性引入统计模型的逻辑框架(标准和可能的决策过程)是什么? 与往常一样,也欢迎相关资源和参考。

3
如何评估特定非线性模型的拟合优度?[关闭]
很难说出这里的要求。这个问题是模棱两可,含糊,不完整,过于宽泛或夸张的,不能以目前的形式合理地回答。如需帮助澄清此问题以便可以重新打开, 请访问帮助中心。 7年前关闭。 我有一个非线性模型,其中是标准正态分布的cdf,f是非线性的(请参见下文)。在使用最大似然估计找到之后,我想用参数测试该模型与我的数据的拟合优度。什么是适当的测试?我想使用此测试将不良拟合标记为不良,并确定是否应收集更多数据。Φ 一个(X 1,ÿ 1),(X 2,ÿ 2),... ,(X Ñ,ÿ Ñ)一ÿ= Φ (f(x ,a ))+ εy=Φ(f(x,a))+εy=\Phi(f(x,a)) + \varepsilonΦΦ\Phi一个aa(x1个,ÿ1个),(X2,ÿ2),... ,(xñ,ÿñ)(x1,y1),(x2,y2),…,(xn,yn)(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)一个aa 我研究了使用偏差的方法,该方法将这个模型与饱和模型进行比较,并使用分布对其适合性进行了相应的检验。这样合适吗?我所阅读的关于偏差的大部分内容都将其应用于GLM,而我所没有的。如果偏差测试是适当的,则需要满足哪些假设才能使测试有效?χ2n − 1χn−12\chi^2_{n-1} 更新:对于,有所帮助。 X>1,一>0f=x−1ax2+1√f=x−1ax2+1f = \frac{x-1}{a\sqrt{x^2+1}}x>1,a>0x>1,a>0x>1,a>0

1
是否可以在混合模型中将时间作为预测变量?
我一直认为时间不应该用作回归(包括gam的预测)的预测因子,因为这样一来,人们就可以简单地“描述”趋势本身。如果一项研究的目的是找到诸如温度等环境参数来解释动物活动的变化,那么我想知道时间如何发挥作用?作为未测参数的代理? 在这里可以看到港口海豚活动数据的一些时间趋势:-> 在进行GAMM时如何处理时间序列中的缺口? 我的问题是:当我在模型中加入时间(以朱利安天数为单位)时,所有其他参数的90%就变得微不足道了(来自mgcv的ts收缩平滑器将其排除在外)。如果我没有时间,那么其中一些很重要... 问题是:时间是否可以用作预测变量(甚至可能需要?),或者这弄乱了我的分析? 提前谢谢了

1
模型似然不显着高于null时(GAM)回归系数的意义
我正在使用R包gamlss运行基于GAM的回归,并假设数据的beta分布为零。我只有一个解释变量在我的模型,所以它基本上是:mymodel = gamlss(response ~ input, family=BEZI)。 该算法给了我系数 ķkk 对于解释变量对平均值的影响(μμ\mu)和相关的p值 k (输入)= 0k(input)=0k(\text{input})=0, 就像是: Mu link function: logit Mu Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.58051 0.03766 -68.521 0.000e+00 input -0.09134 0.01683 -5.428 6.118e-08 如上例所示, k (输入)= 0k(input)=0k(\text{input})=0 被高信心地拒绝了。 然后,我运行空模型:null = gamlss(response ~ 1, family=BEZI)并使用似然比检验比较似然: p=1-pchisq(-2*(logLik(null)[1]-logLik(mymodel)[1]), df(mymodel)-df(null)). 在很多情况下,我得到 p …

3
指数模型的估计
指数模型是由下面的等式所描述的模型: ÿ一世^= β0⋅ èβ1个X1 我+ … + βķXķ 我yi^=β0⋅eβ1x1i+…+βkxki\hat{y_{i}}=\beta_{0}\cdot e^{\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki}} 用于估计此类模型的最常见方法是线性化,可以通过计算双方的对数轻松完成。还有哪些其他方法?在某些观察中,我对那些能够处理特别感兴趣ÿ一世= 0yi=0y_{i}=0。 更新31.01.2011 我知道这个模型不能产生零的事实。我将详细说明我要建模的内容以及为什么选择此模型。假设我们要预测客户在商店中花了多少钱。当然,许多客户只是在寻找而他们什么都没买,这就是为什么有0的原因。我不想使用线性模型,因为它会产生很多负值,这毫无意义。另一个原因是该模型的确非常好,比线性模型好得多。我已经使用遗传算法估算了这些参数,因此它不是“科学”的方法。现在,我想知道如何使用更科学的方法来解决问题。也可以假设大多数或什至所有变量都是二进制变量。

1
如何计算非线性方程的95%置信区间?
我有一个方程式可以根据海牛的年龄(以天为单位(以葡萄牙语为单位))预测海牛的体重: R <- function(a, b, c, dias) c + a*(1 - exp(-b*dias)) 我已经使用nls()在R中对其进行了建模,并得到了以下图形: 现在,我要计算95%的置信区间并将其绘制在图形中。我对每个变量a,b和c使用了上限和下限,如下所示: lower a = a - 1.96*(standard error of a) higher a = a + 1.96*(standard error of a) (the same for b and c) 然后我使用较低的a,b,c绘制较低的线,并使用较高的a,b,c绘制较高的线。但是我不确定这是否是正确的方法。它给我这张图: 这是这样做的方法,还是我做错了?

2
如何总结和比较非线性关系?
我有大约25个湖泊的湖泊沉积物中有机物百分比从0厘米(即沉积物-水界面)下降到9厘米的数据。在每个湖泊中,从每个位置取了2个岩心,所以我对每个湖泊的每个沉积深度进行了2次有机质百分比的重复测量。 我有兴趣比较湖泊在有机质百分比与沉积物深度(即坡度)之间的关系上有何不同。在某些湖泊中,有机质百分比与沉积物深度之间的关系呈线性关系,但在其他情况下,该关系更为复杂(请参见以下示例)。 我最初的想法是将线性关系适当地适合于整个曲线或曲线的子集(如果“主要”是线性的),并且仅比较那些发现显着线性关系的湖泊。但是,我对这种方法不满意,因为它要求消除数据的唯一原因是它们不符合线性模型,并且它忽略了有关有机物百分比与沉积物深度之间关系的潜在有趣信息。 总结和比较不同湖泊的曲线的最佳方法是什么? 谢谢 曲线示例:在所有情况下,y轴是沉积物中有机物的百分比,x轴是沉积物的深度,其中0 =沉积物-水的界面。 一个很好的线性示例: 2个非线性示例: 一个没有明显关系的示例:

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

3
回归平滑样条曲线中等于k个分类变量的k个结的选择?
我正在研究一种预测成本模型,其中患者的年龄(以年为单位的整数)是预测变量之一。年龄与住院风险之间存在很强的非线性关系: 我正在考虑针对患者年龄的惩罚性回归平滑样条。根据《统计学习的要素》(Hastie等,2009,第151页),最佳结位置是每个会员年龄的唯一值一个结。 假设我将年龄保留为整数,那么惩罚平滑样条曲线是否等效于运行带有101个不同的年龄指标变量的岭回归或套索,每个年龄值在数据集中找到一个(减去一个作为参考)?然后避免过度参数化,因为每个年龄指标上的系数都缩小为零。

3
统计检验以查看关系是线性还是非线性
我有一个示例数据集,如下所示: Volume <- seq(1,20,0.1) var1 <- 100 x2 <- 1000000 x3 <- 30 x4 = sqrt(x2/pi) H = x3 - Volume r = (x4*H)/(H + Volume) Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r)) Power <- jitter(Power, factor = 1, amount = 0.1) plot(Volume,Power) 从图中可以看出,在“体积”和“功率”的特定范围之间,关系是线性的,然后,当“体积”变得相对小时,关系变为非线性。有统计检验可以说明这一点吗? 关于对《任择议定书》的答复中显示的一些建议: 此处显示的示例只是一个示例,尽管噪声较大,但我拥有的数据集看起来与此处看到的关系相似。到目前为止,我进行的分析表明,当我分析特定液体的体积时,当体积较小时,信号的功率会急剧增加。因此,可以说我只有一个音量在15到20之间的环境,几乎就像线性关系。但是,通过增加点的范围(即具有较小的体积),我们看到该关系完全不是线性的。我现在正在寻找有关如何统计显示这一点的统计建议。希望这是有道理的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.