Questions tagged «model»

以数学方程式的形式对随机(随机)相关变量之间的关系进行形式化。请勿自行使用此标签:请始终包含更具体的标签。

4
为什么KNN不是“基于模型的”?
ESL第2.4章似乎将线性回归归类为“基于模型”,因为它假设,而k最近邻没有类似的近似值。但是,不是两种方法都假设吗?f(x)≈x⋅βf(x)≈x⋅βf(x) \approx x\cdot\betaf(x)f(x)f(x) 后来在2.4中甚至说: 最小二乘假设由全局线性函数很好地近似。f(x)f(x)f(x) k个近邻假设由局部常数函数很好地近似。f(x)f(x)f(x) KNN假设似乎也可以形式化(尽管不确定这样做是否会以假设为线性导致线性回归的方式导致 KNN算法)。fff 那么,如果KNN实际上不是基于模型的,那为什么呢?还是我误读了ESL?

3
贝叶斯模型选择和可信区间
我有一个包含三个变量的数据集,其中所有变量都是定量的。让我们将其称为,和。我通过MCMC在贝叶斯角度拟合回归模型yyyx1x1x_1x2x2x_2rjags 我进行了探索性分析,的散点图建议应使用二次项。然后我装了两个模型y×x2y×x2y\times x_2 (1)y=β0+β1∗x1+β2∗x2y=β0+β1∗x1+β2∗x2y=\beta_0+\beta_1*x_1+\beta_2*x_2 (2)y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x21+β5∗x22y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x12+β5∗x22y=\beta_0+\beta_1*x1+\beta_2*x_2+\beta_3*x_1x_2+\beta_4*x_1^2+\beta_5*x_2^2 在模型1中,每个参数的效果大小都不小,并且95%可信区间的值不为。000 在模型2中,参数和的效果大小较小,并且所有参数的可信区间均包含。β3β3\beta_3β4β4\beta_4000 可信区间包含的事实足以说明该参数不重要吗?000 然后我调整了以下模型 (3)y=β0+β1∗x1+β2∗x2+β3∗x22y=β0+β1∗x1+β2∗x2+β3∗x22y=\beta_0+\beta_1*x_1+\beta_2*x_2+\beta_3*x^2_2 每个参数的效果大小都不小,但是除外,所有可信区间都包含。 0β1β1\beta_1000 在贝叶斯统计中进行变量选择的正确方法是哪种? 编辑:我可以在任何回归模型(如Beta模型)中使用套索吗?我使用的是变量分散的模型,其中 其中是向量。我也应该在使用Laplace 吗?δlog(σ)=−δδXlog(σ)=−δδXlog(\sigma)=-\pmb{\delta}Xδδδδδ\pmb{\delta}δδδδ\pmb{\delta} EDIT2:我安装了两个模型,一个模型具有针对,高斯先验模型,另一种具有Laplace(double-exponential)模型。δ Ĵβjβj\beta_jδjδj\delta_j 高斯模型的估计是 Mean SD Naive SE Time-series SE B[1] -1.17767 0.07112 0.0007497 0.0007498 B[2] -0.15624 0.03916 0.0004128 0.0004249 B[3] 0.15600 0.05500 0.0005797 0.0005889 B[4] 0.07682 0.04720 0.0004975 0.0005209 delta[1] -3.42286 0.32934 0.0034715 0.0034712 …

1
通用加性模型:R的输出中的ref.df是什么?
嗨,我在R的输出屏幕中难以理解Ref.df: Approximate significance of smooth terms: edf Ref.df F p-value s(meangrain) 1.779 2.209 3.193 0.0451 * s(depth) 2.108 2.697 3.538 0.0254 * 这是什么意思,有必要在论文中包括此术语以表示GAM的结果吗?它给我们提供预测所需的信息吗?

2
将范围数据视为连续数据时的最佳做法
我正在查看丰度是否与大小有关。大小(当然)是连续的,但是,以这样的规模记录了丰度: A = 0-10 B = 11-25 C = 26-50 D = 51-100 E = 101-250 F = 251-500 G = 501-1000 H = 1001-2500 I = 2501-5000 J = 5001-10,000 etc... A至Q ... 17级。我在想一种可能的方法是给每个字母分配一个数字:最小,最大或中位数(即A = 5,B = 18,C = 38,D = 75.5 ...)。 潜在的陷阱是什么?因此,将这些数据视为分类会更好吗? 我已经阅读了这个问题,提供了一些想法-但此数据集的关键之一是类别不均匀-因此将其视为类别将假定A和B之间的差异与A之间的差异相同B和C ...(可以通过使用对数进行纠正-感谢Anonymouse) 最终,在考虑其他环境因素之后,我想看看是否可以将大小用作丰度的预测指标。预测也将在一个范围内:给定大小X以及因子A,B和C,我们预测丰度Y会介于最小和最大之间(我想这可能跨越一个或多个尺度点:大于最小D而小于最大F ...虽然越精确越好)。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.