Questions tagged «fitting»

使某些统计模型适合特定数据集的过程。通常在计算机上完成,并使用各种数值方法,例如优化或数值积分或模拟。

1
AIC / BIC:排列计数多少个参数?
假设我有一个模型选择问题,我正在尝试使用AIC或BIC评估模型。这是简单的有一些数量模型的实值参数。ķkk 但是,如果我们的模型之一(例如Mallows模型)具有置换,加上一些实值参数而不是实值参数,该怎么办?我仍然可以使模型参数的似然性最大化,例如获得置换和参数。但是,为计算AIC / BIC计入多少个参数?p πππ\pipppππ\pi

3
计算从连续分布中采样的数据模式
拟合连续分布采样数据的“模式”的最佳方法是什么? 由于该模式在技术上是不确定的(对吗?),以便进行连续分配,所以我真的在问“您如何找到最普遍的价值”? 如果您假设父分布是高斯分布,则可以对数据进行分箱,然后发现模式是计数最大的分箱位置。但是,如何确定垃圾箱大小?有健壮的实施方案可用吗?(即对异常值具有鲁棒性)。我使用python/ scipy/ numpy,但我可以轻松进行翻译R。

2
拟合曲线时,如何计算拟合参数的95%置信区间?
我正在为数据拟合曲线以提取一个参数。但是,我不确定该参数的确定性以及如何计算/表示其%置信区间。959595 假设数据集包含指数衰减的数据,我将曲线拟合到每个数据集。那么我要提取的信息就是指数。我知道的值ŧ和价值一,我没有兴趣的(那是来自人口变量,而不是过程我试着去模型)。bbbtttaaa 我使用非线性回归来拟合这些参数。但是,我不知道如何为任何方法计算%置信区间,因此也欢迎使用更广泛的答案。959595 f=a⋅e−btf=a⋅e−btf= a\cdot e^{-bt} 获得值后,如何计算其95%的置信区间?提前致谢!bbb959595

3
拟合曲线的可靠性?
我想估计拟合曲线的不确定性或可靠性。由于我不知道它的确切含义,因此我故意不指定要查找的精确数学量。 这里,ËËE(能量)是因变量(响应),VVV(体积)是自变量。我想找到某种材料的能量-体积曲线Ë(五)Ë(V)E(V)。因此,我使用量子化学计算机程序进行了一些计算,以获取某些样品体积(图中的绿色圆圈)的能量。 然后,我用Birch–Murnaghan函数拟合这些数据样本: 这取决于四个参数: ë 0,V 0,乙0,乙' 0。我还假定这是正确的拟合函数,因此所有误差仅来自样本的噪声。在下文中,拟合函数(ē)将被写成函数 V。E(E|V)=E0+9V0B016⎧⎩⎨[(V0V)23−1]3B′0+[(V0V)23−1]2[6−4(V0V)23]⎫⎭⎬,E(E|V)=E0+9V0B016{[(V0V)23−1]3B0′+[(V0V)23−1]2[6−4(V0V)23]}, \mathbb{E}(E|V) = E_0 + \frac{9V_0B_0}{16} \left\{ \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^3B_0^\prime + \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^2 \left[6-4\left(\frac{V_0}{V}\right)^\frac{2}{3}\right]\right\}\;, Ë0,V0,B0,B′0E0,V0,B0,B0′E_0, V_0, B_0, B_0'(E^)(E^)(\hat{E})VVV 在这里,您可以看到结果(使用最小二乘算法进行拟合)。y轴变量是和x轴变量是V。蓝线是拟合点,绿色圆圈是采样点。ËEEVVV 我现在需要(在体积的依赖性充其量)这个拟合曲线的可靠性一定程度È(V ),因为我需要它来计算像过渡压力或焓进一步的数量。Ë^(五)E^(V)\hat{E}(V) 我的直觉告诉我,拟合曲线在中间是最可靠的,所以我猜想不确定性(例如不确定性范围)应该在样本数据的末尾增加,就像这个草图所示: 但是,我正在寻找什么样的量度,如何计算呢? 准确地说,这里实际上只有一个错误源:由于计算限制,计算出的样本有噪声。因此,如果我要计算一组密集的数据样本,它们将形成颠簸的曲线。 我想要找到所需不确定度估计值的想法是,在学校学习时根据参数计算以下“误差”(不确定性的传播): 的Δë0,ΔV0,Δ乙0和Δ乙'0,由拟合软件给出。Δ è(五)= (∂Ë(五)∂Ë0Δ è0)2+ (∂Ë(五)∂V0Δ V0)2+ (∂Ë(五)∂乙0Δ 乙0)2+ (∂Ë(五)∂乙′0Δ 乙′0)2----------------------------------------------------------√ΔË(V)=(∂Ë(V)∂Ë0ΔË0)2+(∂Ë(V)∂V0ΔV0)2+(∂Ë(V)∂乙0Δ乙0)2+(∂Ë(V)∂乙0′Δ乙0′)2 \Delta E(V) = \sqrt{ \left(\frac{\partial E(V)}{\partial E_0} \Delta E_0\right)^2 + …

1
比较模型与已转换和未转换响应的拟合度
我想比较三个不同组之间的比例数据,例如: ID Group Prop.Nitrogen 1 A 0.89 2 A 0.85 3 B 0.92 4 B 0.97 跟随沃顿商学院(Wharton and Hui)(doi:10.1890 / 10-0340.1 1),虽然我会看看使用转换后的logit是否可以更好地处理这些数据。 当我查看已转换和未转换数据上线性模型的诊断图时,它们看起来非常相似,没有明显的问题,并且估计参数只有很小的差异。但是,我仍然想对模型适合数据转换和未转换版本的方式说些什么-我知道我无法直接比较AIC值。有没有更正,我可以检查一下?还是应该采用其他方法?

2
平均数据然后拟合与拟合数据然后平均之间的差异
如果有,则在将一条线拟合到多个单独的“实验”之间进行平均,然后对拟合进行平均,或者对来自单独实验的数据进行平均,然后对平均数据进行拟合。让我详细说明: 我执行计算机仿真,生成一条曲线,如下所示。我们提取一个数量,通过拟合图的线性区域(长时间)将其称为“ A”。该值只是线性区域的斜率。当然,与线性回归有关的误差。 我们通常在不同的初始条件下运行100个左右的模拟,以计算平均值“ A”。有人告诉我,最好将原始数据(如下图所示)平均分成10组,然后拟合“ A”,然后再对这10个“ A”进行平均。 我没有直觉可言,它是否有任何优点,或者比拟合100个单独的“ A”值取平均值还要好。
10 error  fitting  average 

1
使分布适合空间数据
从mathoverflow交叉发布我的问题,以找到一些特定于统计信息的帮助。 我正在研究一个物理过程,该过程生成的数据可以很好地投影到具有非负值的两个维度中。每个过程都有 -点的(投影)轨迹-参见下图。xxxyyy 样本轨道为蓝色,麻烦的轨道类型以绿色绘制,而关注区域则以红色绘制: 每个轨道都是独立实验的结果。几年来已经进行了2000万次实验,但是从那开始只有2000项实验展现了我们绘制的轨迹特征。我们只关心产生轨迹的实验,因此我们的数据集是(大约)两千条轨迹。 这是可能的轨道,进入关注的区域,我们期望的顺序在曲目这样做。估算这个数字是眼前的问题:11110410410^4 我们如何计算一条任意轨道进入关注区域的可能性? 不可能足够快地进行实验,以查看进入关注区域的跟踪的产生频率,因此我们需要从可用数据中推断出结果。 例如,我们已经拟合了给定值,但这并不能充分处理绿色轨迹之类的数据-似乎需要一个包含两个维度的模型。xxxy≥200y≥200y\ge200 我们已经确定了从每个轨道到关注区域的最小距离,但是我们不相信这会产生合理的结果。 1)是否有已知的方法可以使分布适合此类数据进行外推? -要么- 2)是否有明显的方法使用此数据来创建用于生成轨道的模型?例如,使用轨道上的主成分分析作为较大空间中的点,然后对投影到这些成分上的轨道拟合分布(Pearson?)。

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

2
当CFA不能适用于多项目规模时该怎么办?
我不确定如何继续在拉瓦那做CFA。我有172名参与者的样本(我知道对于CFA来说不算多),还有28项具有7点李克特量表的项目,应该加载七个因素。我使用“ mlm”估计量进行了CFA,但模型拟合确实很差(χ2(df = 329)= 739.36;比较拟合指数(CFI)= 0.69;标准均方根残差(SRMR)=。10;近似均方根误差(RMSEA)=。09; RMSEA 90%置信区间(CI)= [.08,.10]。 我尝试了以下方法: 具有一个通用方法因子->的双因子模型未收敛。 序数数据的估计量(“ WLSMV”)—>模型拟合:(χ2(df = 329)= 462;比较拟合指数(CFI)= 0.81;标准化均方根残差(SRMR)=。09;均方根误差近似值(RMSEA)=。05; RMSEA 90%置信区间(CI)= [.04,.06]) 通过减少那些在因子上负荷较低的项目并在特定项目之间增加协方差的项目来简化模型->模型拟合:χ2(df = 210)= 295; 比较拟合指数(CFI)= 0.86;标准化均方根残差(SRMR)=。08; 近似均方根误差(RMSEA)=。07; RMSEA 90%置信区间(CI)= [.06,.08]。 现在我的问题是: 这样的模型应该怎么办? 在统计上正确的做法是什么? 报告它适合还是不适合?以及那些模型中的哪一个? 我很高兴与您讨论此事。 这是原始模型的CFA的lavaan输出: lavaan (0.5-17.703) converged normally after 55 iterations Used Total Number of observations 149 172 …

1
有没有一种方法可以只估计分位数来估计分布参数?
如果只给几个分位数,有没有一种方法可以拟合指定的分布? 例如,如果我告诉您我有一个伽玛分布数据集,则经验的 20%,30%,50%和90%分位数分别是: 20% 30% 50% 90% 0.3936833 0.4890963 0.6751703 1.3404074 我将如何估算参数?有多种方法可以做到这一点,还是已经有一个特定的程序? 更多编辑:我没有特别要求伽玛分布,这只是一个例子,因为我担心我无法适当地解释我的问题。我的任务是给定一些(2-4)个分位数,并希望估计一些分布的(1-3)参数尽可能“接近”。有时候有一个(或无限)精确的解决方案,有时却没有,对吧?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.