Questions tagged «modeling»

该标签描述了创建统计或机器学习模型的过程。始终添加更具体的标签。


3
通过方向独立变量来检验正态分布的DV的关联性吗?
是否存在关于正态分布因变量是否与方向分布变量相关联的假设检验? 例如,如果一天中的时间是解释性变量(并且假设诸如星期几,一年中的月份等不相关),这就是如何解释11pm 比 1am 早 22小时的事实,以及2小时落后于联想的测试凌晨1点?我是否可以测试连续时间是否解释了因变量,而不假设在晚上11:59之后一分钟没有出现午夜12:00? 此测试是否也适用于离散方向性(模块化?)解释变量?还是需要单独测试?例如,如何测试是否按年份的月份解释因变量(假设年份的日期和季节以及特定的年份或十年无关紧要)。一年中的月份绝对会忽略顺序。但是将一年中的月份视为标准序数变量(例如Jan = 1 ... Dec = 12)忽略了1月在11月之后的两个月。

1
使分布适合空间数据
从mathoverflow交叉发布我的问题,以找到一些特定于统计信息的帮助。 我正在研究一个物理过程,该过程生成的数据可以很好地投影到具有非负值的两个维度中。每个过程都有 -点的(投影)轨迹-参见下图。xxxyyy 样本轨道为蓝色,麻烦的轨道类型以绿色绘制,而关注区域则以红色绘制: 每个轨道都是独立实验的结果。几年来已经进行了2000万次实验,但是从那开始只有2000项实验展现了我们绘制的轨迹特征。我们只关心产生轨迹的实验,因此我们的数据集是(大约)两千条轨迹。 这是可能的轨道,进入关注的区域,我们期望的顺序在曲目这样做。估算这个数字是眼前的问题:11110410410^4 我们如何计算一条任意轨道进入关注区域的可能性? 不可能足够快地进行实验,以查看进入关注区域的跟踪的产生频率,因此我们需要从可用数据中推断出结果。 例如,我们已经拟合了给定值,但这并不能充分处理绿色轨迹之类的数据-似乎需要一个包含两个维度的模型。xxxy≥200y≥200y\ge200 我们已经确定了从每个轨道到关注区域的最小距离,但是我们不相信这会产生合理的结果。 1)是否有已知的方法可以使分布适合此类数据进行外推? -要么- 2)是否有明显的方法使用此数据来创建用于生成轨道的模型?例如,使用轨道上的主成分分析作为较大空间中的点,然后对投影到这些成分上的轨道拟合分布(Pearson?)。

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

2
PyMC中两个正态分布的拟合模型
由于我是一名试图学习更多统计信息的软件工程师,因此我什至在开始之前就必须原谅我,所以这是一个严重的问题。 我一直在学习PyMC,并通过一些(非常)简单的示例进行研究。我无法使用(并且无法找到任何相关示例)的一个问题是将模型拟合到由两个正态分布生成的数据。 假设我有1000个值;从a生成Normal(mean=100, stddev=20)500个,从a生成另一个500个Normal(mean=200, stddev=20)。 如果我想对它们拟合模型,即使用PyMC确定两个均值和单个标准差。我知道这有点像... mean1 = Uniform('mean1', lower=0.0, upper=200.0) mean2 = Uniform('mean2', lower=0.0, upper=200.0) precision = Gamma('precision', alpha=0.1, beta=0.1) data = read_data_from_file_or_whatever() @deterministic(plot=False) def mean(m1=mean1, m2=mean2): # but what goes here? process = Normal('process', mu=mean, tau=precision, value=data, observed=True) 也就是说,生成过程是正常的,但是mu是两个值之一。我只是不知道如何表示值来自m1还是之间的“决定” m2。 也许我只是完全采用了错误的方法来对此建模?谁能给我指出一个例子?我可以读BUGS和JAGS,所以真的没事。
10 modeling  python  pymc 

1
具有学生t错误的回归没有用吗?
请参阅编辑。 当您的数据尾巴很重时,进行带有Student-t错误的回归似乎是一件直观的事情。在探索这种可能性时,我遇到了这篇论文: TS的Breusch,JC的Robertson和AH的威尔士(1997年11月1日)。皇帝的新装:对多元t回归模型的评论。Statistica Neerlandica,51,3.)(link,pdf) 该论据认为,在某种意义上,比例参数和自由度参数是无法相互识别的,因此,进行带有t误差的回归不会做超出标准线性回归的任何事情。 Zellner(1976)提出了一种回归模型,其中数据向量(或误差向量)表示为来自多元Student t分布的实现。该模型引起了相当大的关注,因为它似乎扩大了通常的高斯假设,以允许更严重的误差分布。文献中的许多结果表明,在较宽的分布假设下,高斯模型的标准推理程序仍然适用,从而导致了标准方法的鲁棒性。我们证明,尽管从数学上讲这两个模型是不同的,但出于统计推断的目的,它们是无法区分的。多元t模型的经验含义与高斯模型的经验含义完全相同。因此,建议采用更广泛的数据分布表示形式是虚假的,而健壮性的主张则具有误导性。这些结论是从频繁主义者和贝叶斯主义者的角度得出的。 这让我感到惊讶。 我没有数学上的技巧来很好地评估他们的论点,所以我有两个问题:确实,用t误差进行回归通常没有用吗?如果它们有时有用,是我误解了本文还是引起误解?如果它们没有用,这是众所周知的事实吗?还有其他方法可以处理大量拖尾的数据吗? 编辑:仔细阅读第3段和第4节,似乎下面的文章并没有在谈论我作为学生t回归的想法(错误是独立的单变量t分布)。错误是从单一分布中得出的,并且不是独立的。如果我理解正确,那么这种缺乏独立性正是解释为什么您无法独立估计自由度和自由度的原因。 我猜这篇文章提供了一份避免阅读的论文清单。

1
SEM建模帮助(OpenMx,polycor)
我尝试将SEM应用于一个数据集时遇到很多问题。 我们假设存在5个潜在因子A,B,C,D,E,分别具有指标。A1至A5(有序因子),B1至B3(定量),C1,D1,E1(所有后三个有序因子,E1只有2个水平。我们对所有因子之间的协方差很感兴趣。 我曾尝试OpenMx这样做。这是我的一些尝试: 我首先尝试对所有有序因子使用阈值矩阵,但是收敛失败。 我决定hetcor通过库中的函数使用多色/多序列相关性来代替原始数据polycor(我计划自举样本以获得置信区间)。它也无法收敛! 我试图限制个人使用完整的数据,但是它也失败了! 我的第一个问题是:是否有一种自然的方式来解释这些故障? 我的第二个问题是:我该怎么办??? 编辑:对于将来可能遇到相同问题的读者,在阅读完polycor... 中的功能代码后,解决方案仅是hetcor()与option 一起使用std.err=FALSE。这给出的估计与StasK给出的估计非常相似。我现在没有时间去更好地了解这里发生的事情!StasK很好地回答了以下问题。 我还有其他问题,但在此之前,这里是一个带有RData文件的URL,该文件包含一个L1仅包含完整数据的数据框:data_sem.RData 这里的几行代码显示的失败hetcor。 > require("OpenMx") > require("polycor") > load("data_sem.RData") > hetcor(L1) Erreur dans cut.default(scale(x), c(-Inf, row.cuts, Inf)) : 'breaks' are not unique De plus : Il y a eu 11 avis (utilisez warnings() pour les visionner) > head(L1) A1 A2 …

1
是否有用于训练统计模型的“足够”数据的概念?
我从事很多统计建模工作,例如隐马尔可夫模型和高斯混合模型。我看到在每种情况下训练好的模型都需要大量的数据(对于HMM来说> 20000句子),这些数据是从与最终使用类似的环境中获取的。我的问题是: 文献中是否有“足够的”训练数据的概念?多少训练数据“足够好”? 如何计算要训练的“良好”(识别准确率高(> 80%)的模型)需要多少个句子? 我如何知道模型是否经过正确训练?模型中的系数会开始出现随机波动吗?如果是这样,我该如何区分由于模型更新而引起的随机波动和实际变化? 如果需要更多标签,请随时重新标记该问题。


4
开始进行统计建模的提示和技巧?
我从事数据挖掘领域的工作,很少接受统计学方面的正规教育。最近,我读了很多关于贝叶斯学习和挖掘范式的工作,我觉得这很有趣。 我的问题是(分为几个部分),考虑到一个问题,是否有一个通用的框架可以用来构建统计模型?给定想要为其基础流程建模的数据集时,您要做的第一件事是什么?有没有好的书籍/教程可以解释这个过程,或者是经验的问题?在构建模型时,推理是在您的思维的最前沿吗?还是在担心如何使用数据进行计算之前首先要描述数据? 任何见识将不胜感激!谢谢。

1
此过程的可能性如何?
病人被送进医院。他们的住院时间取决于两件事:他们受伤的严重程度,以及他们愿意为住院而支付多少保险。如果某些患者的保险决定停止支付住宿费用,则某些患者会过早离开。 假设以下内容: 1)停留时间是泊松分布的(参数为λλ\lambda,现在假设是暂时的,可能是现实的假设,也可能不是)。 2)各种保险计划涵盖7、14和21天的住宿时间。许多患者将在停留7,14或21天后离开(因为他们的保险用完了,必须离开)。 如果要从此过程中获取数据,它可能如下所示: 如您所见,在7、14和21天都有峰值。这些是在保险结束后离开的患者。 显然,可以将数据建模为混合模型。我很难记下这种分布的可能性。这就像零膨胀的泊松,但通货膨胀率分别为7、14和21。 此数据的可能性是多少?可能性背后的思考过程是什么?


2
模型错误指定下的统计推断
我有一个一般的方法论问题。之前可能已经回答过,但是我无法找到相关的线程。我将感谢可能重复的指针。 (这是一个很好的答案,但是没有答案。即使在回答时,这在精神上也很相似,但是从我的角度来看,后者太具体了。这也很贴切,在发布问题后才发现。) 主题是,当看到数据之前制定的模型未能充分描述数据生成过程时,如何进行有效的统计推断。这个问题很笼统,但是我将提供一个特定的例子来说明这一点。但是,我希望答案会集中在一般的方法论问题上,而不是挑剔特定示例的细节。 考虑一个具体的示例:在时间序列设置中,我假设数据生成过程为 其中。我的目标是检验的主题假设。我根据模型以获得与我的主题假设相对应的可行的统计对应关系,即 到目前为止,一切都很好。但是,当我观察数据时,我发现该模型无法充分描述数据。假设存在线性趋势,因此真实数据生成过程为 其中yt=β0+β1xt+ut(1)(1)yt=β0+β1xt+ut y_t=\beta_0 + \beta_1 x_t+u_t \tag{1} ut∼i.i.N(0,σ2u)ut∼i.i.N(0,σu2)u_t \sim i.i.N(0,\sigma_u^2)dydx=1dydx=1\frac{dy}{dx}=1(1)(1)(1)H0: β1=1.H0: β1=1. H_0\colon \ \beta_1=1. yt=γ0+γ1xt+γ2t+vt(2)(2)yt=γ0+γ1xt+γ2t+vt y_t=\gamma_0 + \gamma_1 x_t+\gamma_2 t + v_t \tag{2} vt∼i.i.N(0,σ2v)vt∼i.i.N(0,σv2)v_t \sim i.i.N(0,\sigma_v^2)。 如何对主题假设进行有效的统计推断?dydx=1dydx=1\frac{dy}{dx}=1 如果我使用原始模型,则会违反其假设,并且的估计量不会具有否则会好的分布。因此,我无法使用检验检验假设。β1β1\beta_1ttt 如果查看数据后,我从模型切换到,并将我的统计假设从更改为,则满足模型假设,我得到一个表现良好的估计量,并且可以使用轻松测试。 但是,从切换到(1)(1)(1)(2)(2)(2)H0: β1=1H0: β1=1H_0\colon \ \beta_1=1H′0: γ1=1H0′: γ1=1H'_0\colon \ \gamma_1=1γ1γ1\gamma_1H′0H0′H'_0ttt(1)(1)(1)(2)(2)(2)可以从我要检验假设的数据集中获悉。这使得估算器分布(以及推断也)取决于基础模型的变化,这是由于观察到的数据所致。显然,引入这种条件并不令人满意。 有没有好的出路?(如果不是常客,那么也许是一些贝叶斯替代方法?)

2
模拟板球保龄球手击球手
我有一个数据集,详细介绍了许多板球比赛(数千场)。在板球比赛中,“保龄球手”反复向“蝙蝠侠”接连投球。圆顶硬礼帽试图使击球手“离开”。在这方面,它与棒球中的投手和击球手非常相似。 如果我将整个数据集除以击球手得到的球的总数除以保龄球的总数,我可以看到投球手得到击球手的平均概率为-大约为0.03(希望我没有错吗?) 我感兴趣的是我可以做些什么,以尝试计算下一个球上某个特定的投球手被一个特定的投球手击出的概率。 数据集足够大,以至于任何给定的投球手都可以将数千个球投向各种击球手。因此,我相信我可以简单地将投球手的出球次数除以他投球的次数,从而计算出该特定投球手从下一个球出局的新概率。 我的问题是数据集不够大,无法保证给定的投球手在给定的击球手处投了统计上显着数量的球。因此,如果我对计算特定投球手面对特定板球手的出局概率感兴趣,我认为这不可能以同样简单的方式完成。 我的问题是以下方法是否有效: 在整个数据集中,球出局的概率为0.03。 如果我计算出平均礼帽A有超过0.06的概率(即,平均礼帽的两倍), 并且平均而言,击球手B的概率超过0.01(是平均击球手的三分之一), 那么可以说那个特定的击球手在那个特定的投球手的下一个球上出球的概率是0.06 *(0.01 / 0.03)= 0.02吗?

5
用图形方式表示大量成对数据点的一种好方法是什么?
在我的领域中,绘制配对数据的常用方法是将一系列倾斜的细线段重叠起来,并用两组的中值和中值CI进行覆盖: 但是,由于数据点的数量变得非常大(在我的情况下,我的数量大约为10000对),这种图变得更加难以阅读: 降低alpha值会有所帮助,但这仍然不是很好。在寻找解决方案时,我遇到了本文,并决定尝试实现“平行线图”。同样,它对于少量数据点也非常有效: ññN 我想我可以分别显示两组的分布,例如使用箱形图或小提琴,并在顶部绘制一条带有误差线的线以显示两个中位数/ CI,但是我真的不喜欢这个想法,因为它无法传达数据的配对性质。 我也不太热衷于2D散点图的概念:我希望使用更紧凑的表示形式,理想情况下是将两组值沿同一轴绘制的表示形式。为了完整起见,以下是二维散点图的数据: 有谁知道一种更好的方法来表示具有很大样本量的配对数据?您能否将我链接到一些示例? 编辑 对不起,我显然在解释我要寻找的东西方面做得不够好。是的,二维散点图确实有效,并且可以通过多种方式进行改进以更好地传达点的密度-我可以根据核密度估计对点进行颜色编码,也可以制作二维直方图,我可以在点等上方绘制轮廓,等等。 但是,对于我要传达的信息,我认为这太过分了。我实际上并不关心显示点本身的2D密度-我需要做的就是以尽可能简单明了的方式显示“条”的值通常大于“点”的值。 ,并且不会丢失数据的基本配对性质。理想情况下,我想沿同一轴而不是正交轴绘制两组的配对值,因为这样可以更直观地进行比较。 也许没有比散点图更好的选择了,但是我想知道是否有其他可行的选择。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.