统计和大数据 modeling

2

我有一些预测模型，我想对其性能进行回测（即，获取我的数据集，将其“倒带”到上一个时间点，并查看该模型的预期性能）。问题是我的某些模型是通过交互过程构建的。例如，按照弗兰克·哈雷尔（Frank Harrell）的回归建模策略中的建议，在一个模型中，我使用了受限制的三次样条来处理特征与响应之间可能的非线性关联。我根据领域知识和关联强度的单变量度量来分配每个样条的自由度。但是，我要允许模型的自由度显然取决于数据集的大小，在进行回测时，数据集的变化很大。如果我不想在每次对模型进行回测时都分别手动选择自由度，那么我还有其他选择吗？再例如，我目前正在通过发现具有高杠杆作用的点来进行离群值检测。如果我愿意手工进行此操作，则只需查看每个高杠杆数据点，仔细检查数据是否干净，然后过滤掉或手工清理。但这依赖于很多领域知识，因此我不知道如何使过程自动化。我将不胜感激建议和解决方案，无论是（a）解决模型构建过程中交互部分自动化的一般问题，还是（b）针对这两种情况的具体建议。谢谢！

9 cross-validation modeling outliers splines overfitting

5

大数据的逻辑回归

我有大约5000个功能的数据集。对于这些数据，我首先使用卡方检验进行特征选择。之后，我得到了大约1500个变量，这些变量与响应变量之间显示出显着的关系。现在，我需要对此进行逻辑回归。我正在为R使用glmulti软件包（glmulti软件包为vlm提供了有效的子集选择），但一次只能使用30个功能，否则其性能会下降，因为数据集中的行数约为20000。是否有其他方法或技术可以解决上述问题？如果我采用上述方法，将需要太多时间来拟合模型。

9 r logistic generalized-linear-model modeling regression-strategies

4

足球比分建模

在Dixon，Coles（1997）中，他们对（4.3）中的两个改进的独立Poisson模型使用了最大似然估计来对足球得分进行建模。我试图使用R来“重现” alpha和beta以及家庭效果参数（第274页，表4），而无需使用任何程序包（也可以使用通常的独立Poisson模型）。我曾尝试使用bivpois包，但不确定如何修改其参数。如果有人可以通过R代码帮助我为数据建模，我将不胜感激-2012/13赛季英超联赛中来自主队和客队的得分。

9 r modeling maximum-likelihood games

3

违反恒定方差假设时可以使用哪种模型？

由于违反恒定方差假设时我们无法拟合ARIMA模型，因此可以使用哪种模型拟合单变量时间序列？

9 time-series modeling forecasting arima

2

如何为相关数据建模伯努利随机变量的总和？

我有几乎相同的问题，例如：如何有效地建模伯努利随机变量的总和？但是设置却大不相同： S=∑i=1,NXiS=∑i=1,NXiS=\sum_{i=1,N}{X_i}，，〜20，〜0.1P(Xi=1)=piP(Xi=1)=piP(X_{i}=1)=p_iNNNpipip_i 我们有伯努利随机变量结果的数据：，Xi,jXi,jX_{i,j}Sj=∑i=1,NXi,jSj=∑i=1,NXi,jS_j=\sum_{i=1,N}{X_{i,j}} 如果我们用最大似然估计来估计（并得到），那么则要大得多，由其他条件期望：pipip_ip^MLEip^iMLE\hat p^{MLE}_iP^{S=3}(p^MLEi)P^{S=3}(p^iMLE)\hat P\{S=3\} (\hat p^{MLE}_i)P^{S=3}(p^MLEi)−P^expected{S=3}≈0.05P^{S=3}(p^iMLE)−P^expected{S=3}≈0.05\hat P\{S=3\} (\hat p^{MLE}_i) - \hat P^{expected} \{S=3\}\approx 0.05 因此，和不能被视为独立的（它们具有较小的依赖性）。XiXiX_{i}XjXjX_{j} (j>k)(j>k)(j>k) 有一些这样的约束：和（已知），这应该有助于估计。pi+1≥pipi+1≥pip_{i+1} \ge p_i∑s≤2P^{S=s}=A∑s≤2P^{S=s}=A\sum_{s \le 2}\hat P\{S=s\}=AP{S}P{S}P\{S\} 在这种情况下，我们如何尝试对伯努利随机变量的总和建模？哪些文献可能对解决任务有用？更新还有一些进一步的想法：（1）可以假设之间的未知依赖关系是在连续1次或更多次成功之后开始的。因此，当，和。XiXi{X_i}∑i=1,KXi>0∑i=1,KXi>0\sum_{i=1,K}{X_i} > 0pK+1→p′K+1pK+1→pK+1′p_{K+1} \to p'_{K+1}p′K+1<pK+1pK+1′<pK+1p'_{K+1} < p_{K+1} （2）为了使用MLE，我们需要最少可疑的模型。这是一个变体： P{X1,...,Xk}=(1−p1)...(1−pk)P{X1,...,Xk}=(1−p1)...(1−pk)P\{X_1,...,X_k\}= (1-p_1) ... (1-p_k)如果对于任何k个，则如果且，并且对于任意k。∑i=1,kXi=0∑i=1,kXi=0\sum_{i=1,k}{X_i} = 0P{X1,...,Xk,Xk+1,...,XN}=(1−p1)...pkP′{Xk+1,...,XN}P{X1,...,Xk,Xk+1,...,XN}=(1−p1)...pkP′{Xk+1,...,XN}P\{X_1,...,X_k,X_{k+1},...,X_N\}= (1-p_1) ... p_k P'\{X_{k+1},...,X_N\}∑i=1,k−1Xi=0∑i=1,k−1Xi=0\sum_{i=1,k-1}{X_i} = …

9 distributions modeling binomial random-variable non-independent

1

我应该重新整理我的数据吗？

我们有一套生物学样品，价格昂贵。我们对这些样本进行了一系列测试，以生成用于构建预测模型的数据。为此，我们将样本分为训练（70％）和测试（30％）组。我们已经成功创建了一个模型，并将其应用于测试集，以发现性能“未达到最佳”。实验人员现在希望改善生物学测试，以创建更好的模型。假设我们无法获得新的样本，您是否建议我们重新整理样本以创建新的训练和验证集或坚持原来的划分。（我们没有任何迹象表明该部门存在问题）。

9 classification modeling experiment-design cross-validation bootstrap

2

计算数据的ROC曲线

因此，我进行了16次试验，试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下，只有试验1为“真阳性”： Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是，我真的不确定如何根据此数据制作ROC曲线（FPR与TPR或FAR与FRR）。哪一个都不重要，但是我只是对如何进行计算感到困惑。任何帮助，将不胜感激。

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

10

您如何绘制结构方程/ MPLUS模型？

我正在寻找一种软件工具（最好是开源的）来高效，简洁地绘制结构方程/混合物模型。在研究了xfig和graphviz之后，我现在坚持使用通用的矢量图形程序包inkscape，因为它似乎最灵活。我想调查stat.stackexchange社区：您如何绘制结构方程/混合物模型？你用什么软件？

9 data-visualization modeling sem software

2

在结合了两个分布的模型中测量拟合优度

我有要建模的双峰数据，并且峰之间有足够的重叠，因此无法独立对待它们。数据的直方图可能看起来像这样：为此，我创建了两个模型：一个模型使用两个Poisson分布，另一个模型使用两个负二项式分布（以解决过度分散问题）。哪种模型可以更准确地确定适合数据的合适方法是什么？我最初的想法是，我可以使用Kolmogorov-Smirnov检验将每个模型与数据进行比较，然后进行似然比检验，看是否一个模型更合适。这有意义吗？如果是这样，我不确定如何执行似然比测试。卡方是否合适，我有多少自由度？如果有帮助，这些模型的一些（非常简化的）R代码可能看起来像这样： ## inital data points a <- read.table("data") #create model data model.pois = c(rpois(1000000,200),rpois(500000,250)) model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5) #Kolmogorov-Smirnov test #use ks.boot, since it's count data that may contain duplicate values kpois = ks.boot(model.pois,a) knb = ks.boot(model.nb,a) #here's where I'd do some sort of likelihood ratio test # …

9 modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio

3

计算最佳的预测变量子集以进行线性回归

为了在具有合适的预测变量的多元线性回归中选择预测变量，有哪些方法可以找到预测变量的“最佳”子集而无需明确测试所有个子集？在“应用的生存分析”中，Hosmer＆Lemeshow引用了Kuk的方法，但是我找不到原始论文。谁能描述这种方法，或者甚至更好的一种更现代的技术？可以假设正态分布的错误。ppp2p2p2^p

9 modeling regression multivariable model-selection feature-selection

4

计算用于模型拟合/训练和验证的样本数据的比率

提供了我计划用来预测数据的样本量“ N”。有哪些方法可以细分数据，以便我使用其中的一些数据来建立模型，而其余数据可以用来验证模型？我知道对此没有黑白答案，但是了解一些“经验法则”或通常使用的比率将很有趣。我知道在大学时，我们的一位教授曾经说过要在60％的情况下建模并在40％的情况下进行验证。

9 machine-learning modeling sample validation

Questions tagged «modeling»