统计和大数据

5

我对在回归模型中包含滞后因变量是否合法感到非常困惑。基本上，我认为，如果该模型关注Y的变化与其他自变量之间的关系，那么在右侧添加滞后因变量可以确保其他IV之前的系数与Y的先前值无关。有人说，包含LDV将使其他IV的系数下降。还有一些人说可以包含LDV，它可以减少串行相关性。我知道这个问题在哪种回归方面都相当普遍。但是我的统计知识是有限的，而且当焦点是Y随时间的变化时，我真的很难确定是否应将滞后因变量包括在回归模型中。还有其他方法来处理Xs对Y随时间的变化的影响吗？我也尝试了与DV不同的变化评分，但是在那种情况下R平方非常低。

26 regression lags misspecification

2

logit值实际上是什么意思？

我有一个logit模型，在很多情况下，这个模型的数字在0到1之间，但是我们怎么解释呢？让我们以0.20的logit作为例子我们能否断言一个案例属于B组vs A组的可能性为20％？这是解释logit值的正确方法吗？

26 regression logistic logit

2

我是否在lmer中正确指定了我的模型？

我搜寻了很多帮助站点，但仍然对如何在混合模型中指定更复杂的嵌套术语感到困惑。我也困惑，使用:和/和|在指定的交互，并使用随机因素嵌套lmer()在lme4包中R。出于这个问题的目的，我们假设我已使用以下标准统计模型准确地描绘了我的数据：是固定的，并且是随机的。（隐式）嵌套在中。ÿ我Ĵ ķ= 你+ 站一世+ 拖曳j （我）+ 天ķ+ （站× 天）我ķ+ （拖曳× 天）j （i ）kÿ一世Ĵķ=ü+站一世+拖Ĵ（一世）+天ķ+（站×天）一世ķ+（拖×天）Ĵ（一世）ķ Y_{ijk} = u + \text{station}_i + \text{tow}_{j(i)} + \text{day}_k + (\text{station}\times \text{day})_{ik} + (\text{tow}\times\text{day})_{j(i)k} stationtowdayTowstation 换句话说，我希望我的模型包括Station（i，fixed），Tow（j，random，隐式嵌套在Station中），Day（k，random），以及Tow和Day之间的交互以及Day之间的交互和车站。我已经咨询了统计学家以创建我的模型，并且目前认为它可以代表我的数据，但同时也会在我的文章底部添加对我的数据的描述，以免造成混乱。到目前为止，我能够拼凑的内容如下lmer： lmer(y ~ station + (1|station:tow) + (1|Day) + (1|station:day) + (1|tow:day), data=my.data) 这是否准确地描绘了我的统计模型？如果无法正确阅读我的代码，有什么建议吗？我已经加粗了我在lmer公式中难以指定的特定术语＃1 当拖曳是随机的且站是固定的时，在站内嵌套的拖曳我很困惑，但是关于使用:和区分随机的嵌套和交互项/。在上面的示例中，我(1|station:tow)希望读取嵌套在站内的丝束。我在各个网站上都读到了相互矛盾的评论，无论我是应该使用:还是使用/随机(1|...)格式lmer。 …

26 r mixed-model lme4-nlme

2

在插入符号中，cv和repeated cv之间的真正区别是什么？

这与问题Caret重采样方法相似，尽管它实际上从未以商定的方式回答问题的这一部分。插入符号的火车功能提供cv和repeatedcv。说的有什么区别： MyTrainControl=trainControl( method = "cv", number=5, repeats=5 ) 与 MyTrainControl=trainControl( method = "repeatedcv", number=5, repeats=5 ) 我知道cv将集合分解为k折（参数number），然后重新启动并运行参数repeats次数。我能想到的唯一的事情是，也许经常cv与repeats使用相同的确切指标为每次折叠？基本上cv每次都在相同的精确折叠上运行，也许repeatedcv每次都选择新的折叠？有人可以澄清吗？

26 r machine-learning caret

3

AIC模型比较的先决条件

要使AIC模型比较正常工作，必须满足哪些先决条件？当我像这样进行比较时，我只是遇到了这个问题： > uu0 = lm(log(usili) ~ rok) > uu1 = lm(usili ~ rok) > AIC(uu0) [1] 3192.14 > AIC(uu1) [1] 14277.29 这样我就证明了log变量的转换usili。但是我不知道在例如因变量不同的情况下是否可以对模型进行AIC比较？理想的答案应包括先决条件（数学假设）列表。

26 regression model-selection aic model-comparison nested-models

4

具有连续和分类特征的预测

一些预测建模技术更适合处理连续的预测变量，而另一些则更适合处理分类变量或离散变量。当然，存在将一种类型转换为另一种类型的技术（离散，伪变量等）。但是，是否有任何设计用来同时处理两种类型的输入而无需简单地转换要素类型的预测建模技术？如果是这样，这些建模技术是否倾向于在更适合它们的数据上更好地工作？最接近的事，我知道的是，通常决策树处理离散数据很好，他们处理连续的数据，而不需要在前面离散化。但是，这并不是我一直在寻找的东西，因为有效地分割连续特征只是动态离散化的一种形式。作为参考，以下是一些相关的，不可重复的问题：预测连续变量时应如何实施决策树拆分？当我将分类预测变量和连续预测变量混合使用时，可以使用多元回归吗？将分类数据视为连续的有意义吗？连续和分类变量数据分析

26 classification predictive-models categorical-data continuous-data discrete-data

1

PCA，LDA，CCA和PLS

PCA，LDA，CCA和PLS有何关系？它们似乎都是“谱”和线性代数，并且非常好理解（例如围绕它们建立了50多年的理论）。它们用于非常不同的事物（用于降维的PCA，用于分类的LDA，用于回归的PLS），但它们仍然感觉非常紧密。

26 pca discriminant-analysis partial-least-squares canonical-correlation

6

在多个时间序列上估计相同模型

我有时间序列的新手背景（某些ARIMA估计/预测），并且遇到了我不完全了解的问题。任何帮助将不胜感激。我正在分析多个时间序列，这些时间序列都在相同的时间间隔内，并且都在相同的频率下，都描述了相似的数据类型。每个系列只是一个变量，我没有其他对应的预测变量。我被要求估计一个描述所有系列的单一模型-例如，假设我可以找到一个具有相同阶数，系数等的ARIMA（p，d，q），可以适合所有系列。我的主管不希望我单独估计每个系列，也不希望我做某种带有系列之间依存关系的VAR模型。我的问题是：我什至会称这样的模型，我将如何估计/预测呢？如果您更容易使用代码示例，那么我会说SAS和R。

26 time-series

9

统计人员无法自动化执行哪些操作？

软件最终会使统计人员过时吗？不能编程到计算机上的操作已完成？

26 machine-learning dataset careers

3

如何计算两个法线均值之比的置信区间

我想为两个均值之比得出置信区间的限制。假设和是独立的，平均比。我试图解决：但在许多情况下（无根）无法求解该方程式。难道我做错了什么？有没有更好的方法？谢谢X 1〜Ñ （θ 1，σ 2）X 2〜Ñ （θ 2，σ 2）Γ = θ 1 / θ 2镨（- Ž （α / 2 ））≤ X 1 - Γ X 2 / σ √100 （1 - α ）％100(1−α)%100(1-\alpha)\%X1个〜ñ（θ1个，σ2）X1∼N(θ1,σ2)X_1 \sim N(\theta_1, \sigma^2)X2〜ñ（θ2，σ2）X2∼N(θ2,σ2)X_2 \sim N(\theta_2, \sigma^2)Γ = θ1个/ θ2Γ=θ1/θ2\Gamma = \theta_1/\theta_2PR （- ž（α / …

26 normal-distribution mean

1

高斯模型中最小二乘和MLE之间的等价关系

我是机器学习的新手，并且正在尝试自己学习。最近，我正在阅读一些讲义，并提出了一个基本问题。幻灯片13表示“最小二乘估计与高斯模型下的最大似然估计相同”。看来这很简单，但我看不到这一点。有人可以解释一下这是怎么回事吗？我对看数学感兴趣。稍后我将尝试查看Ridge和Lasso回归的概率观点，因此，如果有任何建议对我有帮助，也将不胜感激。

26 regression bayesian least-squares

4

特征数量与观测值数量

关于功能数量和训练“稳健”分类器所需的观察数量之间的关系，是否有任何论文/书籍/想法？例如，假设我有两个类的1000个要素和10个观察值作为训练集，而其他10个观察值作为测试集。我训练了一些分类器X，它在测试集上为我提供90％的灵敏度和90％的特异性。假设我对这种准确性感到满意，并据此可以说它是一个很好的分类器。另一方面，我仅使用10个点就近似了1000个变量的函数，这似乎不是很...稳健吗？

26 machine-learning

2

支持向量机和回归

关于支持向量机如何处理分类已经进行了精彩的讨论，但是我对支持向量机如何推广到回归感到非常困惑。有人愿意启发我吗？

26 regression machine-learning svm

4

二项式，负二项式和Poisson回归之间的差异

我正在寻找有关二项式，负二项式和泊松回归之间差异的信息，以及这些回归最适合哪种情况。我是否可以在SPSS中执行任何测试，以告诉我这些回归中哪一个最适合我的情况？另外，由于没有在回归部分可以看到的选项，因此如何在SPSS中运行泊松或负二项式？如果您有任何有用的链接，我将非常感谢。

26 spss references binomial poisson-distribution negative-binomial

4

内部与外部交叉验证和模型选择

我的理解是，通过交叉验证和模型选择，我们尝试解决两件事： P1。用我们的样本进行训练时估计人口的预期损失 P2。测量并报告我们对该估计的不确定性（方差，置信区间，偏差等）标准做法似乎是进行反复交叉验证，因为这会减少我们估算器的差异。但是，在报告和分析方面，我的理解是内部验证比外部验证要好，因为：最好报告：我们的估算器的统计数据，例如，对整个样本（在本例中为CV样本）的置信区间，方差，均值等。比报告：由于以下原因，我们在原始样本的保留子集上的估计量损失：（i）这将是一次测量（即使我们使用CV选择估算器）（ii）由于我们必须为保留集留出空间，因此我们将使用比原始样本小的集（例如CV集）来训练我们用于此单一测量的估计量。这导致P1中的估计更加偏颇（悲观）。它是否正确？如果不是为什么？背景：很容易找到建议将样本分为两组的教科书：该CV集，随后，反复分为训练和验证集。在保持退出（测试）集，只在最后用来报告估计性能我的问题是试图了解这种教科书方法的优点和优势，因为我们的目标是在本文开头真正解决问题P1和P2。在我看来，报告保留测试集是一种不好的做法，因为对CV样本的分析会提供更多信息。嵌套K折与重复K折：原则上，可以将保留与常规K折相结合以获得嵌套K折。这将使我们能够评估估计量的变异性，但在我看来，对于相同数量的总训练模型（总折数），重复K折将产生比嵌套K-误差更小，更准确的估计量折。要看到这个：对于相同的K，重复的K折使用的总样本量要比嵌套K折的样本大（即，导致较低的偏差） 100次迭代只会以嵌套K折（K = 10）给出估计值的10次测量，但是以K折为100次测量（更多的测量会导致P2的方差更低）这个推理怎么了？

26 estimation cross-validation references