统计和大数据 predictive-models

3

因此，我一直在阅读一些有关建模的书籍（或其中的一部分）（包括F. Harrell的“回归建模策略”），因为我目前的现状是我需要基于二进制响应数据进行逻辑模型处理。我的数据集中有连续数据，分类数据和二进制数据（预测变量）。基本上我现在大约有100个预测变量，对于一个好的模型来说，显然太多了。同样，这些预测变量中有许多是相关的，因为尽管它们有些不同，但它们通常基于相同的度量。无论如何，我一直在阅读中，使用单变量回归和逐步技术是您可以做的一些最糟糕的事情，目的是减少预测变量的数量。我认为LASSO技术还可以（如果我正确理解的话），但是显然您不能在100个预测变量上使用它，并且认为会带来任何好处。那么我在这里有什么选择呢？我是否真的必须坐下来，与我的所有主管和工作中的聪明人交谈，并真的考虑一下（应该是错误的）前5名最佳预测指标是什么，或者我应该选择哪种方法？考虑代替吗？是的，我也知道这个话题已经被广泛讨论（在线和书籍中），但是当您对该建模领域的新手了解时，有时似乎有点不知所措。编辑：首先，我的样本量为+1000名患者（这在我的领域中是很多），并且其中有70-170个阳性反应（例如，其中170个是阳性反应，而其中一种情况约为900个没有反应）。基本上，该想法是预测放射治疗后的毒性。我有一些预期的二元响应数据（即毒性，或者是毒性（1），或者是毒性（0）），然后我有几种类型的指标。一些指标是患者特定的，例如年龄，使用的药物，器官和目标体积，糖尿病等，然后我基于目标的模拟治疗场获得了一些治疗特定的指标。从中我可以找到几个预测因子，这些预测因子在我的领域中通常是高度相关的，因为大多数毒性与所接收的辐射量（含糖量）高度相关。因此，例如，如果我治疗肺部肿瘤，则有一定剂量的剂量可能会击中心脏。然后，我可以计算出多少x心脏体积接收到x剂量剂量，例如“ 只需选择一个开始即可（尽管过去的实验当然尝试过，而且我也希望这样做），因为我需要“确切地”知道在何种程度上心脏毒性之间实际上存在很大的相关性和体积剂量（再次举例来说，还有其他类似的指标，其中应用了相同的策略）。是的，这几乎就是我的数据集的样子。一些不同的指标，有些有些相似。只需选择一个开始即可（尽管过去的实验当然尝试过，而且我也希望这样做），因为我需要“确切地”知道在何种程度上心脏毒性之间实际上存在很大的相关性和体积剂量（再次举例来说，还有其他类似的指标，其中应用了相同的策略）。是的，这几乎就是我的数据集的样子。一些不同的指标，有些有些相似。几乎是我的数据集的样子。一些不同的指标，有些有些相似。几乎是我的数据集的样子。一些不同的指标，有些有些相似。然后，我要做的是建立一个预测模型，这样我就可以预测哪些患者有发生某种毒性的风险。而且由于响应数据是二进制的，所以我的主要思想当然是使用逻辑回归模型。至少这是其他人在我领域所做的。但是，在完成许多已经完成的论文时，其中有些似乎是错误的（至少在阅读这些特定类型的建模书籍（例如F. Harrel's）时）。许多人使用单变量回归分析来选择预测变量，并将其用于多元分析（如果我没记错的话，建议您这样做），并且许多人使用逐步技术来减少预测变量的数量。当然，这还不是全部。许多人使用LASSO，PCA，交叉验证，自举等，但是我所看过的关于功能选择，这可能是我现在的位置。如何选择/找到在模型中使用的正确预测变量？我曾经尝试过这些单变量/逐步方法，但是每次我都想：“为什么这样做，如果错了？”。但是也许这是一个很好的方法，至少在最后显示了“好的模型”以正确的方式与“坏模型”以错误的方式相抵触。因此，我现在可能会以某种错误的方式进行操作，我需要帮助的是以正确的方式进行操作。很抱歉，编辑时间太长。编辑2：只是我的数据看起来像一个简单的例子： 'data.frame': 1151 obs. of 100 variables: $ Toxicity : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 1 1 1 1 ... $ Age : num 71.9 64 52.1 65.1 63.2 …

9 logistic predictive-models feature-selection regression-strategies

1

在物流回归中使用“预测”一词有多公平？

我的理解是，即使回归也不能给出因果关系。它只能给出y变量和x变量以及可能的方向之间的关联。我对么？即使在大多数课程教科书和在线的各种课程页面上，我也经常发现类似于“ x预测y”的短语。您通常将回归变量称为预测变量，将y称为响应。将其用于线性回归有多公平？逻辑回归如何？（如果我确实有一个阈值t，可以与之比较概率？）

9 regression logistic predictive-models terminology causality

2

耦合来自具有多个空间分辨率/尺度的源的时间序列信息

我有许多来自不同传感器的卫星光栅图像。根据这些，较粗的那些具有非常丰富的时间分辨率。中分辨率栅格的采集日期往往较少，但仍可获得一定程度的信息。较高分辨率的时间分辨率非常低，在不到两年的时间内从2到6个观测日期跨越。我想知道是否有人以任何方式努力研究这种多尺度时间序列？我希望使用较粗略的可用信息来预测较细微的将来值。对我来说有意义的是，数据必须相关（是的，图像覆盖相同的区域），但是我不知道如何在预测模型中开始耦合此信息。

9 time-series machine-learning predictive-models multivariate-regression

1

隐马尔可夫模型用于事件预测

问题：在隐式马尔可夫模型的合理实现下进行设置吗？我有一组108,000观察数据（在100天的时间内进行），并且2000在整个观察时间范围内大约都有事件发生。数据如下图所示，其中观察到的变量可以采用3个离散值，红色列突出显示事件时间，即：[ 1 ， 2 ，3 ][1个，2，3][1,2,3]ŤËŤËt_E 如图中红色矩形所示，我对每个事件都剖析了{到 }，将它们有效地视为“事件前窗口”。ŤËŤËt_EŤË− 5ŤË-5t_{E-5} HMM训练：我计划使用Pg上建议的多观察序列方法，基于所有“事前窗口” 训练隐马尔可夫模型（HMM）。Rabiner 论文 273 。希望这将使我能够训练HMM，以捕获导致事件的序列模式。 HMM预测：然后，我计划使用此HMM 预测新一天的对，其中将是一个滑动窗口矢量，实时更新以包含当前时间至随着时间的推移。升Ò 克[ P（O b s e r v a t i o n s | H中号中号）]升ØG[P（ØbsË[Rv一个Ť一世Øñs|H中号中号）]log[P(Observations|HMM)]Øb 小号Ë - [R v 一个吨我ö Ñ 小号ØbsË[Rv一个Ť一世ØñsObservationsŤŤtŤ - 5Ť-5t-5 对于与“事前窗口”类似的，我希望看到增加。实际上，这应该使我能够在事件发生之前进行预测。升Ò 克[ P（O b s e r v …

9 time-series machine-learning predictive-models markov-chain hidden-markov-model

1

预测销售的独特（？）想法

我正在开发模型来预测产品的总销售额。我大约有一年半的预订数据，因此我可以进行标准的时间序列分析。但是，对于每个已关闭或丢失的“机会”（潜在销售），我也有很多数据。“机会”沿着管道的各个阶段进行，直到关闭或丢失为止。他们还具有有关潜在买家，销售人员，互动历史记录，行业，预计预订量等的关联数据。我的目标是最终预测总预订量，但我想考虑所有有关当前“机会”的信息，这是预订的真正“根本原因”。我的一个想法是依次使用两个不同的模型，如下所示：使用历史“机会”构建一个模型，该模型可预测单个“机会”引起的预订量（此步骤中，我可能会使用随机森林或什至是简单的线性回归）。使用1中的模型来预测当前正在准备中的所有“机会”的估计预订量，然后基于每个“机会”被创建的月份对这些估计值求和。使用时间序列模型（可能是ARIMA？），使用1.5年的每月历史时间序列数据和该月创建的所有“商机”的预测总预订量（使用1中的模型）。可以肯定的是，这些机会转化为实际的预订会有滞后，但是时间序列模型应该能够应对滞后。听起来如何？我已经阅读了很多有关时间序列和预测销售的信息，从我的判断中可以看出，这是一种独特的方法。因此，我非常感谢您的任何反馈！

9 predictive-models forecasting econometrics

5

预先聚类有助于建立更好的预测模型吗？

对于流失建模的任务，我正在考虑：计算数据的k个聚类分别为每个集群构建k个模型。这样做的理由是，没有证据可以证明子代客群体是同质的，因此有理由假设数据生成过程可能因不同的“组”而异。我的问题是，这是否合适？它违反任何东西，还是出于某种原因被认为是不好的？如果是这样，为什么？如果不是，您是否会分享有关该问题的一些最佳实践？第二件事-做预聚类通常比模型树好还是坏（如Witten，Frank中定义的那样，分类/回归树在叶子上有模型。直觉上看来，决策树阶段只是聚类的另一种形式，但是如果它比“常规”群集有任何优势，请访问idk。）。

9 machine-learning clustering data-mining predictive-models

1

使用SVM处理不平衡的多类数据集的最佳方法

我正在尝试在相当不平衡的数据上使用SVM构建预测模型。我的标签/输出有三个类别，正，中性和负。我会说正面的例子约占我数据的10-20％，中立的约占50-60％，负数约占30-40％。我正在尝试平衡类，因为与类之间的错误预测相关的成本并不相同。一种方法是对训练数据进行重采样并生成一个相等的数据集，该数据集比原始数据集更大。有趣的是，当我这样做时，我倾向于对其他类别做出更好的预测（例如，当我平衡数据时，我增加了正面类别的示例数量，但在样本预测之外，负面类别的表现更好）。任何人都可以大致解释为什么会这样吗？如果我增加否定类别的榜样数量，我会从样本预测（例如更好的预测）中得到与肯定类别相似的东西吗？关于如何通过对错误分类施加不同的成本或使用LibSVM中的类权重来解决不平衡数据的其他想法也非常开放，尽管我不确定如何正确选择/调整那些数据。

9 machine-learning predictive-models svm unbalanced-classes

Questions tagged «predictive-models»