Questions tagged «predictive-models»

预测模型是统计模型,其主要目的是为了最佳地预测系统的其他观察结果,而不是其目的是测试特定假设或以机械方式解释现象的模型。因此,预测模型不太强调可解释性,而更强调绩效。

1
我们如何预测罕见事件?
我正在开发保险风险预测模型。这些模型具有“罕见事件”的特征,例如航空公司的空机预测,硬件故障检测等。准备数据集时,我尝试应用分类,但是由于否定案例的比例很高,因此无法获得有用的分类器。 除了高中统计课程外,我在统计和数据建模方面没有太多经验,所以我有点困惑。 首先想到的是,我一直在考虑使用不均匀的泊松过程模型。我根据事件数据(日期,纬度,经度)对它进行了分类,从而可以很好地估计在特定日期,特定地点的特定时间发生风险的可能性。 我想知道,预测稀有事件的方法/算法是什么? 您如何建议您解决此问题?

1
如何用样条/平滑回归预测新数据
在使用平滑/样条线作为预测模型时,谁能提供关于如何对新数据进行预测的概念性解释?例如,给定一个模型,该模型在R gamboost的mboost包中使用创建,带有p样条曲线,那么如何预测新数据?训练数据使用了什么? 假设自变量x有一个新值,并且我们要预测y。在训练模型时是否使用结或df将用于创建样条曲线的公式应用于该新数据值,然后将来自训练模型的系数应用于输出预测? 这是R的示例,对于新数据mean_radius = 15.99,预测在概念上将输出899.4139吗? #take the data wpbc as example library(mboost) data(wpbc) modNew<-gamboost(mean_area~mean_radius, data = wpbc, baselearner = "bbs", dfbase = 4, family=Gaussian(),control = boost_control(mstop = 5)) test<-data.frame(mean_radius=15.99) predict(modNew,test)

7
在模型构建中避免社会歧视
我有一些问题来自亚马逊最近的招聘丑闻,在那起丑闻中,他们被指控在招聘过程中歧视妇女。更多信息在这里: Amazon.com Inc.的机器学习专家发现了一个大问题:他们的新招聘引擎不喜欢女性。 自2014年以来,该团队就一直在构建计算机程序来审查求职者的简历,以机械化寻找顶尖人才的目标 ……该公司的实验性招聘工具使用人工智能为求职者提供了1到5星的评分…… 但到2015年,公司意识到其新系统并未以性别中立的方式对软件开发人员职位和其他技术职位的候选人进行评级。 那是因为亚马逊的计算机模型经过培训,可以通过观察十年来提交给公司的简历中的模式来审查申请人。大多数人来自男性,这反映了整个科技行业中男性的主导地位。(有关技术领域性别崩溃的图表,请参阅:此处)实际上,亚马逊的系统告诉自己,男性候选人更可取。它对包括“妇女”一词的简历进行了惩罚,例如“妇女的象棋俱乐部队长”。知情人士说,这降低了两所女子大学的毕业生的等级。他们没有指定学校的名称。 亚马逊对程序进行了编辑,以使其对这些特定条款保持中立。知情人士说,但这不能保证机器不会设计出其他方法来对候选人进行分类,这可能会造成歧视。 西雅图公司最终在去年年初解散了团队,因为高管对该项目失去了希望 ……公司的实验……提供了有关机器学习局限性的案例研究。 ……在卡内基梅隆大学(Carnegie Mellon University)教授机器学习的Nihar Shah等计算机科学家表示,还有许多工作要做。 他说:“如何确保算法是公平的,如何确保算法是真正可解释和可解释的-仍然相距甚远。” MASCULINE LANGUAGE [Amazon]在亚马逊的爱丁堡工程中心成立了一个团队,该团队已经发展到大约十二个人。知情人士说,他们的目标是开发可以迅速爬网并找到值得招聘候选人的AI。 该小组创建了500个针对特定工作职能和位置的计算机模型。他们教会每个人识别过去候选人履历中出现的大约50,000个术语。这些算法学到的知识对IT申请人常见的技能几乎没有什么意义,例如编写各种计算机代码的能力…… 相反,该技术偏爱应聘者使用在男性工程师的简历中更常见的动词来形容自己的候选人,例如一位人士说,“被处决”和“被俘”。 假设我想建立一个统计模型来预测个人数据的一些输出,例如帮助您招募新人的五星级评级。假设我也想避免性别歧视,这是一种道德约束。给定除性别以外两个完全相等的配置文件,模型的输出应相同。 我应该使用性别(或与之相关的任何数据)作为输入并尝试纠正其影响,还是避免使用这些数据? 如何检查是否存在性别歧视? 如何为统计上可区分但我出于道德原因不想成为模型的数据更正我的模型?


3
在线性回归模型还是非线性回归模型之间进行选择
如何选择使用线性回归模型还是非线性回归模型? 我的目标是预测Y。 在简单的和数据集的情况下,我可以通过绘制散点图轻松确定应使用哪种回归模型。xxxyyy 在像和这样的多变量的情况下。如何确定必须使用哪种回归模型?也就是说,我将如何决定使用简单的线性模型还是非线性模型(例如二次,三次等)。x1,x2,...xnx1,x2,...xnx_1,x_2,...x_nyyy 是否有任何技术或统计方法或图形绘制来推断和决定必须使用哪种回归模型?

1
使分布适合空间数据
从mathoverflow交叉发布我的问题,以找到一些特定于统计信息的帮助。 我正在研究一个物理过程,该过程生成的数据可以很好地投影到具有非负值的两个维度中。每个过程都有 -点的(投影)轨迹-参见下图。xxxyyy 样本轨道为蓝色,麻烦的轨道类型以绿色绘制,而关注区域则以红色绘制: 每个轨道都是独立实验的结果。几年来已经进行了2000万次实验,但是从那开始只有2000项实验展现了我们绘制的轨迹特征。我们只关心产生轨迹的实验,因此我们的数据集是(大约)两千条轨迹。 这是可能的轨道,进入关注的区域,我们期望的顺序在曲目这样做。估算这个数字是眼前的问题:11110410410^4 我们如何计算一条任意轨道进入关注区域的可能性? 不可能足够快地进行实验,以查看进入关注区域的跟踪的产生频率,因此我们需要从可用数据中推断出结果。 例如,我们已经拟合了给定值,但这并不能充分处理绿色轨迹之类的数据-似乎需要一个包含两个维度的模型。xxxy≥200y≥200y\ge200 我们已经确定了从每个轨道到关注区域的最小距离,但是我们不相信这会产生合理的结果。 1)是否有已知的方法可以使分布适合此类数据进行外推? -要么- 2)是否有明显的方法使用此数据来创建用于生成轨道的模型?例如,使用轨道上的主成分分析作为较大空间中的点,然后对投影到这些成分上的轨道拟合分布(Pearson?)。

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
结合二进制和连续响应的最佳方法
我正在尝试提出预测收款公司付款金额的最佳方法。付款后,因变量仅为非零。可以理解的是,由于绝大多数人无法联系到或无法偿还债务,因此存在大量的零。 债务金额和还款可能性之间也存在非常强烈的负相关关系。通常,我会创建一个逻辑模型来预测支付/不支付的可能性,但这不幸的结果是找到了余额最低的人。 有没有一种方法可以将后勤支付/非支付模型与预测支付金额的单独模型结合起来?

3
在线约会网站的统计数据
我很好奇在线约会系统如何使用调查数据来确定匹配项。 假设他们具有过去比赛的结果数据(例如1 =幸福结婚,0 =没有第二个约会)。 接下来,假设他们有两个偏好问题, “您喜欢户外活动多少?(1 =非常不喜欢,5 =非常喜欢)” “您对生活有多乐观?(1 =非常不喜欢,5 =非常喜欢)” 还假设对于每个偏好问题,他们都有一个指标“配偶分享您的偏好有多重要?(1 =不重要,3 =非常重要)” 如果他们每对都有这4个问题,以及比赛是否成功的结果,那么将使用该信息预测未来比赛的基本模型是什么?


2
不能改善样本外预测的“显着变量”-如何解释?
我有一个问题,我认为这对很多用户来说都是非常基本的。 我使用线性回归模型来(i)研究几个解释变量与我的反应变量之间的关系,以及(ii)使用解释变量预测我的反应变量。 一个特定的解释变量X似乎对我的响应变量有显着影响。为了测试此解释变量X的增加值,以便对我的响应变量进行样本外预测,我使用了两个模型:模型(a)使用所有解释变量,模型(b)使用所有变量除了变量X。对于这两个模型,我仅报告样本外性能。看起来两个模型的性能几乎一样好。换句话说,添加解释变量X不会改善样本外预测。请注意,我还使用模型(a)(即具有所有解释变量的模型)来发现,解释变量X确实会严重影响我的响应变量。 我现在的问题是:如何解释这一发现?直截了当的结论是,即使变量X似乎使用推论模型显着影响了我的响应变量,但它并不能改善样本外预测。但是,我很难进一步解释这一发现。这怎么可能?对此发现有何解释? 提前致谢! 额外信息:具有“显着影响”是指参数估计的最高95%后验密度间隔中不包含0(即使用贝叶斯方法)。用常客的话来说,这大致对应于p值小于0.05。我仅对所有模型参数使用扩散(无信息)先验。我的数据具有纵向结构,总共包含大约7000个观测值。对于样本外预测,我使用90%的数据来拟合模型,并使用10%的数据使用多次复制来评估模型。也就是说,我多次进行了火车测试拆分,并最终报告了平均性能指标。

2
在贝叶斯线性回归中评估后验预测分布
我很困惑,如何评价贝叶斯线性回归后的预测分布,过去的基本情况进行了说明这里第3页,以下复制。 p(y~∣y)=∫p(y~∣β,σ2)p(β,σ2∣y)p(y~∣y)=∫p(y~∣β,σ2)p(β,σ2∣y) p(\tilde y \mid y) = \int p(\tilde y \mid \beta, \sigma^2) p(\beta, \sigma^2 \mid y) 基本情况是此线性回归模型: ÿ= Xβ+ ϵ ,ÿ∼N(Xβ,σ2)y=Xβ+ϵ,y∼N(Xβ,σ2) y = X \beta + \epsilon, \hspace{10mm} y \sim N(X \beta, \sigma^2) 如果我们使用一个统一的现有上,带刻度-INV χ 2上之前σ 2,OR正常-逆伽马之前(见此处)的后验预测分布解析和是学生吨。 ββ\betaχ2χ2\chi^2σ2σ2\sigma^2 这个模型呢? ÿ= Xβ+ ϵ ,ÿ〜ñ(Xβ,Σ )ÿ=Xβ+ϵ,ÿ〜ñ(Xβ,Σ) y = X \beta + …

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
高维数据集的高斯过程回归
只是想看看是否有人对高维数据集应用高斯过程回归(GPR)有任何经验。我正在研究各种稀疏GPR方法(例如,稀疏伪输入GPR),以了解在特征选择是参数选择过程一部分的情况下,高维数据集可以使用的方法。 任何有关论文/代码/或各种尝试方法的建议都值得赞赏。 谢谢。

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.