Questions tagged «modeling»

该标签描述了创建统计或机器学习模型的过程。始终添加更具体的标签。

1
系数路径–岭,套索和弹性净回归的比较
我想比较使用脊线,套索和弹性网选择的模型。下图显示了使用所有三种方法的系数路径:山脊(图A,alpha = 0),套索(图B; alpha = 1)和弹性网(图C; alpha = 0.5)。最佳解决方案取决于所选的lambda值,该值是基于交叉验证选择的。 查看这些图时,我希望弹性网(图C)表现出分组效应。然而,目前情况尚不清楚。套索和弹性网的系数路径非常相似。这可能是什么原因?这仅仅是编码错误吗?我在R中使用了以下代码: library(glmnet) X<- as.matrix(mydata[,2:22]) Y<- mydata[,23] par(mfrow=c(1,3)) ans1<-cv.glmnet(X, Y, alpha=0) # ridge plot(ans1$glmnet.fit, "lambda", label=FALSE) text (6, 0.4, "A", cex=1.8, font=1) ans2<-cv.glmnet(X, Y, alpha=1) # lasso plot(ans2$glmnet.fit, "lambda", label=FALSE) text (-0.8, 0.48, "B", cex=1.8, font=1) ans3<-cv.glmnet(X, Y, alpha=0.5) # elastic net …

1
广义加性模型(GAM),交互作用和协变量
我一直在探索许多用于预测的工具,并且发现广义可加模型(GAM)具有最大的潜力。GAM非常棒!它们允许非常简洁地指定复杂的模型。但是,同样的简洁性使我有些困惑,特别是在GAM如何理解交互作用项和协变量方面。 考虑一个示例数据集(发布后的代码可重现),其中y是一个由几个高斯扰动的单调函数,外加一些噪声: 数据集具有一些预测变量: x:数据索引(1-100)。 w:辅助功能标记出y存在高斯的部分。w的值为1-20,其中x介于11到30之间,以及51到70之间。否则w为0。 w2:w + 1,因此没有0值。 R的mgcv软件包可轻松为这些数据指定许多可能的模型: 模型1和2非常直观。默认情况下,y仅根据索引值进行x平滑度预测会产生一些模糊正确的提示,但过于平滑。y仅根据w结果预测存在于的“平均高斯”模型中y,而没有其他w值的“感知”模型,所有其他数据点的值均为0。 模型3同时使用x和w作为1D平滑,产生了很好的拟合。模型4使用x并w在2D平滑中使用,也非常适合。这两个模型非常相似,尽管不完全相同。 模型5 x通过“ 模型” w。模型6则相反。mgcv的文档指出,“ by参数可确保平滑函数乘以[by参数中给定的协变量]”。那么5和6型不应该等效吗? 模型7和8使用预测变量之一作为线性项。这些对我来说很直观,因为它们只是在使用GLM对这些预测变量进行处理,然后将影响添加到模型的其余部分。 最后,模型9与模型5相同,除了模型x“通过” w2(为w + 1)进行了平滑处理。对我而言,奇怪的是,w2“ by”交互中缺少零会产生明显不同的效果。 所以,我的问题是: 3型和4型的规格之间有何区别?还有其他例子可以更清楚地说明差异吗? 确切地说,“通过”在这里做什么?我在伍德的书中读到的大部分内容以及该网站的内容都表明“ by”会产生乘法效应,但是我很难理解它的直觉。 为什么模型5和9之间会有如此显着的差异? 接下来是Reprex,用R编写。 library(magrittr) library(tidyverse) library(mgcv) set.seed(1222) data.ex <- tibble( x = 1:100, w = c(rep(0, 10), 1:20, rep(0, 20), 1:20, rep(0, 30)), w2 = …
12 r  modeling  gam  mgcv 

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
当因变量具有“截止”时建模
如果我使用的任何术语不正确,请提前道歉。我欢迎任何纠正。如果我所说的“截断”使用不同的名称,请告诉我,我可以更新问题。 我感兴趣的情况是:您有自变量和一个因变量。我将保持模糊,但是假设为这些变量获得良好的回归模型将相对简单。xx\bf{x}yyy 但是,您要创建的模型是针对自变量xx\bf{x}和因变量w=min(y,a)w=min(y,a)w = \min(y,a),其中aaa是y范围内的某个固定值yyy。同样,您有权访问的数据不包含yyy,仅包含www。 一个(有些不切实际的)例子是,如果您试图模拟人们将领取养老金的年限。在这种情况下,xx\bf{x}可能是相关信息,例如性别,体重,每周运动时间等。“基本”变量yyy是预期寿命。但是,您可以访问并试图在模型中预测的变量将是w=min(0,y−r)w=min(0,y−r)w = \min(0, y-r),其中r是退休年龄(为简单起见,它是固定的)。 在回归建模中是否有解决此问题的好方法?

1
在隐马尔可夫模型中选择“最佳”模型的标准
我有一个时间序列数据集,试图将其拟合隐马尔可夫模型(HMM),以便估计数据中的潜在状​​态数。我的伪代码是这样的: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } 现在,在通常的回归模型中,BIC倾向于支持最简约的模型,但对于HMM,我不确定这是在做什么。谁真的知道BIC标准倾向于哪种HMM?我也能够获得AIC和似然值。由于我试图推断出真实的州总数,因此其中一个标准是否比另一个标准“更好”?

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
计数数据方差的参数化建模
我正在为某些数据建模,但是我不确定我可以使用哪种类型的模型。我有计数数据,我想要一个模型,该模型将给出数据均值和方差的参数估计。也就是说,我有各种预测因素,我想确定是否有任何因素会影响方差(而不仅仅是组均值)。 我知道泊松回归将不起作用,因为方差等于均值。这个假设对我而言无效,因此我知道存在过度分散的情况。但是,负二项式模型只会生成一个过分散参数,而不会作为模型中预测变量的函数。什么模型可以做到这一点? 另外,将赞赏对讨论模型的书或论文的参考和/或实现模型的R包。

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

1
使用最小二乘法与广义线性模型与非线性最小二乘拟合指数函数
我有一个代表指数衰减的数据集。我想对这个数据拟合指数函数。我尝试对数转换响应变量,然后使用最小二乘法拟合一条线。使用具有对数链接函数和响应变量周围的伽马分布的广义线性模型;并使用非线性最小二乘法。尽管每种方法的两个系数都相似,但我得到的答案不同。我感到困惑的地方是我不确定哪种方法最适合使用以及为什么使用。有人可以比较和对比这些方法吗?谢谢。y=Beaxy=Beaxy = Be^{ax}

4
对数线性模型
有人可以解释为什么我们以非专业术语使用对数线性模型吗?我来自工程学背景,对于我来说,这确实是一个困难的话题,即统计学。我将不胜感激。

1
我什么时候停止寻找模特?
我正在寻找能源价格与天气之间的模型。我有在欧洲国家之间购买的MWatt的价格,以及很多天气值(Grib文件)。每5小时(2011-2015)的小时数。 价格/天 这是每天的一年。我有这个5年的每小时。 天气示例 3D散点图,用开尔文表示,一个小时。我每小时每个数据有1000个值,还有klevin,风,地势等200个数据。 我正在尝试预测兆瓦每小时的平均价格。 我的天气数据非常密集,每小时超过10000个值,因此相关性很高。这是一个简短的大数据问题。 我尝试了套索,脊线和SVR方法,将MWatt的平均价格作为结果,而将天气数据作为收入。我将70%作为训练数据,将30%作为测试。如果我的测试数据是非预测性的(在我的训练数据中的某处),则我的预测很好(R²= 0.89)。但是我想对我的数据进行预测。 因此,如果测试数据按时间顺序排在我的训练数据之后,则它什么也不能预测(R²= 0.05)。我认为这很正常,因为它是时间序列。并且存在很多自相关。 我以为我必须使用ARIMA这样的时间序列模型。我计算了方法的顺序(序列是固定的)并进行了测试。但这没用。我的意思是预测的r²为0.05。我对测试数据的预测完全不在我的测试数据上。我尝试将ARIMAX方法用作回归天气。说它不会添加任何信息。 ACF / PCF,测试/训练数据 所以我每天和每周做一次季节性裁员 天 第一周趋势 如果可以预见股价趋势,就可以拥有: 蓝色是我的预测,红色是真正的价值。 我将进行回归分析,将天气的滚动平均值作为收入,将股价趋势的趋势作为结果。但是到目前为止,我还没有找到任何关系。 但是,如果没有互动,我怎么知道什么都没有?也许只是我没有找到它。

5
测量击中本垒打的均值回归
棒球之后的任何人都可能听说过多伦多何塞·包蒂斯塔(Jose Bautista)的MVP型表现。在之前的四年中,他每个赛季打出大约15次本垒打。去年他达到了54岁,在棒球历史上仅次于12位球员。 在2010年,他的薪水为240万,他要向车队索取2011年的1050万。他们出价760万。如果他能在2011年再次重申这一点,那么他将很容易获得这两个值。但是他重复的几率是多少?我们能期望他回归到平均水平有多难?我们可以预期他有多少表现是偶然的?我们可以预期他的2010年调整后的均值回归是什么?我该如何解决? 我一直在研究拉曼棒球数据库,并提出了一个查询,该查询返回前五个赛季中所有至少拥有50支蝙蝠的球员的本垒打总数。 表格看起来像这样(第10行中的Jose Jose Bautista注意) first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010 1 Bobby Abreu 15 16 20 15 20 2 Garret Anderson 17 16 15 13 2 3 Bronson Arroyo 2 1 1 0 1 4 Garrett Atkins 29 25 21 9 1 5 Brad Ausmus 2 …
11 r  regression  modeling 

10
除了预测建立模型之外还有其他原因吗?
约书亚·爱泼斯坦(Joshua Epstein)发表了一篇题为《为什么要模型》的论文。可从http://www.santafe.edu/media/workingpapers/08-09-040.pdf获得,其中有16个原因: 解释(与预测完全不同) 指导数据收集 照亮核心动力 建议动态类比 发现新问题 养成科学的思维习惯 绑定(括号)结果到合理范围 阐明核心不确定性。 提供近实时的危机选择 展示权衡/建议效率 通过微扰挑战主流理论的稳健性 揭露主流智慧与现有数据不符 培训从业人员 进行政策对话 教育大众 将看似简单(复杂)显示为复杂(简单) (Epstein在他的论文中详细阐述了许多原因。) 我想问一下社区: 爱泼斯坦没有列出其他原因吗? 有没有更优雅的方式来概念化(也许是不同的分组)这些原因? 爱泼斯坦的原因有缺陷还是不完整? 他们对这些原因的阐述是否更为明确?
11 modeling 

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

7
在模型构建中避免社会歧视
我有一些问题来自亚马逊最近的招聘丑闻,在那起丑闻中,他们被指控在招聘过程中歧视妇女。更多信息在这里: Amazon.com Inc.的机器学习专家发现了一个大问题:他们的新招聘引擎不喜欢女性。 自2014年以来,该团队就一直在构建计算机程序来审查求职者的简历,以机械化寻找顶尖人才的目标 ……该公司的实验性招聘工具使用人工智能为求职者提供了1到5星的评分…… 但到2015年,公司意识到其新系统并未以性别中立的方式对软件开发人员职位和其他技术职位的候选人进行评级。 那是因为亚马逊的计算机模型经过培训,可以通过观察十年来提交给公司的简历中的模式来审查申请人。大多数人来自男性,这反映了整个科技行业中男性的主导地位。(有关技术领域性别崩溃的图表,请参阅:此处)实际上,亚马逊的系统告诉自己,男性候选人更可取。它对包括“妇女”一词的简历进行了惩罚,例如“妇女的象棋俱乐部队长”。知情人士说,这降低了两所女子大学的毕业生的等级。他们没有指定学校的名称。 亚马逊对程序进行了编辑,以使其对这些特定条款保持中立。知情人士说,但这不能保证机器不会设计出其他方法来对候选人进行分类,这可能会造成歧视。 西雅图公司最终在去年年初解散了团队,因为高管对该项目失去了希望 ……公司的实验……提供了有关机器学习局限性的案例研究。 ……在卡内基梅隆大学(Carnegie Mellon University)教授机器学习的Nihar Shah等计算机科学家表示,还有许多工作要做。 他说:“如何确保算法是公平的,如何确保算法是真正可解释和可解释的-仍然相距甚远。” MASCULINE LANGUAGE [Amazon]在亚马逊的爱丁堡工程中心成立了一个团队,该团队已经发展到大约十二个人。知情人士说,他们的目标是开发可以迅速爬网并找到值得招聘候选人的AI。 该小组创建了500个针对特定工作职能和位置的计算机模型。他们教会每个人识别过去候选人履历中出现的大约50,000个术语。这些算法学到的知识对IT申请人常见的技能几乎没有什么意义,例如编写各种计算机代码的能力…… 相反,该技术偏爱应聘者使用在男性工程师的简历中更常见的动词来形容自己的候选人,例如一位人士说,“被处决”和“被俘”。 假设我想建立一个统计模型来预测个人数据的一些输出,例如帮助您招募新人的五星级评级。假设我也想避免性别歧视,这是一种道德约束。给定除性别以外两个完全相等的配置文件,模型的输出应相同。 我应该使用性别(或与之相关的任何数据)作为输入并尝试纠正其影响,还是避免使用这些数据? 如何检查是否存在性别歧视? 如何为统计上可区分但我出于道德原因不想成为模型的数据更正我的模型?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.