Questions tagged «sas»

SAS是一个统计软件包。对于(a)涉及SAS作为问题的关键部分或预期答案的任何主题问题,请使用此标签;&(b)不仅仅是关于如何使用SAS。

1
将用于零膨胀伽玛回归的SAS NLMIXED代码转换为R
我正在尝试为R中的连续响应变量运行零膨胀回归。不幸的是,代码位于SAS中,我不确定如何为nlme之类的代码重新编写代码。 代码如下: proc nlmixed data=mydata; parms b0_f=0 b1_f=0 b0_h=0 b1_h=0 log_theta=0; eta_f = b0_f + b1_f*x1 ; p_yEQ0 = 1 / (1 + exp(-eta_f)); eta_h = b0_h + b1_h*x1; mu = exp(eta_h); theta = exp(log_theta); r = mu/theta; if y=0 then ll = log(p_yEQ0); else ll = log(1 - p_yEQ0) …
11 r  sas  gamlss 

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
ARIMA过程的Box-Jenkins方法到底是什么?
在维基百科页面称,箱詹金斯是拟合的ARIMA模型对于时间序列的方法。现在,如果我想将ARIMA模型拟合到一个时间序列,我将打开SAS,调用proc ARIMA,提供参数,SAS会给我AR和MA系数。现在,我可以尝试使用和SAS的不同组合,每种情况下给我一组系数。我选择Akaike信息准则最低的集合。p,d,qp,d,qp,d,qp,d,qp,d,qp,d,q 我的问题是:在上述过程中,我在哪里使用Box-Jenkins?我是否应该使用Box-Jenkins得出初始估计?还是SAS内部使用了它?p,d,qp,d,qp,d,q

2
R和SAS中的岭回归实现之间的区别
我已经阅读了《应用线性统计模型》第5版第11章中对岭回归的描述。岭回归是根据此处可用的身体脂肪数据完成的。 教科书与SAS中的输出匹配,在拟合模型中反变换系数为: Y=−7.3978+0.5553X1+0.3681X2−0.1917X3Y=−7.3978+0.5553X1+0.3681X2−0.1917X3 Y=-7.3978+0.5553X_1+0.3681X_2-0.1917X_3 从SAS显示为: proc reg data = ch7tab1a outest = temp outstb noprint; model y = x1-x3 / ridge = 0.02; run; quit; proc print data = temp; where _ridge_ = 0.02 and y = -1; var y intercept x1 x2 x3; run; Obs Y Intercept X1 X2 …

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
贝叶斯统计如何估算参数的示例,这些参数很难通过惯常方法进行估算
贝叶斯统计学家坚持认为“贝叶斯统计可以估算出参数,而这些参数很难通过惯常方法来估算”。从SAS文档中引用的以下内容是否表示同一件事? 它提供了以数据为条件且准确的推断,而无需依赖渐近逼近。小样本推论以与大样本一样的方式进行。贝叶斯分析还可以直接估计参数的任何功能,而无需使用“插入”方法(一种通过将估计的参数插入功能中来估计功能的方法)。 我在某些教科书中看到过类似的陈述,但不记得在哪里。有人可以举例说明吗?

4
Minitab在现实世界中有多有用?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 5年前关闭。 我目前是一个非常优秀的课程的统计学学生。我们将Minitab用于各种项目/类。但是,正如我的本科生告诉我的那样,您在学校中使用的不一定是现实世界中使用的。我也精通C#,python,并且正在学习SAS(几乎准备参加SAS的第一次认证测试)。 Minitab是否在现实世界的研究/工作中广泛使用?我是否应该在学习SAS上投入更多时间?
9 sas  minitab 

4
何时使用非参数回归?
我在SAS中使用PROC GLM来拟合以下形式的回归方程 ÿ=b0+b1个X1个+b2X2+b3X3+b4Ťÿ=b0+b1个X1个+b2X2+b3X3+b4Ť Y = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t 产生的残差的QQ图表示偏离正常值。任何变换都无法使残差正常。ÿÿY 此时,我可以安全地切换到非参数方法,例如PROC LOESS。 我已经使用过PROC LOESS,并且看起来比PROC GLM更好。但是我对非参数回归没有太多的了解。我不知道何时选择非参数回归而不是参数回归。 有人可以帮我弄这个吗? 我将继续添加另一个问题。以下是模型中我的变量的描述。 有时我得到负的预测成本。这根本不符合逻辑。我该如何解决这个问题?ÿ= 医疗费用X1个= 注射次数X2= 手术数量X3= 物理疗法的数量t = 时间ÿ=医疗费用X1个=注射次数X2=手术数量X3=物理疗法的数量Ť=时间 Y =\text{cost of medical care}\\ X_1 =\text{number of injections}\\ X_2 =\text{number of surgeries}\\ X_3 =\text{number of physical therapies}\\ t =\text{time}

3
一般加性泊松模型问题中的样条df选择
我一直在使用SAS的泊松通用加性模型拟合一些时间序列数据PROC GAM。一般来说,我一直使用它的内置通用交叉验证程序为我的单个样条生成至少一个体面的“起点”,这是时间的非线性函数以及单个参数项(其实很感兴趣)。 到目前为止,除了我的数据集之一之外,它的运行相当流畅。该数据集中有132个观测值,GCV建议使用128个自由度的样条曲线。看来...错了。错了 更重要的是,它也不是很稳定。我尝试了第二种方法,当参数项的估计值停止更改时,使用“估计更改”条件之类的方法停止添加自由度,因为如果没有什么不同,为什么还要继续添加控制权? 问题在于估算值根本不稳定。我尝试了以下自由度,如您所见,参数项疯狂地反弹: DF: Parametric Estimate: 1 -0.76903 2 -0.56308 3 -0.47103 4 -0.43631 5 -0.33108 6 -0.1495 7 0.0743 8 0.33459 9 0.62413 10 0.92161 15 1.88763 20 1.98869 30 2.5223 40-60 had convergence issues 70 7.5497 80 7.22267 90 6.71618 100 5.83808 110 4.61436 128 1.32347 …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.