统计和大数据 sas

25

我学会了R，但似乎公司对SAS经验更感兴趣。SAS相对于R有何优势？

143 r sas

8

对于模拟研究，我必须生成随机变量，这些变量显示与现有变量的预定义（填充）相关性。ÿYY 我研究了这些R软件包copula，CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是，不可能将结果变量之一固定为现有变量。任何想法和现有功能的链接表示赞赏！结论：提出了两个有效的答案，有不同的解决方案：一个R 脚本由卡拉卡尔，其计算与一个随机变量精确（样品）的相关性，以一个预定义的变量我发现了一个R 函数，该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充：我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量；即如何生成具有预定义正确性和一些固定的现有变量的变量]

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

3

对数转换的预测变量和/或响应的解释

我想知道是否仅对因变量（无论是因变量还是自变量）还是仅对自变量进行了对数转换，在解释上是否有所不同。考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长，但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ？

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

6

核外数据分析选项

我已经专业使用SAS已有5年了。我将其安装在笔记本电脑上，经常需要分析具有1,000-2,000个变量和数十万个观测值的数据集。我一直在寻找SAS的替代方案，以使我能够对相似大小的数据集进行分析。我很好奇其他人在这种情况下会使用什么。当然，这不是今天使用的“大数据”。我的数据集也不足以容纳在内存中。我需要一种可以将算法应用于硬盘驱动器上存储的数据的解决方案。这些是我调查过的事情，无济于事： R-BigMemory可以创建存储在内存之外的矩阵，但是元素必须处于相同模式。我处理的字符和数字之间几乎是50/50的数据。FF软件包越来越接近我的需求，但是我不太了解哪些程序与之兼容。我认为支持程度有限。熊猫-对于R的Python替代方案，我感到非常兴奋。但是，它也必须将所有数据保存在内存中。 Revolution R-这个显示出很大的希望。我的家用计算机上有一份副本（如果您注册Kaggle，则可以免费获得），但尚未对其进行测试以作为SAS的可行替代方案。人们非常赞赏对Revolution R作为SAS替代产品的评论。谢谢更新1 编辑时要补充一点，我正在寻找人们成功使用的现实可行的解决方案。在大多数情况下，SAS使我可以浏览大文件，而不必担心内存限制。无论采用哪种SAS，他们都想出了使内存管理对用户透明的方法。但是，我怀着一颗沉重的胸怀使用SAS来完成我的工作（我必须这样做），并且会喜欢使用FOSS替代方案，该方案使我能够处理“大型”数据，而不必太费力地考虑数据在哪里的位置。特定时间（在内存或磁盘上）。我遇到的最接近的东西是R的FF包，以及Python即将出现的称为Blaze的东西。但是，这些问题已经存在了很多年，因此分析师在此期间一直在做什么？他们如何处理内存限制中的这些相同问题？提供的大多数解决方案似乎是：获得更多的内存-imo，这不是一个好的解决方案。很容易找到一个可以超过RAM但仍然适合硬盘驱动器的数据集。此外，工作流程必须适应在探索性数据分析过程中创建的所有结构。子集数据-这对于探索是很好的，但对于最终确定结果和报告不是很好。最终，在子集上开发的任何过程都必须应用于整个数据集（在我的情况下，无论如何）。整理数据-这是我想从实际实施此工作流程的人员那里了解的更多信息。怎么做？用什么工具？可以通过对用户透明的方式来完成吗？（即，创建一些磁盘上的数据结构，框架负责引擎盖下的分块）。

18 r sas large-data

6

是否有SAS PROC FREQ的R等效项？

有人知道R等于SAS PROC FREQ吗？我试图一次为多个变量生成摘要描述性统计信息。

18 r descriptive-statistics sas

3

适用于必须学习SAS的R用户的资源

我每天都用R。我认为在data.frames，apply（）系列函数，面向对象的编程，矢量化和ggplot2 geoms /美学上。我刚刚开始为主要使用SAS的组织工作。我知道有一本关于为SAS用户学习R的书，但是对于从未使用过SAS的R用户有哪些好的资源？

18 r sas

5

研究生统计课程提供的用于统计的开源Java库

我正在应用统计专业的研究生课程中学习，该课程使用以下教科书（以使您了解所涵盖的材料的水平）：统计概念和方法，由GK Bhattacharyya和RA Johnson撰写。教授要求我们对家庭作业使用SAS。我的问题是：是否有一个Java库可以代替SAS用于此类类中常见的问题。我目前正在尝试使用Apache Math Commons，尽管该库给我留下了深刻的印象（它的易用性和易理解性），但它似乎甚至缺少一些简单的东西，例如绘制直方图的能力（将其与图表库结合的想法））。我看过柯尔特，但最初的兴趣很快就消失了。我们将不胜感激-我已经在Stackoverflow上查看了类似的问题，但没有发现任何令人信服的内容。注意：我知道R，SciPy和Octave以及对它们进行调用的Java库－我正在寻找Java本机库或一组库，它们可以一起提供我要寻找的功能。注意：此类课程中涉及的主题通常包括：单样本和两样本检验以及均值和中位数的置信区间，描述性统计量，拟合优度检验，单向和双向方差分析，同时推断，检验方差，回归分析和分类数据分析。

15 r sas java

1

SAS和R中ANOVA中III型平方和的冲突结果

我从不平衡因子实验都与分析数据SAS和R。双方SAS并R提供平方类似的I型和广场，但他们的III型总和彼此不同。以下是SAS和R代码以及输出。 DATA ASD; INPUT Y T B; DATALINES; 20 1 1 25 1 2 26 1 2 22 1 3 25 1 3 25 1 3 26 2 1 27 2 1 22 2 2 31 2 3 ; PROC GLM DATA=ASD; CLASS T B; MODEL Y=T|B; RUN; SAS的I型SS Source …

15 r anova sas sums-of-squares

2

来自混合效应模型的预测值周围的置信区间是什么意思？

我在看这个页面并注意到R中lme和lmer的置信区间方法。对于不了解R的人，这些是生成混合效果或多级模型的函数。如果我在重复测量设计等方面具有固定效果，那么围绕预测值（类似于均值）的置信区间意味着什么？我可以理解，对于一个效果，您可以有一个合理的置信区间，但是在我看来，在这样的设计中，围绕预期均值的置信区间似乎是不可能的。承认随机变量会导致估计中的不确定性这一事实可能很大，但在那种情况下，从推断的意义上比较各个值根本毫无用处。要么，我是否在这里遗漏了一些东西，或者我对情况的分析是正确的？... [并且可能是为什么没有在lmer中实现（但很容易在SAS中实现）的理由。:)]

14 r confidence-interval mixed-model repeated-measures sas

2

R vs.Excel中的自相关公式

我试图弄清楚R如何计算滞后k自相关（显然，它与Minitab和SAS使用的公式相同），以便可以将其与使用适用于该系列及其k滞后版本的Excel CORREL函数进行比较。R和Excel（使用CORREL）给出的自相关值略有不同。我也想知道一种计算是否比另一种更正确。

13 r sas autocorrelation excel

2

为什么对于二项式glmm，SAS PROC GLIMMIX给我的随机斜率与glmer（lme4）有很大不同

我是一位更熟悉R的用户，并且一直在尝试针对5个生境针对四个栖息地变量在5年内估计约35个个体的随机斜率（选择系数）。响应变量是某个位置是“已使用”（1）还是“可用”（0）栖息地（下面的“使用”）。我正在使用Windows 64位计算机。在R版本3.1.0中，我使用下面的数据和表达式。PS，TH，RS和HW是固定效应（对生境类型的标准化测量距离）。lme4 V 1.1-7。 str(dat) 'data.frame': 359756 obs. of 7 variables: $ use : num 1 1 1 1 1 1 1 1 1 1 ... $ Year : Factor w/ 5 levels "1","2","3","4",..: 4 4 4 4 4 4 4 4 3 4 ... $ ID : …

12 r binomial sas random-effects-model lme4-nlme

3

使用

简介：是否有任何统计理论支持使用（自由度基于残差）进行逻辑回归系数检验，而不是标准正态分布检验？Ťtt 不久前，我发现在SAS PROC GLIMMIX中拟合逻辑回归模型时，在默认设置下，将使用分布而不是标准正态分布来测试逻辑回归系数。1即，GLIMMIX报告与所述比率的柱β 1 / √Ťtt1个1^1（我将称之为Ž在这一问题的其余部分），但也报道了“自由度”一栏，以及一个p基于假设-值吨分发ž与自由度基于剩余偏差-即自由度=观测总数减去参数数目。在此问题的底部，我提供了一些R和SAS代码和输出以进行演示和比较。2β^1个/ var （β^1个）------√β^1/var(β^1)\hat{\beta}_1/\sqrt{\text{var}(\hat{\beta}_1)}žzzpppŤttzzz22^2 这让我感到困惑，因为我认为对于逻辑回归等广义线性模型，在这种情况下没有统计理论支持的使用。相反，我以为我们对此案了解的是ttt 是“近似”正态分布的；zzz 对于小样本量，这种近似值可能会很差；但是，不能像我们在正态回归的情况下那样假设具有t分布。zzzttt 现在，在直觉上，对我来说似乎合理的是，如果近似正态分布，则实际上它可能具有某种基本呈“ t状”的分布，即使它不完全是t。因此，在这里使用t分布似乎并不疯狂。但是我想知道的是以下几点：zzzttttttttt 实际上是否有统计理论表明在逻辑回归和/或其他广义线性模型的情况下确实遵循t分布？zzzttt 如果没有这样的理论，那么至少有论文表明以这种方式假设分布与假设正态分布一样好甚至更好。ttt 更笼统地说，除了直觉上基本上是明智的直觉之外，对GLIMMIX在这里所做的事情是否有任何实际的支持？ R代码： summary(glm(y ~ x, data=dat, family=binomial)) R输出： Call: glm(formula = y ~ x, family = binomial, data = dat) Deviance Residuals: Min 1Q Median 3Q Max -1.352 -1.243 1.025 1.068 1.156 Coefficients: …

12 r logistic mathematical-statistics sas degrees-of-freedom

1

PROC Mixed和LME / LMER在R自由度上的区别

注意：这个问题是一个转贴，因为我的上一个问题出于法律原因不得不删除。在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时，我偶然发现了一些相当混乱的差异。更具体地说，不同测试的自由度在PROC MIXED和之间有所不同lme，我想知道为什么。从以下数据集（以下给出的R代码）开始： ind：指示进行测量的个人的因子 fac：进行测量的器官 trt：表示治疗的因素 y：一些连续响应变量这个想法是建立以下简单模型： y ~ trt + (ind)：ind作为随机因子 y ~ trt + (fac(ind))：fac嵌套在ind作为随机因子需要注意的是最后一个模型应引起奇异性，因为只有1的值y对每一个组合ind和fac。第一模型在SAS中，我建立以下模型： PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程，R中使用的相同模型nlme应为： > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计，但是在对F的影响进行F检验时trt，它们使用的自由度不同： SAS : Type …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

1

哪种是网络荟萃分析的最佳方法？

现在有几种不同的方法可以进行网络荟萃分析或混合治疗比较。最常用和可访问的可能是以下几种：在贝叶斯框架中： WinBUGS中的按处理设计交互方法（例如Jackson等）； WinBUGS中基于手臂的分层贝叶斯建模（例如Zhao等）；分层对比度为基础（即，节点分裂）贝叶斯建模，无论是与WinBUGS软件或通过gemtc与rjags在R（例如Dias等或货车Valkenhoef等人）; WinBUGS中的集成嵌套拉普拉斯近似（INLA）（例如Sauter等）；在常客框架中： SAS的因子分析方差分析（例如Piepho）； SAS中的多层次网络荟萃分析（例如Greco等）； mvmeta在Stata或R中的多元元回归（例如White等）； lme和netmetaR中进行网络荟萃分析（例如Lumley，但仅限于两臂试验，或Rucker等）。我的问题很简单：它们大致相等还是在大多数情况下更适合进行主要分析（因此将其他保留为辅助分析）？更新一段时间以来，对网络元分析的方法进行了一些比较分析： Carlin BP，Hong H，Shamliyan TA，Sainfort F，Kane RL。案例研究比较贝叶斯方法和常见方法进行多次治疗比较。医疗保健研究与质量局（美国）。2013。

12 r stata sas winbugs network-meta-analysis

3

使用计算机模拟以更好地理解研究生级别的统计概念

您好，我正在修读统计学的研究生课程，并且我们涵盖了测试统计和其他概念。但是，我通常能够运用公式并就事物的工作原理形成某种直觉，但我常常感到，如果我通过模拟实验来支持研究，那么我将对眼前的问题有更好的直觉。因此，我一直在考虑编写简单的模拟，以更好地理解我们在课堂上讨论的一些概念。现在我可以用说Java来：产生具有正常均值和标准差的随机总体。然后取一个小样本，尝试尝试凭经验计算Type-I和Type-II错误。现在我的问题是：这是发展直觉的合法方法吗？是否有执行此操作的软件（SAS？，R？）统计学是一门处理此类编程的学科吗：实验统计？，计算统计？模拟？

11 r hypothesis-testing sas simulation computational-statistics

Questions tagged «sas»