我学会了R,但似乎公司对SAS经验更感兴趣。SAS相对于R有何优势?
我学会了R,但似乎公司对SAS经验更感兴趣。SAS相对于R有何优势?
Answers:
我认为有几个问题(按有效性的升序排列):
就个人而言,我认为#3具有任何合理的优点,尽管已经有一些方法是用R开发的。#1的问题不言而喻。我认为#2忽略了几个事实:R正在进行一些审查,许多主要软件包都是由统计学中的一些大人物撰写的,并且有研究比较了不同统计软件的准确性,当然具有竞争力。
lme4
邮件列表中知道,与SAS的比较经常出现。但是不可能知道我们是否应该进行这样的比较。如果无法访问源代码,我们必须让那些公司信服,他们的软件产生的结果实际上是有效的。坦白说,我更喜欢能够查看我使用的软件代码。
除了到目前为止的好答案之外,我还要添加尴尬因素。如果去年您在SAS和SAS支持上花费了数十万美元,并且您建议在支持价格极低(革命等)的情况下为R不花任何钱,那么产业链上的某人会问为什么。去年存在R时,去年花那么多钱是错误的吗?还是放弃由一群志愿者创建的东西的专业软件是错误的吗?
一旦以这种方式解决问题,这就是一个输球的命题,所以最好不要提出来。
最重要的是在这里正确识别了,企业界最大的问题就是遗产。并且,当您拥有可以完成这项工作的高质量生产代码时,就无需更改它。SAS自1970年代问世以来,当时是按当时的标准编写脚本统计语言的唯一有效方法。从那时起,在制药和政府部门的SAS中积累的生产代码数量是难以想象的,是数十年的历史。用R或Stata重写它会花费几年时间,结果代码将变得更灵活,更高效,更透明,更易于维护且更便宜,但是没人愿意为这种重构付费。(我这样做的经验是,我的Stata代码通常短了大约三倍;我曾经有一个将SPSS代码转换为Stata的项目,在那里我将它缩短了约20倍。
从某种意义上讲,这与学术出版商是类似的故事:他们正乘着最终用户的潮流,维持不必要的订阅;没有订阅自然的大学并不是真正的大学。通过专业协会免费发布将使其价格便宜,如今人们在LaTeX中准备提交的内容,因此他们可以使用相机,并且同一个人将提供同行评审,因此在任何方面都不会受到质量挫折。但是...在线期刊背后没有品牌名称和影响因素。
总结一下:http : //scatter.wordpress.com/2011/06/28/stata-12/。Stata在经济学和政策相关领域比较受青睐,而且我学习SAS越多,我就越喜欢Stata。
在过去的七年中,我一直有效地担任SAS程序员,在我旁边的一位同事对SAS的编程时间比我活着的时间还要长。如此处所述,SAS背后有大量的惯性/传统;但是SAS和R一样,是一种手段,不是手段本身。
SAS在顺序数据访问方面非常高效,而通过SQL进行的数据库访问则非常集成。PROC的文档非常齐全,但不幸的是,它并不是完全用符号标准化的(PROC OPTMODEL和IML是两个示例)。在编写复杂的代码时有点笨拙,而对于并行代码则不那么优雅。我还发现导入csv文件有时会带来极大的痛苦,并且更喜欢先将其转储到R,然后再转储到数据库。
尽管SAS确实具有共享对象和dll的接口,但是您无法很好地访问任何头文件或类似的文件,并且通过幸福的软件包也无法进行代码分发。
但是,几乎没有人担心您的代码中包括一些现在已经不存在或已损坏的软件包,而现在您需要维护这些软件包,并且SAS中的代码质量趋向于一致(R核心代码也很好,而且可以自由使用)可供任何人使用)。
如前所述,SAS也是非常昂贵的,但是当我知道有一个罐装程序可以很好地满足我的需求时,它就是一个很好的工具。
R + SAS + mysql加上一点点Perl可以将它们粘合在一起,效果惊人:)
dplyr
库获得了很好的SQL支持-将R / dplyr语法转换为SQL并调用数据库,您可以使用相同的语法cran.r-project
因此,我同时使用R和SAS(在学术界是公认的),但是有时我倾向于使用SAS的原因有两个:
没有人提出首选它的原因是白痴。这是我最近遇到的两句话:
“使用R之类的开源软件是不可能的–我们不能保证完全可重复的结果”
和
“由于它是开源软件,我们将无法提供任何支持”
与这些人呆两分钟,将向他们展示他们的错误。
似乎尚未明确解决一个问题:掩盖屁股。如果您使用SAS,但事情一发不可收拾,决策者总是可以说他购买了最先进的软件,他怎么知道它会崩溃?如果他决定和R一起去,这个论点将更难提出。是的,这与此处已经提到的惯性参数有关。
几十年前,他们曾经说过“ noboby曾经因为收购IBM而被解雇”,这被称为有史以来最伟大的营销短语。
截至2015年,年龄在35岁以下的精算师更喜欢使用R-教科书同时使用R和SAS代码。年龄较大的精算师从未学会使用R而更喜欢使用SAS,并且不使用R。在SAS中实际编码的精算师的比例将会下降。
如果您在Google学者中搜索有关SAS的论文,那么在过去的几年中,您会发现每年有550种稳定的出版物。如果您使用R(“ R统计计算基础”)搜索论文,则2014年有25,100,截至2015年7月中旬有16,700。绘制速率-增长非常快!
几年来,SAS并没有向大学索要高额的许可费,而这已经被他们扭转了。但现在为时已晚,许多大学已转换为使用R而非SAS进行教学。
结合R软件包在论文中发表了新的统计技术。多年来,在R基础中使用的某些技术仍未在SAS中出现。现在,您可以在SAS内部使用R。
总而言之,事情正在发生变化,并且变化迅速。
在制药行业中,使用SAS是因为FDA使用并喜欢它。虽然有一些严重的原因。结果是可追溯的,并且输出具有时间戳。FDA统计人员可以检查您得到什么。它对数据库管理非常有用,并且是可靠的软件。当然,可以说SAS的许多属性存在于其他软件包中,包括R和SAS都很昂贵。我仍然认为,任何想成为工业应用统计学家的人都将是最好的选择,至少要学习如何在SAS中编程。如果您更喜欢SAS,但可以使用R或STATA。当您为一家希望使用SAS的公司工作时,他们将为许可支付费用。
(略微偏离主题):从另一角度来看:R在学术界具有的某些优势不适用于工业。
例如,在学术界,如果您可以告诉学生去购买软件并在家工作,那么这是一个明显的优势。在行业中,通常不应该将任何数据带回家。
您也不应该尝试一些事情(TM),下载大量软件包(即使信誉良好且经过测试),也不使用尖端方法。取而代之的是,通常希望您坚持使用已使用多年且行为已久的方法和代码。你不会因此获得很多学术上的好处。
当然,正如已经提到的那样:为了切换到R,没有人会冒重做各种监管批准的风险。据我所知,这与R无关,而更多与获得监管批准的巨额成本+工作有关。
为什么一家大型制药公司甚至想从SAS转换为R?SAS花费数百万美元,但对于制药公司而言却算不上什么。但是,将所有稳定的报告系统从SAS转换为R的成本将增加50-100倍。
SAS具有出色的支持系统:每次我需要帮助时,他们都能够在几个小时内提供它。
R真正拥有SAS所没有的东西:1)更好的图形...好吧,这是一个很大的图形,但图形并不是全部。除了R之外,总是可以使用一个额外的工具来创建一些很酷的图形,而SAS在图形方面也不算太差2)现代且更高效的编程语言。许多SAS用户不是程序员,也不在乎使用很酷的语言。他们只是希望能够分析数据。
我喜欢R,但是对于大公司而言,转换为SAS会很疯狂。虽然这对于较小的公司可能有意义
有几个主要优点,没有特定的顺序
我故意避免使用诸如“传统”或“习惯”这样的贬义词。许多公司使用SAS已有30或40年的历史,并且它们拥有数百万行的工作代码。此外,稳定的代码库还具有所有优势,在一个可能导致小错误的区域中,它拥有数百万个用户日的工作日。这是同样的原因,即使Unix已有40多年的历史,并且在某些方面已经过时,Unix风格仍然很流行。最后,有大量经验丰富的SAS专业人员用来解决业务问题
公司有许多不同的数据源,它们基于不同类型的系统,并且在许多情况下还取决于多个操作环境。R直到最近才获得一些极其基本的功能来处理内存中无法保存的更多内容。将此与SAS支持terradata的本机,优化的数据库内处理进行比较,仅举一个示例。在大多数现实情况下,分析中最困难的部分是处理数据和操作环境。(需要在大型机上运行Windows开发的模型评分代码吗?使用SAS没问题。使用R,您很不走运。)R不能解决任何这些问题。
SAS用户可以合理地确定每个代码模块均已由合格人员进行测试。无需花费时间和精力来学习代码的来源或独立地对其进行验证。此外,如果遇到任何类型的问题,强大的帮助(从基本的文档到详尽的详细探索意外结果或复杂方法的行为),用户都可以接听电话并获得帮助。
该语言使某些人无法接受,因为它与通用编程的现代语言不同。话虽如此,该语言是高级,强大,富有表现力和全面的。简而言之,一旦您学会了它,就可以完成工作。对于公司而言,优雅的解决方案并不是卖点。
客户支持。
我曾经和一个在一家专门安装服务器的公司工作的朋友聊天,然后他向我解释了为什么大公司总是选择Microsoft产品而不是开源。与开放源代码竞争对手相比,Microsoft的优势在于客户支持。如果产品出现问题,该公司可以致电Microsoft,大公司甚至可以为其提供个性化支持。开源软件并非如此。
我认为这与SAS优先于R完全相同。
那前端呢?R在SAS企业指南,Web Report Studio或Enterprise Miner中等效于什么?编辑:这些工具使非编程用户可以在不了解底层技术的情况下使用数据仓库。它们并不是主要用于使用SAS的工具。R GUI只是R语言/系统AFAIK的IDE。他们无法为想要从DWH获得信息和见解的非技术用户提供帮助。
我曾经在一家咨询公司工作,该公司为硅谷的一家大型芯片制造商提供了SAS协助。该公司的联系人告诉我们,他通过使用另一种软件来提供完全相同的咨询,这是另一家公司提供给他们的咨询,该软件涵盖了SAS覆盖的所有领域,而这将使该公司付出SAS收取的费用的一小部分($,而不是30000 $ 1,000,000)。该联系人考虑了该怎么做,因此决定不通知老板有关提议,因为他担心首先使用SAS被解雇,而不是考虑使用更便宜的替代方案。相反,他坚持要求我们的咨询公司给他们的公司大笔的咨询费。我公司同意了。
我认为没有提到应用程序安全性。这个问题在Stack Overflow中提出,但由于不在主题之列而被删除。
我与使用SAS的瑞典国家卫生和福利委员会合作。当我与他们的统计学家(像R)交谈时,他们声称他们的IT人员更喜欢SAS,因为他们不信任R中下载的软件包。我的妻子也在SAS工作,而她的机构也经常遇到相同的问题...
我希望看到有关此问题的一些评论。我已经进行了快速搜索,但是没有找到任何好的参考资料...
作为SAS的主要商业产品,付费销售人员正在大力协调努力来推广它。我认为促进R的使用的努力不能与这些相提并论。
我看这样的开源或许可软件,无论是SAS还是其他。我的IT部门在那里为我们的业务提供服务。该公司不会从IT赚钱,而只能从IT支持的业务中赚钱。该业务的年收入为 160亿美元。IT成本约为$每年2万元。如果钱是问题,我会削减成本,但如果我节省10%($我预算的20亿美元),将在业务通知?他们明年会减少我的预算吗?如果IT部门失败,则企业将损失收入,失败的性质将有多大差异。部分业务可能不再赚取收入。如果SAS之类的产品出现故障,我可以根据合同提起诉讼。如果OSS产品出现故障,我将无法。我将无法收回我的$160亿,但我可能会有所收获,而实际上使用SAS,您不太可能会损失很多。价格与成本之间的差异必须证明对业务的任何其他感知风险是合理的。有时坚持SAS比重新培训要便宜。有时存在更高优先级的问题,因此公司会选择使用SAS。一些公司不需要完整的功能,在这种情况下,替代方案是可行的。一些不需要支持,替代方案仍然可行。如果满足业务需求,那么这两种方法都是有效的;如果要为企业提供支持,则需要查看5-10年的总拥有成本,是否能够聘请工具专家,产品是否稳定这样您就不必在每个新版本中都重写所有内容,而无需进行技能培训的培训课程,
我未曾提及的一些原因提到:
更好的文档。SAS文档很详细,R文档很简洁。许多公司可能更喜欢冗长的文档。
更好的错误消息。R的错误消息似乎通常旨在证明写消息的人比读消息的人聪明。
技术支持。SAS提供了我所能提供的一些最佳技术支持,这些技术支持由SAS提供。您可以获得有关R的帮助,但是该帮助分散在不同的地方,并且并不总是可用。在各个站点上提供R帮助的人都是志愿者-志愿者没有义务提供帮助。SAS技术支持人员的薪水是做他们所做的事-他们做得很好。他们不仅做得很好,而且还礼貌地做到这一点,这在所有R社区中通常都不存在(我最喜欢?“我通过输入'help'获得帮助,为什么不尝试输入'help'?”)
易于与Word和Excel协调。是的,我知道您可以让R做到这一点,但是使用SAS更容易(另一方面,R与搭配使用效果更好
我认为传统角度可能很大,原因如下。一个组织雇用一个人,称他们为X。他们是计算机专家/向导/等等。他们构建了很棒的SAS程序/工具/等。他们是如此出色,以至于组织中的其他人不会觉得他们需要了解程序的工作原理。它们使按下按钮变得非常容易,并且一切正常(魔术黑匣子)。
X人离开组织。不幸的是,X员工离开组织的知识(文档和知识管理没有优先级,工作程序才是优先级)。他们被人Y.人Y代替是伟大的有R,但没有关于SAS的想法,因此没有关于主意如何的SAS程序的实际工作。有一个巨大的学习曲线,甚至搞清楚什么大大高于SAS的一年许可。我希望SAS将对这种折衷进行一些分析,并使其影响设置许可证费用的方式(好吧,如果我在SAS工作,我会这样做)。还要注意,SAS绘图程序比十年前更好(例如proc sgplot与proc plot)。巧合的是R先做好了密谋吗?我想不是!这有效地降低了切换效率,因为绘图不再那么不同-R仍然更好,但切换得还不够...
对于工业统计,有质量保证人员(通常)没有编程,统计或科学背景,并且对统计人员,程序员和科学家进行审核。他们想知道,“您怎么知道自己在做的事是对的?” 和“如果错了,我们怎么能责怪某人,他们将如何为此付费?”。
GNU / GPL Copyleft许可证带有固定的文本,该文本完全符合我所写的内容:“ R是自由软件,并且完全没有担保”。这令人反感。当有素质的人阅读此文本时,他们基本上会完全抹杀R。我的意思是,如果产品好,值得增加保修权吗?这样的商业产品使我们相信。实际上,最终是FDA表示他们将接受R中的法规要求,这反映了软件行业的巨大变化。(请注意,此声明位于问题的原始发布日期之后。)
对于绝对不了解计算机的人来说,由于绝对缺乏保修,导致想象中的安全性,不可再现性和严重的科学错误。我们都同意错误会带来灾难性的损失。对于您的SAS许可证,SAS拥有可以向审计师解释其软件的专家,并且在SAS实际引起此类问题的不可能情况下,他们可能要承担罚款和罚款(他们也有足够的钱支付律师的费用,以确保他们能够在这种情况下被完全免除)。让分析师/程序员介绍R的案例的负担和成本基本上等于SAS许可证。并不是说SAS中的编程完全使您摆脱了质量合规的沉重负担!
因此,基本上,我想说诉讼在需要昂贵的许可软件中起了重要作用。