在工作环境中进行正确的统计?


20

我不确定此问题所属的位置:交叉验证或工作场所。但是我的问题与统计模糊不清。

在我作为“数据科学实习生”工作期间出现了这个问题(或者我猜是问题)。我正在建立此线性回归模型并检查残差图。我看到明显的异方差迹象。我记得异方差会扭曲许多检验统计数据,例如置信区间和t检验。因此,根据我在大学中学到的知识,我使用了加权最小二乘。我的经理看到了这一点,并建议我不要这样做,因为“我使事情变得复杂”,这对我来说根本不是一个非常令人信服的理由。

另一个示例是“删除解释变量,因为其p值无关紧要”。确实,从逻辑角度来看,这种建议是没有意义的。据我了解,不重要的p值可能是由于不同的原因造成的:机会,使用错误的模型,违反假设等。

另一个例子是,我使用k倍交叉验证来评估我的模型。根据结果​​,仅比C V m o d e l 2好。但是我们对于模型1 确实有一个较低的R 2,其原因与拦截有关。但是,我的主管似乎更喜欢模型2,因为它具有更高的R 2。他的原因(例如R 2CVmodel1CVmodel2R2R2R2 是鲁棒的,或者交叉验证是机器学习方法,而不是统计方法)似乎还不足以说服我改变主意。

作为刚大学毕业的人,我很困惑。我非常热衷于应用正确的统计信息来解决现实世界中的问题,但是我不知道下列哪一项是正确的:

  1. 我自己了解的统计信息是错误的,因此我只是在犯错误。
  2. 理论统计量与公司的构建模型之间存在巨大差异。尽管统计理论是正确的,但人们只是不遵循它。
  3. 管理器未正确使用统计信息。

2017年4月17日更新:我已决定攻读博士学位。在统计中。谢谢大家的答复。


1
您问题相关的是下面这个答案的评论(尤其是在结尾):stats.stackexchange.com/questions/229193/...

此讨论也可能是相关的。在实践中,有时您可以使用一些模型,这些模型中的数据违反了某些必要的假设(例如,因变量的朴素贝叶斯),并且仍然会产生有趣的结果。但是您必须对得出的结论非常小心,这就是主要问题所在:大多数人只要获得结果就不在乎结果的含义。出版或灭亡……
精彩的

1
答案“你是对的,他是错的”可能是正确的,适用于你的情况。无论如何,请注意,有时答案可能是“他错了,但他的错误方式对他的目的有用-也许它比出于他的非统计目的经营业务所能做的更好”。我认为这种情况经常发生在所有种类的科学知识上,而不仅仅是统计数据。也许在SE Workplace中,他们可以为您提供非统计示例。
2016年

3
@Aksakal:根据OP的统计数据,他更有可能是正确的。您的个人轶事,仅仅是个轶事。我可以反驳说我从事的工作是仅用30个样本进行A / B测试。显示基本的能力计算改变了团队关于样本量和决策制定的整体思路。回到OP的问题,我同意所描述的内容并不意味着OP的主管打错了电话。业务工作流程具有特定的惯性,“新手”必须在成为先知之前证明自己是一位传道人...
us11r11说Reinstate Monic

1
@usεr11852,我的评论是之以鼻的:)但我认为这是有道理的:对于刚接触该领域的人来说,更安全地假设老板知道得更多。有经验的他可以放宽这个假设,也许更多地权重于他自己的意见而更少地强调老板。对于实习生,他们认为自己的权重应接近零。
Aksakal

Answers:


12

简而言之,你是对的,他是错的。数据分析的悲剧是很多人都这样做,但只有少数人做得很好,部分原因是由于数据分析的教育薄弱,部分是由于冷漠。对大多数没有统计学家或机器学习专家在作者列表上的已发表研究文章进行批判,您将很快发现诸如解释等基本错误。即原假设为真的概率。p

我认为,面对这种情况时,唯一要做的就是用一个或两个示例仔细地解释错误做法的错误之处。


3
谢谢回复。我想一个“下一步的问题”是,实际上有什么工作可以正确统计吗?我了解到数据科学在当今非常流行,但是以某种方式我给人的印象是,许多“数据科学家”并不真正在乎进行正确的统计...
3x89g2

1
@Misakov我认为这确实取决于个人或组织。但是,“数据科学”,“分析”和“商业智能”等流行词是危险信号。并且不要忘记,在工作面试中,您也在面试他们。询问您如何做事的详细问题,这不仅使您看起来好。它让您了解他们对数据分析的重视程度。
Kodiologist '16

@Misakov如果您真的想进行正确的统计,可能需要进入学术界。绝大多数(见上面我的回答)工业用途是错误的。
Mooks

[R2

1
@usεr11852好的(即,没有尖头的)经理会在员工比自己了解的更多时顺从他们。“考虑到企业仍然存在,经理的决定并没有那么错误 ”-竞赛并不迅速。
Kodiologist's

11

Kodiologist是正确的-您是正确的,他是错的。但是,可悲的是,这是一个比您遇到的地方更为普遍的地方问题。实际上,您所在的行业表现相对不错。

例如,我目前在需要设定产品规格的领域工作。几乎总是通过以某种方式监视产品/过程并记录手段和标准偏差来做到这一点-然后使用旧的Ë一种ñ+3σ

现在,除了这个置信区间没有告诉他们他们实际需要什么(他们需要一个公差区间)外,这还盲目地在徘徊在某个最大值或最小值附近的参数上完成(但是该区间不会出现) t实际上超过了这些值)。因为Excel会计算所需的数据(是的,我说过Excel),所以尽管参数不会接近正态分布,但他们还是根据该参数来设置规格。这些人已经学会了基本统计,但没有qq图或类似数据。最大的问题之一是,即使使用不当,统计信息也会为您提供一个数字-因此大多数人不知道何时使用。

换句话说,在绝大多数行业中,绝大多数产品的规格都是胡说八道。

在人们不了解的情况下,我盲目地跟踪统计数据的最糟糕的例子之一就是Cpk在汽车行业的使用。一家公司花了大约一年的时间与供应商争论产品,因为他们认为供应商可以将其产品控制在根本不可能的水平。他们仅在参数上设置了最大规格(没有最小值),并使用Cpk证明了自己的主张-直到指出他们的计算(当用于设置理论上的最低水平时-他们不希望这样做所以没有检查) )表示巨大的负值。此参数的取值永远不能小于0。Cpk假定正常,该过程未给出接近正常数据的任何值。它花了很长时间才得以解决。所有这些浪费的时间和金钱是因为人们没有 不了解他们在计算什么-如果没有注意到,情况可能会更糟。这可能是导致汽车行业定期召回的一个重要原因!

我本人来自科学领域,坦率地说,科学和工程学中的统计学教学远远不够。我从来没有听说过我现在需要使用的大多数东西-所有这些都是自学成才的,即使到现在,我的知识仍然存在(与适当的统计学家相比)巨大的差距。因此,我不会因为误用统计信息而感到不满(我可能仍会定期这样做),这是教育水平低下的问题。

因此,回到您最初的问题,这确实不容易。我会同意Kodiologist的建议,尝试轻轻地解释这些内容,以便使用正确的统计数据。但是,我要为此添加一个额外的警告,并建议您为了自己的职业而明智地选择战斗。

不幸的是,但这是一个事实,那就是您无法让所有人每次都做最好的统计。当对最终总体结论确实很重要时,选择更正它们(这有时意味着以两种不同的方式进行检查)。有时(例如您的模型1,2示例)使用“错误”方法可能会得出相同的结论。避免过多地纠正过多的人。

我知道这在智力上令人沮丧,世界应该以不同的方式工作-遗憾的是,事实并非如此。在一定程度上,您将必须学习根据同事的个人个性来判断自己的战斗。您的(职业)目标是当他们真正需要帮助时成为他们的专家,而不是总是试图纠正他们的挑剔的人。而且,实际上,如果您成为那个人,那么这可能是您获得最大成功的地方,可以使人们倾听并以正确的方式做事。祝好运。


Excel很可能是使用最广泛的数据分析软件。不需要“ 是的,我说了! ”这句话。除非有人没有离开学术界(也许不是大型制药公司),否则他不会对您的原始陈述感到惊讶。(很好的答案,+ 1)
us11r11说恢复Monic

1
它使用最广泛,我认为这突出了我的原始观点。Excel在数据分析方面存在巨大缺陷。如果您正在Excel上进行操作,则不能真正将其称为数据分析-除非您自己手动输入所有计算。不能将Excel作为电子表格,但充其量只是一个基本的数据分析工具。但是人们并没有更好的了解,因为他们没有得到更好的教会。我并非来自统计学背景,但我很幸运,有人向我提到R来制作更好的图表-巧合的是,这使我获得了更好的统计信息。
Mooks

“我会同意科迪生物学家的建议,试图轻率地解释这些事情,以便使用正确的统计数据。” 我想当证人 一位实习生向他的雇主解释如何做生意。
Aksakal

1
将有助于检查#9。此类列表中经常出现这样的常见建议。工作的前100天:不要建议改变事情,首先要弄清人们为什么以自己的方式做事,通常是有正当理由的。您会自欺欺人,而我已经看到新来的家伙不断发生这种情况。刚闭嘴观察了几个月
Aksakal

@Aksakal你所说的绝对有道理。在我的情况下,我表现得有些“大胆”,主要是因为我是一名实习生,而且我知道我马上就要离开了。
3x89g2'9

3

描述的内容似乎有点糟糕的经历。但是,这不应引起人们立即质疑自己的教育背景,也不应该引起其主管/经理的统计判断。

是的,非常,非常有可能你是正确使用CV,而不是建议[R2例如用于模型选择。但是您需要找出这种(可能是狡猾的)方法论的成因,看看这对公司造成怎样的损害,然后提供解决方案。除非有理由,否则没人愿意自觉使用错误的方法。说出某事是错误的(很可能是错误的),而没有显示该错误如何影响您的实际情况工作,而不是将来某个地方的渐近行为,并不重要。人们将不愿接受它。当一切(某种程度上)有效时,为什么要花精力去改变?从业务角度来看,您的经理不一定是错误的。他负责您部门的统计数据和业务决策;这些决策不一定总是一致,短期交付也可能不一致(时间限制是行业数据分析中非常重要的因素)。

我的建议是坚持使用您的(统计)手枪,但要对人们的行为持开放态度,对可能与新的统计实践脱节的人们保持耐心,并在被问到时提供建议/意见持开放态度,使皮肤更厚并从您的环境中学习。如果您做正确的事情,这会慢慢显示出来,人们会希望您的意见,因为他们会认识到您可以提供当前工作流程无法提供的解决方案。最后,是的,如果经过一段合理的时间(至少几个月)后,您觉得自己已经贬值和不尊重,那就继续吧。

毋庸置疑,现在您所在的行业已经无法坐下来,认为您不需要磨练统计学教育。预测建模,回归策略,聚类算法不断发展。例如,在工业环境中使用高斯过程回归已接近10年前的科幻小说。现在几乎可以看到它像现成的东西可以尝试。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.