Questions tagged «eda»

EDA代表“探索性数据分析”。由Tukey开发,与确认数据分析或CDA(假设的正式检验)形成对比。EDA通常关注以数字和图形方式描述数据,以使数据更易于理解并产生新见解。

24
“现代”统计的经验法则
我喜欢G van Belle撰写的有关统计经验法则的书,在较小程度上,我喜欢Phillip I Good和James W. Hardin 撰写的统计学中的常见错误(以及如何避免错误)。当解释实验和观察研究的结果时,它们解决了常见的陷阱,并为统计推断或探索性数据分析提供了实用建议。但是我感到有些缺乏“现代”指南,特别是随着在各个领域中对计算和鲁棒统计的使用不断增长,或者在临床生物统计学或遗传流行病学等领域引入了机器学习社区的技术。 除了可以在其他地方解决的计算技巧或数据可视化中的常见陷阱之外,我想问一下:对于高效的数据分析,您建议的最高经验法则是什么?(请为每个答案制定一条规则)。 我正在考虑您可以向同事,没有统计学建模背景的研究人员或中高级课程的学生提供的指导原则。这可能与数据分析的各个阶段有关,例如采样策略,特征选择或模型构建,模型比较,后估计等。

6
是否有充分的理由使用PCA代替EFA?另外,PCA可以代替因子分析吗?
在某些学科中,没有任何理由就系统地使用PCA(主要成分分析),而PCA和EFA(探索性因素分析)被视为同义词。 因此,我最近使用PCA分析了量表验证研究的结果(7点Likert量表中的21个项目,假设由3个因子组成,每个7个项目),而审阅者问我为什么选择PCA而不是EFA。我读到了这两种技术之间的差异,在您的大多数回答中,似乎EFA都优于PCA。 您是否有充分的理由说明为什么PCA会是更好的选择?它可以提供什么好处?在我看来,为什么它是一个明智的选择?


8
R中的图形数据概述(摘要)功能
我敢肯定我以前在R包中遇到过这样的函数,但是经过广泛的谷歌搜索之后,我似乎找不到任何地方。我正在考虑的功能为给它的变量生成了图形摘要,并生成了带有一些图形(直方图,也许还有盒子和晶须图)的输出,还有一些文本给出了平均值,SD等详细信息。 我很确定此函数未包含在基本R中,但是我似乎找不到我使用的软件包。 有谁知道这样的功能,如果知道,它在哪个包中?

5
数据“探索”与数据“监听” /“拷打”?
很多时候,我都遇到过非正式的警告,反对“数据​​监听”(这是一个有趣的例子),我认为我对这意味着什么以及为什么可能是一个问题有一个直观的认识。 另一方面,“探索性数据分析”似乎是统计学中一个非常受人尊敬的程序,至少从以下事实来看:具有该名称的书仍被经典地引用。 在我的工作中,我经常遇到看起来像猖like的“数据监听”,或者将其更好地描述为“数据折磨 ”,尽管这样做的人似乎将同一活动视为完全合理且毫无问题的“探索” ”。 这是典型的场景:进行了代价高昂的实验(对后续分析没有过多考虑),原始研究人员无法轻易辨别所收集数据中的“故事”,有人被邀请使用一些“统计巫术”,以及,在以各种方式对数据进行切片和切块之后,最终设法从中提取出一些可发布的“故事”。 当然,最终报告/论文中通常会抛出一些“验证”,以表明统计分析是不断进行的,但其背后公然的不惜一切代价发表的态度让我感到怀疑。 不幸的是,由于我对数据分析可做与不可做的有限理解,使我无法摆脱如此模糊的疑问,因此我的保守回应是基本上不理会这些发现。 我的希望是,不仅可以更好地理解探索与侦听/拷打之间的区别,而且更重要的是,更好地掌握检测越界线的原理和技术,将使我能够评估这些发现。这种方法可以合理地解释一个不太理想的分析过程,因此可以超越我目前对笼统怀疑的相当简单的想法。 编辑:谢谢大家非常有趣的评论和答案。从他们的内容来看,我认为我可能还没有很好地解释我的问题。我希望此更新可以澄清问题。 我在这里的问题不是那么重要,我应该怎么做才能避免折磨我的数据(尽管这也是一个令我感兴趣的问题),而是:我应该如何看待(或评估)我通过事实得出的结果这样的“数据折磨”。 在那些(非常罕见)的情况下,情况变得更加有趣,此外,在这些情况下,我还可以发表意见,然后再将其提交发表。 在这一点上,我最多只能说些类似的话:“鉴于我对获得这些假设和程序的了解,我不知道可以对这些发现给予多大的信任。” 这太模糊了,甚至不值得一说。 想要超越这种模糊性是我发帖的动机。 公平地说,我在这里的怀疑不仅仅基于看似有问题的统计方法。实际上,我认为后者更多是由更深层次的问题引起的:结合了对实验设计的勇敢态度以及对公布结果的坚定承诺(即无需任何进一步的实验)。当然,后续项目总是可以预见的,但是毫无疑问的是,不会从“装满100,000个样品的冰箱”中取出一张纸。 统计数据只是实现此最高目标的一种手段。锁定统计数据的唯一理由(在整个场景中是次要的)是,假设“不惜一切代价出版”的正面挑战根本没有意义。 实际上,在这种情况下,我只能想到一种有效的响应:提出一些统计测试(不需要额外的实验)来真正测试分析的质量。但是我只是没有统计数据。我的希望(回想起来很幼稚)是找出我可以研究的东西,使我能够进行此类测试。 在我撰写本文时,我突然意识到,如果不存在这样的数据,世界可以使用一个新的统计子分支,专门用于检测和公开“数据酷刑”的技术。(当然,我并不是说被“酷刑”隐喻迷住了:问题不是本质上的“数据酷刑”,而是它可能导致的虚假“发现”。)

4
《科学》杂志是否认可“分叉路径分析花园”?
自适应数据分析的思想是,随着您了解更多有关数据的信息,您将更改其分析计划。对于探索性数据分析(EDA),通常这是一个好主意(您经常在数据中寻找无法预料的模式),但是对于验证性研究,这被广泛认为是一种非常有缺陷的分析方法(除非所有步骤已明确定义,并已预先适当计划)。 话虽这么说,自适应数据分析是典型的许多研究人员实际上如何进行他们的分析,很多统计人员的不舍。这样,如果人们能够以一种统计有效的方式做到这一点,它将彻底改变统计实践。 以下《科学》杂志声称已经找到了一种方法(我对此深表歉意,但如果您在大学里,很可能可以使用):Dwork等人,2015年,可重用的保留:在自适应数据分析中保持有效性。 就我个人而言,我一直对《科学》杂志上发表的统计文章持怀疑态度,这一点也没有什么不同。实际上,在仔细阅读了文章(包括补充材料)两次之后,我根本无法理解(为什么)作者声称他们的方法可以防止过拟合。 我的理解是他们有一个保留数据集,可以重复使用。他们似乎声称通过对验证数据集上的确认分析输出进行“模糊处理”,从而避免了过度拟合(值得注意的是,如果对训练数据的计算统计数据足够模糊,则模糊处理似乎只是在增加噪声。根据对保留数据计算的统计信息)。据我所知,没有真正的理由可以防止过度拟合。 我是否误解了作者的提议?我忽略了一些微妙的影响吗?还是《科学》杂志 认可了迄今为止最糟糕的统计实践?

2
在小样本研究中如何应对探索性数据分析和数据挖掘?
探索性数据分析(EDA)通常会导致探索不一定属于初始假设集的其他“轨迹”。在样本量有限且通过不同问卷收集的大量数据的研究中,我会遇到这种情况(社会人口统计学数据,神经心理学或医学量表,例如,心理或身体机能,抑郁/焦虑水平,症状清单) )。EDA可能会突出显示一些意料之外的关系(“意料之外”,意味着它们未包含在初始分析计划中),这会转化为其他问题/假设。 与过拟合的情况一样,数据挖掘或监听确实会导致结果无法推广。但是,当有大量数据可用时,(对于研究人员或医师而言)很难假设一组有限的假设。 我想知道在小样本研究中是否有公认的方法,建议或经验法则可能有助于描述EDA。


6
德州神枪手在探索性数据分析中的谬误
我在《自然》杂志上读过这篇文章,其中在数据分析的背景下解释了一些谬误。我注意到德州神枪手的谬误特别难以避免: 德州神枪手的寓言说明了在数据分析过程中等待的认知陷阱:一个无能的射手,他在谷仓侧面发射随机的子弹图案,围绕最大的子弹孔绘制目标,并自豪地指向他的成功。 他的靶心显然是可笑的-但对于那些在连胜的过程中相信“一手好牌”的赌徒,或者在所有奇数都出现彩票时看到超自然意义的人来说,谬论并不那么明显。 对于研究人员来说也不总是很明显。“您只是从数据中得到一些鼓励,然后思考,这是走下坡路,” Pashler说。“您没有意识到自己有27种不同的选择,而是选择了一个给您最满意或最有趣的结果的选择,现在您从事的并不是完全无偏的数据表示。” 我认为这种探索工作是司空见惯的,而且通常是在那部分分析的基础上建立假设的。有一个专用于此过程的整体方法(EDA): 约翰·图基(John Tukey)倡导探索性数据分析,以鼓励统计学家探索数据,并可能提出可能导致新数据收集和实验的假设 似乎在没有事先假设的情况下执行的任何探索性过程都容易产生虚假假设。 请注意,上面对EDA的描述实际上是在谈论new data collection and experiments。我了解到,在收集了新数据之后,就需要进行验证性数据分析(CDA)。但是,我认为这种区分并不十分清楚,尽管将EDA和CDA分开是理想的,但是肯定在某些情况下这是不可行的。我要说的是,严格遵循这种分离并不常见,而且大多数从业人员根本不赞成EDA范式。 所以我的问题是:EDA(或任何非正式的数据浏览过程)是否会使德州神枪手的谬误更有可能崩溃?
23 eda  fallacy 

5
在Casella&Berger之后要学什么?
我是一名纯数学研究生,几乎没有应用数学背景。从去年秋天开始,我开始在Casella&Berger的书上上课,并且在书中完成了数百(230+)页的运动问题。现在我在第10章。 但是,由于我没有统计学专业或计划成为统计学家,所以我认为我将无法定期投入时间继续学习数据分析。到目前为止,我的经验告诉我,作为一名统计学家,需要承担很多繁琐的计算工作,涉及各种分布(Weibull,Cauchy,,F ...)。我发现虽然基本思想很简单,但由于技术原因,实现(例如假设检验中的LRT)仍然很困难。ŤŤtFFF 我的理解正确吗?有没有一种方法可以学习概率和统计信息,不仅可以涵盖更高级的材料,还可以在我需要现实生活中的数据分析时提供帮助吗?我是否需要像以前那样每周花费个小时?≥≥\ge 尽管我认为学习数学没有走上任何皇家之路,但我常常不禁要问-大多数时候,我们不知道真实数据的分布是什么,所以我们专注于各种分布族的目的是什么? ?如果样本量较小,并且中心极限定理不适用,那么在分布未知的情况下,除了样本平均值和方差之外,我们还应如何正确分析数据? 我的学期将在一个月内结束,在我开始专注于博士学位研究后,我不希望自己的知识消失。所以我决定问。我正在学习R,并且我有一定的编程背景,但是我的水平与代码猴子差不多。

5
如何保持对大型数据集的探索性分析?
当我在一个大数据集(许多样本,许多变量)上进行探索性分析时,我经常发现自己身上有数百个派生变量,以及成千上万的不同地块,而没有真正的方式来跟踪前进的方向。代码最终像意大利面条一样,因为从一开始就没有方向。 有什么建议的方法可以使探索性分析保持整洁?特别是,您如何处理勘探的多个分支(包括无用的分支)以及不同版本的地块? 作为参考,我正在研究地球科学数据(随时间变化的许多变量,有时甚至随着空间的变化)。我通常使用Python或R,并将所有内容存储在git中,并且也一直在尝试IPython Notebook。但是,如果答案对所有领域的人来说都是通用的并且有用其他类型的(大型?)数据,那将是很好的。

1
PCA /对应分析中的“马蹄效应”和/或“拱效应”是什么?
生态统计中有许多技术可用于多维数据的探索性数据分析。这些被称为“协调”技术。许多统计数据与其他地方的通用技术相同或紧密相关。原型示例可能是主成分分析(PCA)。生态学家可能会使用PCA和相关技术来探索“梯度”(我尚不完全清楚什么是梯度,但我已经对其有所了解。) 在此页面上,主成分分析(PCA)下的最后一项是: PCA对于植被数据有一个严重的问题:马蹄效应。这是由于物种沿梯度分布的曲线性所致。由于物种响应曲线通常是单峰的(即非常强烈的曲线),因此马蹄效应很常见。 在页面的下方,在“ 对应分析”或“互惠平均”(RA)下,它称为“拱形效应”: RA有一个问题:拱效应。这也是由沿梯度分布的非线性引起的。 拱形不如PCA的马蹄效应那么严重,因为坡度的末端没有回旋。 有人可以解释吗?最近,我在重新表示低维空间数据的绘图中看到了这种现象(即对应分析和因子分析)。 “梯度”将更广泛地对应于什么(即在非生态环境中)? 如果您的数据发生这种情况,这是“问题”(“严重问题”)吗?为了什么? 在马蹄形拱门出现的地方应该如何解释输出? 是否需要采取补救措施?什么?原始数据的转换会有所帮助吗?如果数据是序数等级怎么办? 答案可能存在于该站点的其他页面中(例如,对于PCA,CA和DCA)。我一直在努力解决这些问题。但是,这些讨论是用不够熟悉的生态术语和实例进行的,因此很难理解这个问题。

8
关于“实验室笔记本”软件的想法?
因此,这很奇怪,尽管实际上我认为这对任何站点都非常合适,所以我认为我会在我的数据处理专家中尝试一下。 我从生物学学到流行病学和生物统计学,但仍然肯定有该领域的一些习惯。其中之一是保留实验室笔记本。它对于记录思想,决策,关于分析的沉思等等很有用。所有这些都集中在一个地方,所有的事情都发生了,所以我以后可以回顾分析并了解我的所作所为。 但是,最好将其转移到21世纪。特别是因为即使实验室笔记本系统对于一个人来说足够体面并记录决策,还是能够附加来自EDA的图表,来自讨论特定数据集的数据管理员的电子邮件等,这还是很好的。 我猜想这将涉及从许多不同的地方联合起来组装我自己的系统,但是目前有人在使用系统并有任何建议吗?

2
如何进行探索性数据分析以选择合适的机器学习算法
我们正在通过“机器学习:概率论”(Kevin Murphy)研究机器学习。虽然文字解释了每种算法的理论基础,但很少说明哪种情况下哪种算法更好,什么时候做的更好,却没有说明如何判断我所处的情况。 例如,对于内核的选择,有人告诉我进行探索性数据分析以评估数据的复杂程度。在简单的二维数据中,我可以绘图并查看线性或径向核是否合适。但是在更高维度上做什么? 更一般地说,人们在选择算法之前说“开始了解您的数据”是什么意思?现在,我只能区分分类算法与回归算法,以及线性算法与非线性算法(我无法检查)。 编辑:即使我最初的问题是关于普遍的经验法则,我被要求提供有关我的特定问题的更多信息。 数据:每行一个国家/地区月的面板(总计约30,000行,涵盖约15年中的165个国家/地区)。 回应:5个感兴趣的二元变量(例如,该月是否发生抗议/政变/危机等)。 特征:〜400个变量(连续,类别和二进制的混合),详细说明了前两个国家/地区的月份的特征(可以创建更长的滞后时间)。我们只使用滞后变量,因为目标是预测。 例子包括汇率,GDP增长(连续),新闻自由水平(绝对),民主,邻国是否存在冲突(二元)。请注意,这400个功能中有很多是滞后变量。

5
一种以图形方式显示大量数据的好方法
我正在从事一个涉及14个变量和345,000个房屋数据观测值的项目(例如建造年份,平方英尺,已售价格,居住县等)。我担心要尝试找到好的图形技术和包含好的绘图技术的R库。 我已经看到ggplot和lattice中的内容会很好地工作,并且我正在考虑为一些数字变量绘制小提琴图。 人们会建议使用哪些其他软件包来以清晰,简洁,最重要的是简洁的方式显示大量的数字或因子类型的变量?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.