Questions tagged «eda»

EDA代表“探索性数据分析”。由Tukey开发,与确认数据分析或CDA(假设的正式检验)形成对比。EDA通常关注以数字和图形方式描述数据,以使数据更易于理解并产生新见解。


2
贝叶斯和常识性EDA方法是否存在差异?
简而言之:探索性数据分析的贝叶斯和频率论方法有什么区别吗? 我不知道EDA方法中的固有偏差,因为直方图是直方图,散点图是散点图等,我也没有找到关于EDA的讲授或呈现方式差异的示例(忽略了A. Gelman的特别理论论文) 。最后,我看了CRAN,它是所有应用的仲裁者:我没有找到适合贝叶斯方法的软件包。但是,我认为CV可能会有一些人对此有所了解。 为什么要有差异? 对于初学者: 在确定适当的先验分布时,不应该用肉眼进行调查吗? 在汇总数据并建议是使用常客模型还是贝叶斯模型时,EDA是否不建议选择哪个方向? 两种方法在如何处理混合模型方面有非常明显的区别。鉴定样本可能来自人群混合是具有挑战性的,并且与用于估计混合物参数的方法直接相关。 两种方法都包含随机模型,并且通过了解数据来驱动模型的选择。更复杂的数据或更复杂的模型需要在EDA中花费更多时间。鉴于随机模型或生成过程之间的这种区别,EDA活动存在差异,因此,难道不应该因不同的随机方法而产生区别吗? 注1:我并不关心“阵营”的哲学-我只想解决我的EDA工具包和方法中的任何空白。

3
帮助您选择适当的分析技术和测试的流程图
作为需要统计知识但不是经过正式培训的统计学家的人,我发现有一个流程图(或某种决策树)来帮助我选择解决特定问题的正确方法(例如,“需要这个并且知道那个并且认为数据是正态分布的吗?使用技术X。如果数据不是正态,则使用Y或Z“。 经过一番谷歌搜索后,我看到了几次尝试,尝试了各种覆盖范围和质量(目前尚不可用)。在图书馆查阅的统计教科书中,我也看到了类似的流程图。 奖励是一个交互式站点,除了仅提供图表之外,它还将提供额外的信息(例如假设),并指出如何在流行的统计数据包中执行这些技术。“需要在R中进行ANOVA吗?您需要软件包X,这是一个教程”。 我作为社区Wiki问题问,希望有更好的资源我找不到。由于统计是一个很大的主题,我认为这样的流程图将适合具有初学者或中级水平知识的人可以采用的技术。任何更复杂的事情都需要经过正规培训的人员。

6
用于识别变量之间关系的R包
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 4年前关闭。 是否可以使用R包来探索变量之间是否存在关系? 通常,当我寻找模式时,我会先看相关性,然后看一个方面图。然后,我将一些转换手动应用于数据中的变量。我想知道是否可以通过R包来加快此过程。

4
汇总和分析数据的最佳方法
最近刚开始自学机器学习和数据分析,我发现自己对创建和查询大量数据的需求感到困惑。我想对自己在职业和个人生活中积累的数据进行分析,但是我不确定执行以下操作的最佳方法: 我应该如何存储这些数据?Excel?SQL??? 初学者开始尝试分析这些数据的好方法是什么?我是一名专业的计算机程序员,所以复杂性不在于编写程序,而是或多或少地针对数据分析领域。 编辑:为我的含糊而道歉,当您第一次开始学习某些东西时,很难知道您不知道的内容,是吗?;) 话虽如此,我的目的是将其应用于两个主要主题: 软件团队指标(考虑敏捷速度,量化风险,在x个故事点数的情况下成功完成迭代的可能性) 机器学习(例如,在给定的一组模块中发生了系统异常),一个模块将在现场抛出异常的可能性是多少,代价是多少,数据可以告诉我哪些关键模块需要改进,从而获得最好的解决方案,预测用户接下来要使用哪个系统部分以开始加载数据,等等)。

2
探索性和确认性因素分析在确定结构独立性方面的差异
研究人员经常使用两项具有非常相似项目的度量标准,并争辩说它们测量的是不同的事物(例如,“我总是在汽车周围时会担心”;“我担心汽车”)。让我们从汽车量表中将假设的量度称为“汽车恐惧量度”和“焦虑量度”。如果他们确实评估了不同的潜在结构,或者它们测量的是相同的东西,我会对经验进行测试感兴趣。 我认为做到这一点的两种最佳方法是通过工厂探索性分析(EFA)或确认性因素分析(CFA)。我认为EFA会很好,因为它允许所有项目不受限制地自由加载。如果两个量表中的项目使用相同的因子,那么我可以得出结论,这些度量可能无法很好地评估不同的事物。但是,我还将看到CFA的好处,因为我将测试预定义的模型。例如,我可以比较一个模型的拟合度,在该模型中,所有项目都加载到一个因素上(即,他们没有评估不同的结构),或者项目被划分为预期的度量。我想,CFA的一个问题是它不会真正考虑替代模型(例如,三因素模型)。 为了讨论的目的,让我们也许考虑一下,我想把另外两种非常相似的方法(例如,汽车焦虑调查表和用于评估汽车恐惧的量表)加入其中! 我怎样才能最好地从统计角度确定两种措施是否评估了不同的结构?

2
如果我的直方图显示出钟形曲线,我可以说我的数据呈正态分布吗?
我为“受访者年龄”创建了一个直方图,并设法获得了一个非常漂亮的钟形曲线,由此得出的结论是正态分布。 然后,我在n = 169的SPSS中运行正态性检验。Kolmogorov-Smirnov检验的p值(Sig。)小于0.05,因此数据违反了正态性假设。 为什么测试表明年龄分布不正常,但直方图显示出钟形曲线,据我所知这是正常的?我应该遵循哪个结果?

1
如何解释缺口箱图
在进行一些EDA时,我决定使用箱形图来说明一个因子的两个水平之间的差异。 该方法ggplot呈现箱形图是令人满意的,但是稍微简单化(下图1图)。在研究箱形图的特性时,我开始尝试刻槽。 我知道,缺口在中位数附近显示CI,并且如果两个框的缺口不重叠,则有“有力的证据”(置信水平为95%)表明中位数有所不同。 在我的情况下(第二幅图),槽口没有有意义的重叠。但是,为什么盒子右侧的底部采用这种奇怪的形式呢? 在小提琴图中绘制相同的数据并不会表明相应小提琴的概率密度有任何异常。

2
“让数据说明一切”是什么意思?
在阅读以下论文时,我遇到了以下声明: 如上所述,与Benzecri [1973]提出的“让数据不言自明”的想法一致,它通常在未提及任何概率模型的情况下提出。 (引自JPBenzécri。L'analyse desdonnées。《 Tome II:L'analyse des通信》。Dunod,1973年。) 从我阅读本文的方式来看,听起来像“让数据自己说出来”意味着在考虑跨数据的各种度量的过程中无需考虑似然函数或数据生成过程。 虽然我之前曾听过“让数据说明一切”的名言,但我并没有认真考虑隐含的含义。我的上述解释是这个报价所暗示的含义吗?
10 eda  quotation 

3
乍一看数据集
请原谅我的无知,但是... 我不断遇到自己设法找到的大量新数据的情况。这些数据通常看起来像这样: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) 通常乍一看,我真的无法分辨这里是否有任何趋势。各个列之间的相关性可能不是很重要,但是如果我不必为每种可能的列/类别组合手动创建图,我将感到非常高兴。 是否有工具可以接受数据表以及信息,哪些列应被视为数字,日期和类别,然后进行绘制: 每两个数值列之间的相关性 每两个数值列之间的相关性,每个类别具有单独的趋势线 每个数字列作为时间序列, 每个数字列都是一个时间序列,按类别分开, 等等 最后,这将生成大量图,其中大多数图仅显示噪声。理想情况下,该工具可以通过相关性对图进行评分,最后显示从得分最高的图开始的幻灯片显示。这将是非常不完美的,但乍一看对数据集很有用。 所以?是否有每个人都使用的工具,而我对此却一无所知,还是我们需要制作此工具?

4
开始进行统计建模的提示和技巧?
我从事数据挖掘领域的工作,很少接受统计学方面的正规教育。最近,我读了很多关于贝叶斯学习和挖掘范式的工作,我觉得这很有趣。 我的问题是(分为几个部分),考虑到一个问题,是否有一个通用的框架可以用来构建统计模型?给定想要为其基础流程建模的数据集时,您要做的第一件事是什么?有没有好的书籍/教程可以解释这个过程,或者是经验的问题?在构建模型时,推理是在您的思维的最前沿吗?还是在担心如何使用数据进行计算之前首先要描述数据? 任何见识将不胜感激!谢谢。

4
为什么1个中位数低于另一个中位数的事实并不意味着第1组中的大多数都少于第2组中的大多数?
我认为下面的箱线图可以解释为“大多数男人比大多数女人快”(在此数据集中),主要是因为中位男性的时间低于中位女性的时间。但是有关R和统计知识测验的EdX课程告诉我,这是不正确的。请帮助我理解为什么我的直觉是不正确的。 这是问题: 让我们考虑一个2002年纽约马拉松比赛的完成者的随机样本。可以在UsingR包中找到此数据集。加载库,然后加载nym.2002数据集。 library(dplyr) data(nym.2002, package="UsingR") 使用箱线图和直方图比较男性和女性的完成时间。以下哪项最能描述差异? 男性和女性具有相同的分布。 大多数男性比大多数女性快。 男性和女性的偏斜分布与前者相似,向左偏移20分钟。 两种分布的正态分布均相差约30分钟。 以下是纽约市男女马拉松比赛时间,以分位数,直方图和方框图的形式: # Men's time quantile 0% 25% 50% 75% 100% 147.3333 226.1333 256.0167 290.6375 508.0833 # Women's time quantile 0% 25% 50% 75% 100% 175.5333 250.8208 277.7250 309.4625 566.7833

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

3
发现数据新知识的准则
我策划一些事情来指出自己或其他人。通常,一个问题开始这个过程,并且经常有人问一个特定答案的希望。 如何以较少偏见的方式学习有关数据的有趣事情? 现在,我大致遵循此方法: 摘要统计。 带状图。 散点图。 也许重复一个有趣的数据子集。 但这似乎还不够系统或科学。 是否有可遵循的准则或程序来揭示我不想问的有关数据的信息?我怎么知道做完足够的分析之后?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.