统计和大数据 data-visualization

3

让我们说我有1000个组件，并且我一直在收集有关这些组件记录故障的次数以及每次它们记录故障的数据，我还跟踪团队修复该问题花费了多长时间。简而言之，我一直在记录这1000个组件中每个组件的修复时间（以秒为单位）。在该问题的末尾提供了数据。我把所有的这些值，并使用在画了R A Cullen和Frey图descdist从fitdistrplus包。我的希望是了解维修时间是否遵循特定的分配时间。这是boot=500获取引导值的图：我看到该图告诉我观察结果属于beta分布（或者可能不是，在这种情况下，它揭示了什么？）现在，考虑到我是系统架构师而不是统计学家，那么该图揭示了什么？？（我正在寻找这些结果背后的实际现实直觉）。编辑： QQplot使用qqPlot包中的功能car。我首先使用该fitdistr函数估算了形状和比例参数。 > fitdistr(Data$Duration, "weibull") shape scale 3.783365e-01 5.273310e+03 (6.657644e-03) (3.396456e+02) 然后，我这样做： qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03) 编辑2：使用对数正态QQplot更新。这是我的数据： c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 3049L, 129067L, 21806L, 456L, 22745L, 198L, …

31 distributions data-visualization survival reliability distribution-identification

7

存在数百万个点时可以更有效地绘制数据的统计方法？

我发现当存在数百万个点时，R可能需要很长时间才能生成图-考虑到点是单独绘制的，这不足为奇。此外，这样的地块常常太杂乱，太密集而无法使用。许多点重叠并形成黑色块，并且花费大量时间在该块上绘制更多点。在标准散点图中，有没有其他统计方法可以表示大数据？我考虑过密度图，但是还有哪些其他选择？ññn

31 r data-visualization

3

使用R制作通过处理分离数据的散点图的好方法是什么？

一般而言，我对R和统计资料非常陌生，但我需要做一个散点图，我认为这可能超出了它的本机能力。我有几个观测向量，我想用它们作一个散点图，每对都属于三类之一。我想创建一个散点图，以颜色或符号将每个类别分开。我认为这比生成三个不同的散点图更好。我的另一个问题是，在每个类别中，一个点上都有大的群集，但是一组中的群集比其他两组中的群集大。有人知道这样做的好方法吗？我应该安装软件包并学习如何使用？有人做过类似的事情吗？谢谢

30 r data-visualization scatterplot

4

类不平衡下的精确召回曲线的优化

我有一个分类任务，其中有许多预测变量（其中一个是最有参考价值的），并且我正在使用MARS模型来构造我的分类器（我对任何简单的模型都感兴趣，并且使用glms进行说明是没关系）。现在，我在训练数据中存在巨大的班级失衡（每个正样本大约有2700个负样本）。与信息检索任务类似，我更关心预测排名最高的阳性测试样本。因此，Precision Recall曲线上的性能对我很重要。首先，我只是在训练数据上训练了模型，从而保持了班级的不平衡。我将训练有素的模型显示为红色，最重要的输入显示为蓝色。培训不平衡数据，评估不平衡数据：认为班级失衡会导致模型失败，因为学习排名最高的正样本是整个数据集的很小一部分，所以我对正训练点进行了升采样以获得平衡的训练数据集。当我在平衡训练集上绘制性能时，我会获得良好的性能。在PR和ROC曲线中，我训练有素的模型都比输入要好。训练（上采样的）平衡数据，还评估（上采样的）平衡数据：但是，如果我使用在平衡数据上训练的模型来预测原始的不平衡训练集，则PR曲线上的性能仍然很差。培训（上采样的）平衡数据，评估原始不平衡数据：所以我的问题是：是由于PR曲线的可视化显示我训练的模型（红色）的性能较差，而ROC曲线却由于类的不平衡而导致性能改善的原因吗？重采样/上采样/下采样方法能否解决此问题，从而迫使训练集中于高精度/低召回率区域？还有其他方法可以将培训集中在高精度/低召回率区域吗？

30 machine-learning roc precision-recall unbalanced-classes data-visualization

6

折线图有太多线，是否有更好的解决方案？

我试图绘制一段时间内用户的操作数（在这种情况下为“点赞”）。因此，我将“操作次数”作为我的y轴，我的x轴是时间（周），每行代表一个用户。我的问题是，我想查看一组约100个用户的数据。折线图很快就变成了100条折线。我可以使用一种更好的图形来显示此信息吗？还是我应该考虑能够打开/关闭单独的行？我想一次查看所有数据，但是能够高精度地识别动作的数量并不是很重要。为什么我要这样做对于我的一部分用户（主要用户），我想找出哪些用户可能不喜欢某个日期推出的应用程序的新版本。我正在寻找单个用户的操作数量大幅下降。

30 r data-visualization

2

主成分分析中双峰的解释

我遇到了一个很好的教程：《使用R进行统计分析的手册》。第13章。主成分分析：奥林匹克七项全能，其中涉及如何用R语言进行PCA。我不理解图13.3的解释：因此，我正在绘制第一个特征向量与第二个特征向量。这意味着什么？假设对应于第一特征向量的特征值解释了数据集中60％的变化，第二特征值-特征向量解释了20％的变化。将它们相互绘制意味着什么？

30 r pca data-visualization interpretation biplot

3

可视化多个集合的交集

是否有一个可视化模型可以很好地显示许多集合的交集重叠？我在思考类似维恩图的方法，但是它可能以某种方式更好地适用于更多的集合，例如10个或更多集合。Wikipedia确实显示了一些较高的维恩图，但即使是4组图也需要很多。我对数据的最终结果的猜测是，许多数据集不会重叠，因此维恩图可能会很好-但我想找到一种能够生成该数据的计算机工具。在我看来，它看起来像Google图表不允许那么多集合。

30 data-visualization dataset

2

情节的解释（glm.model）

谁能告诉我如何解释“残差与拟合”，“正常q-q”，“比例位置”和“残差与杠杆”图？我正在拟合二项式GLM，将其保存然后绘制。

30 r logistic data-visualization generalized-linear-model qq-plot

3

我可以使用什么测试来比较两个或多个回归模型的斜率？

我想测试两个变量对一个预测变量的响应差异。这是一个最小的可复制示例。 library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "virginica") m.ver <- gls(Sepal.Length ~ Petal.Width, data = iris, subset …

29 r data-visualization multivariate-analysis hypothesis-testing

1

从lmer模型计算效果的可重复性

我刚刚碰到了这篇论文，该论文描述了如何通过混合效应建模来计算测量的可重复性（又称可靠性，又称类内相关性）。R代码为： #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

6

饼图问题

关于饼图的讨论似乎越来越多。反对它的主要论据似乎是：感知区域的力量小于长度。饼图的数据点对像素比率非常低但是，我认为在描绘比例时它们可能会有所帮助。我同意在大多数情况下使用表格，但是当您编写业务报告并且刚刚包含数百个表格时，为什么不使用饼图呢？我对社区对此主题的想法感到好奇。欢迎进一步参考。我包括几个链接： http://www.juiceanalytics.com/writing/the-problem-with-pie-charts/ http://www.usf.uni-osnabrueck.de/~breiter/tools/piechart/warning.en.html 为了总结这个问题，我决定建立一个饼图与华夫饼图的示例。

28 data-visualization many-categories pie-chart

6

断轴有哪些替代方法？

通常，用户很想打破轴值以在同一张图上呈现不同数量级的数据（请参阅此处）。尽管这可能很方便，但它并不总是显示数据的首选方式（充其量可能会引起误解）。有几种显示数个数量级不同的数据的替代方法？我可以想到两种方式，对数转换数据或使用晶格图。还有哪些其他选择？

28 data-visualization logarithm

4

为什么在喷气机上使用彩色贴图绿色？

正如https://www.youtube.com/watch?v=xAoljeRJ3lU中宣布的那样，Matplotlib将默认颜色图从jet更改为viridis。但是，我不太了解。也许是因为我色盲？原始的颜色图喷射看起来很强烈，我可以感觉到对比度：尽管新的色彩映射viridis缺乏这种对比：任何人都可以为我解释一下吗？我需要我的论文作图。而且我需要一个很好的理由说服我的主管（和我自己），绿虹膜是更好的。

28 data-visualization

5

如何在R中的散点图中添加非线性趋势线？[关闭]

我有一个散点图。如何添加非线性趋势线？

27 r data-visualization nonlinear-regression trend

4

在R中生成视觉上吸引人的密度热图

虽然我知道在R中有一系列用于生成热图的函数，但问题是我无法生成视觉上吸引人的图。例如，以下图像是我要避免的热图的很好示例。第一个明显缺乏细节，而另一个（基于相同的观点）太详细而无法使用。这两个图都是由spatstat R包中的density（）函数生成的。如何获得更多的“流量”？我的目标是获得更多商用SpatialKey（屏幕截图）软件能够产生的外观。有什么提示，算法，程序包或代码行可以带我朝这个方向前进吗？

27 r data-visualization spatial

Questions tagged «data-visualization»