Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)

3
可视化4维数据有哪些流行的选择?
假设我有以下四个维度的数据,其中前三个可以视为坐标,最后一个可以视为值。 c1, c2, c3, value 1, 2, 6, 0.456 34, 34, 12 0.27 12, 1, 66 0.95 如何更好地可视化前三个坐标对最后一个值的影响? 我知道三种方法。 一个是前三个坐标的3D图,以点的大小作为四个值。但是要看到数据的趋势并不是那么容易。 另一种方法是使用一系列3D图,每个图的坐标都固定。 另一个可能是R晶格中的所谓“网格图”。虽然不是出于这个目的,但看起来确实如此。

3
如何解释修整百分比与修整平均值的关系图?
对于作业问题的一部分,我被要求通过删除最小和最大的观测值来计算数据集的修整平均值,并解释结果。修整后的平均值低于未修整的平均值。 我的解释是,这是因为基础分布正偏,所以左尾比右尾更密。由于这种偏斜,删除高基准数据会比平均低基准数据向下拖累平均值下降更多,因为从非正式的角度来说,还有更多的低数据在“等待取代”。(这合理吗?) 然后,我开始怀疑修整百分比如何对其产生影响,因此我针对各种计算了修整后的平均值。我得到了一个有趣的抛物线形状: x¯tr(k)x¯tr⁡(k)\bar x_{\operatorname{tr}(k)}k=1/n,2/n,…,(n2−1)/nk=1/n,2/n,…,(n2−1)/nk = 1/n, 2/n, \dotsc, (\frac{n}{2}-1)/n 我不太确定该如何解释。从直觉上看,似乎曲线图的斜率应该(与中位数的数据点内的分布部分的负偏度成正比)。(这个假设确实可以验证我的数据,但是我只有,所以我不太有把握。)kkkn=11n=11n = 11 这种类型的图是否有名称,还是常用的?我们可以从该图中收集哪些信息?有标准解释吗? 作为参考,数据为:4、5、5、6、11、17、18、23、33、35、80。

2
对离散数据使用折线图是否错误?
我经常看到离散数据集绘制为线图,但是在我看来,该线会在测量间隔之间的某个点推断出一个值,这对于离散数据集是没有意义的。因此,对离散数据使用折线图是否错误? 例如,以两个时间序列数据集为例,一个是连续的(我的体重,每天早晨测量),另一个是离散的(我每天吃的甜甜圈的数量)。将第一个数据集作为线形图是有意义的,因为可以合理地推断出在任何给定的下午我的体重将与前一天和之后的早上的体重有关。但是,如果将甜甜圈的数量表示为线图,则点之间的线将无法从该线中推断出含义。 编辑 再举一例:联邦小时最低工资自成立以来,在情节http://mste.illinois.edu/courses/ci330ms/youtsey/lineinfo.html 除非我没有记错,否则最低工资变动是离散的,因此不可能查找一些任意选择的时间,并使用将点互连的线在该点确定最低工资。

2
QQ图与直方图不匹配
我有一个直方图,内核密度和拟合的正态分布的财务日志收益,它们已转换为损失(符号已更改),以及这些数据的正态QQ图: QQ图清楚地表明尾巴未正确安装。但是,如果我看一下直方图和拟合的正态分布(蓝色),即使0.0左右的值也不能正确拟合。因此,QQ图显示仅尾部未正确拟合,但显然整个分布未正确拟合。为什么这不会显示在QQ图中?


1
绘制具有多个预测变量的Logit模型的概率曲线
我有以下概率函数: Prob=11+e−zProb=11+e−z\text{Prob} = \frac{1}{1 + e^{-z}} 哪里 z=B0+B1X1+⋯+BnXn.z=B0+B1X1+⋯+BnXn.z = B_0 + B_1X_1 + \dots + B_nX_n. 我的模特看起来像 Pr(Y=1)=11+exp(−[−3.92+0.014×(bid)])Pr(Y=1)=11+exp⁡(−[−3.92+0.014×(bid)])\Pr(Y=1) = \frac{1}{1 + \exp\left(-[-3.92 + 0.014\times(\text{bid})]\right)} 这通过如下所示的概率曲线可视化。 我正在考虑在原始回归方程式中添加几个变量。假设我在模型中添加了性别(类别:F和M)和年龄(类别:<25和> 26),最后得到: Pr(Y=1)=11+exp(−[−3.92+0.014×(bid)+0.25×(gender)+0.15×(age)])Pr(Y=1)=11+exp⁡(−[−3.92+0.014×(bid)+0.25×(gender)+0.15×(age)])\Pr(Y=1) = \frac{1}{1 + \exp\left(-[-3.92 + 0.014\times(\text{bid}) + 0.25\times(\text{gender}) + 0.15\times(\text{age})]\right)} 在RI中可以生成类似的概率曲线,当考虑所有三个预测变量时,它将告诉我Y = 1的概率。我迷路的地方是我想找到这些变化的每种可能排列的概率。 因此,当出价= 1,性别= M,年龄> = 26时,Y = 1的概率是多少?同样,当出价= 2,性别= F,年龄> …

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
Logistic分位数回归–如何最好地传达结果
在上一篇文章中,我想知道如何处理EQ-5D分数。最近,我偶然发现了由Bottai和McKeown建议的逻辑分位数回归,该回归引入了一种处理有限结果的优雅方法。公式很简单: 升Ò 克我吨(ÿ)= 升Ô 克(y- ÿ中号我Ñÿ中号一个X- ÿ)logit(y)=log(y−yminymax−y)logit(y)=log(\frac{y-y_{min}}{y_{max}-y}) 为避免log(0)和被0除,可以将范围扩展一个小值。这提供了尊重分数边界的环境。ϵϵ\epsilon 问题在于,任何都将处于对数刻度,除非转换回常规刻度才有意义,但这意味着将是非线性的。出于图形目的,这并不重要,但如果使用更多:s,则将非常不便。β βββ\betaββ\betaββ\beta 我的问题: 您如何建议在不报告整个跨度的情况下报告logit?ββ\beta 实施实例 为了测试实现,我基于此基本功能编写了一个仿真: Ò ù 吨Ç ø 米Ë = β0+ β1个* x t e s t3+ β2* 小号Ë Xoutcome=β0+β1∗xtest3+β2∗sexoutcome=\beta_0+\beta_1* xtest^3+\beta_2*sex 其中,和。由于分数是有上限的,因此我将大于4的任何结果值和小于-1的任何结果值设置为最大值。β 1 = 0.5 β 2 = 1β0= 0β0=0\beta_0 = 0β1个= 0.5β1=0.5\beta_1 = 0.5β2= 1β2=1\beta_2 = 1 模拟数据 set.seed(10) …

9
如何自动创建漂亮的图形?
例如。例如此页面上的http://store.steampowered.com/hwsurvey 有没有现成的软件可以做到这一点?或者,对其他具有类似功能的软件有何建议?我知道这并不是一个真正的统计问题,但我非常强烈地认为,为了使数据有效,应该以一种简洁而富有吸引力的方式呈现数据,因此我认为这个问题对某些人来说是明智的。 更新(11/12/29): 感谢您对这个问题的所有答复,非常感谢您的所有建议。所谓自动,是指我键入数据,然后图形会自动更新。 我项目的目的是在不确定的时间内每天收集6-10套数据(或者每天2x),我想找到一种方法来表示网站中的数据(类似于我的Steam链接上面提供的内容),而用户后端对于非技术用户来说足够简单。如果您还有其他建议,请添加到答案中!再次感谢!

2
在R中的图形上绘制多个条形图[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 4年前关闭。 我想在R中的单个图形上绘制四个条形图。我使用了以下代码。在这里,如何将图例保持在图表顶部,特别是图例应介于2到3个条形图之间。我也尝试过,par(mar=c(4.1,4.1,8.1,4.1)但没有成功。而且,我也尝试legend()在第二个barplot之后运行,但是没有用。图例适用于所有四个木槌。请帮助我。 par(mfrow=c(1,4)) barplot(t(A), beside=T, ylim=c(-100,100),..) barplot(t(B), beside=T, ylim=c(-100,100),..) barplot(t(C), beside=T, ylim=c(-100,100),..) barplot(t(D), beside=T, ylim=c(-100,100),..) legend(...)


2
为排名数据绘制回归线(Spearman相关性)是否“可行”?
我有一些我计算出Spearman相关性的数据,并希望将其可视化以用于出版物。因变量是排名的,独立变量不是。我想可视化的是总体趋势,而不是实际的斜率,因此我对独立变量进行了排名,并应用了Spearman相关/回归。但是,当我绘制数据并将其插入到手稿中时,我偶然发现了这个声明(在此网站上): 当您进行Spearman秩相关时,几乎不会将回归线用于描述或预测,因此不要计算回归线的等价物。 然后 您可以按照与线性回归或相关性相同的方式来绘制Spearman等级相关性数据。但是,不要在图表上放置回归线。使用等级相关性对其进行分析后,将线性回归线放在图形上会产生误导。 问题是,回归线与我未对独立变量进行排名并计算皮尔逊相关性时没有太大不同。趋势是相同的,但是由于期刊中彩色图形的费用过高,所以我使用单色表示,并且实际数据点重叠得太多,以致无法识别。 当然,我可以通过制作两个不同的图来解决此问题:一个用于数据点(排名),另一个用于回归线(未排名),但是如果事实证明我引用的来源有误或存在问题,就我而言,这不是问题,它将使我的生活更轻松。(我也看到了这个问题,但这并没有帮助我。) 编辑其他信息: 如果将分类算法的性能进行比较,则x轴上的自变量表示特征的数量,y轴上的因变量表示等级。现在,我有一些算法可以平均比较,但是我想对我的情节说的是:“虽然分类器A越好,存在的特征越多,分类器B越好,存在的特征越多” 编辑2以包括我的地块: 绘制的算法等级与特征数量的关系 绘制的算法等级与特征等级的对比 因此,重复标题中的问题: 可以为Spearman相关/回归的排名数据绘制回归线吗?

5
如何制作好的色彩强度标尺?
我的统计数据绝对不是很好,但我认为我来对地方了。我的问题很简单: 我的问题是比较一个小国家中几个州的人口,但是有些州的人口是30万,有些州的人口是2000。 我正在将其绘制在地图上,颜色的“强度”取决于每个州的人口与整个国家的人口比较。 问题在于,人口众多的州用非常强烈的颜色显示,而小州几乎没有任何颜色。 有没有一种简单的方法可以“标准化”或使数据具有可比性? 我不知道自己是否在正确地解释自己,但我希望有人能帮助我。如果我的问题不清楚,请发表评论,我会澄清。 谢谢您的帮助!



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.