Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)

2
一小部分布尔特征样本的PCA和频谱聚类之间的差异
我有50个样本的数据集。每个样本均由11个(可能相关的)布尔特征组成。我想介绍一下如何在2D图上可视化这些样本,并检查50个样本中是否存在聚类/分组。 我尝试了以下两种方法: (a)在50x11矩阵上运行PCA,并选择前两个主要成分。将数据投影到2D图上并运行简单的K均值以识别聚类。 (b)构造一个50x50(余弦)相似度矩阵。运行频谱聚类以降低维数,然后再次进行K均值。 直接进行PCA与使用相似性矩阵的特征值之间在概念上有什么区别?这个比那个好吗? 此外,还有更好的方法以2D形式显示此类数据吗?由于我的样本大小始终限制为50,并且功能集始终在10-15范围内,因此我愿意即时尝试多种方法并选择最佳方法。 相关问题: 通过聚类或PCA对样本进行分组

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

3
直方图中的间隔数是否有上限?
我读过的书本,介绍如何选择几篇文章和摘录良好的间隔数(箱)的数据集的直方图,但我想知道如果有一个硬最高基于点的数量区间的数数据集或其他标准。 背景:我问的原因是我试图基于研究论文中的程序编写软件。该过程的第一步是从数据集中创建多个直方图,然后根据特征函数(由本文的作者定义)选择最佳分辨率。我的问题是作者没有提到要测试的间隔数的上限。(我要分析数百个数据集,每个数据集可以具有不同的“最佳”箱数。另外,选择最佳箱数也很重要,因此手动查看结果并选择一个好的箱数不会工作。) 仅仅将最大间隔数设置为数据集中的点数是一个很好的准则,还是在统计中通常使用其他标准?

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
如何在R中条形图并排的情况下创建条形图
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我想为R中的这些数据创建一个图表(从CVS文件读取): Experiment_Name MetricA MetricB Just_X 2 10 Just_X_and_Y 3 20 具有下图: 我是初学者,我也不知道该如何开始。

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
如何突出显示时间序列中的嘈杂补丁?
我有很多时间序列数据-水位和速度与时间的关系。它是水力模型仿真的输出。作为检查过程的一部分,以确认模型是否按预期运行,我必须绘制每个时间序列图,以确保数据中没有“摆动”(请参见下面的示例轻微摆动)。使用建模软件的UI是一种非常缓慢且费力的检查数据的方法。因此,我编写了一个简短的VBA宏,以将模型中的各种数据(包括结果)导入Excel并一次将其全部绘制出来。我希望编写另一个简短的VBA宏来分析时间序列数据并突出显示任何可疑的部分。 到目前为止,我唯一的想法就是可以对数据的斜率进行一些分析。在给定的搜索窗口内,斜率多次从正变为负的快速变化的任何地方都可以归类为不稳定。我是否缺少任何更简单的技巧?本质上,“稳定”模拟应提供非常平滑的曲线。任何突然的变化都可能是计算不稳定的结果。

1
PCA图的楔形表示什么?
在关于文本分类的自动编码器的论文中, Hinton和Salakhutdinov演示了二维LSA(与PCA密切相关)产生的图:。 将PCA应用于绝对不同的略高维度的数据,我得到了一个看起来类似的图:(在这种情况下,我真的很想知道是否有任何内部结构)。 如果我们将随机数据输入到PCA中,则会得到一个圆盘状的斑点,因此这种楔形的形状不是随机的。它本身意味着什么吗?

2
哪个科学领域研究人们如何解释定量总结和可视化?
有大量的知名资源提供有关数据可视化的建议。(例如,Tufte,Stephen Few等人,Nathan Yau。)但是,对于诸如此类的问题,答案可能会转向哪个领域: 饼图批评在实践中是否有意义?人们在解释线性标尺长度方面比在弧长方面要好得多吗? 假设我构建了一组基础变量的指数摘要,并向一般观众解释美国在2010年的价值为100,在2015年的价值为110。大多数人将如何解释这些数字?在介绍此指标时,我是否应该考虑自然的认知习惯,以便更好地解释或防止误解? 换句话说,定量信息的呈现者可以在哪些科学领域中寻找经验上可靠且经过测试的原理,这些原理可以帮助整理当今可用的大量可视化和设计建议? 目的不是要找到关于如何最佳地可视化数据或解决新颖的数据可视化问题的建议,想法或当前共识,而是要在哪里寻找人们如何解释定量和/或视觉信息的科学。 (对于引用该领域的期刊,会议和学者的额外感谢。)

5
用图形方式表示大量成对数据点的一种好方法是什么?
在我的领域中,绘制配对数据的常用方法是将一系列倾斜的细线段重叠起来,并用两组的中值和中值CI进行覆盖: 但是,由于数据点的数量变得非常大(在我的情况下,我的数量大约为10000对),这种图变得更加难以阅读: 降低alpha值会有所帮助,但这仍然不是很好。在寻找解决方案时,我遇到了本文,并决定尝试实现“平行线图”。同样,它对于少量数据点也非常有效: ññN 我想我可以分别显示两组的分布,例如使用箱形图或小提琴,并在顶部绘制一条带有误差线的线以显示两个中位数/ CI,但是我真的不喜欢这个想法,因为它无法传达数据的配对性质。 我也不太热衷于2D散点图的概念:我希望使用更紧凑的表示形式,理想情况下是将两组值沿同一轴绘制的表示形式。为了完整起见,以下是二维散点图的数据: 有谁知道一种更好的方法来表示具有很大样本量的配对数据?您能否将我链接到一些示例? 编辑 对不起,我显然在解释我要寻找的东西方面做得不够好。是的,二维散点图确实有效,并且可以通过多种方式进行改进以更好地传达点的密度-我可以根据核密度估计对点进行颜色编码,也可以制作二维直方图,我可以在点等上方绘制轮廓,等等。 但是,对于我要传达的信息,我认为这太过分了。我实际上并不关心显示点本身的2D密度-我需要做的就是以尽可能简单明了的方式显示“条”的值通常大于“点”的值。 ,并且不会丢失数据的基本配对性质。理想情况下,我想沿同一轴而不是正交轴绘制两组的配对值,因为这样可以更直观地进行比较。 也许没有比散点图更好的选择了,但是我想知道是否有其他可行的选择。

2
如何相对于平均温度按年表示千瓦时使用量?
只是为了好玩,我想逐年绘制每月的家庭用电图表。但是,我希望对每月温度有所参考,以便可以确定我的房屋或行为在用电量方面是否在改善,恶化或保持稳定。 我正在使用的数据: +----------+--------+-----------+----------------+----------+-----------+------------+ | Month | # Days | kWh Usage | Daily kWh Avg. | Avg. Low | Avg. High | Avg. Temp. | +----------+--------+-----------+----------------+----------+-----------+------------+ | Mar 2015 | 32 | 1048 | 33 | 40 | 60 | 50 | | Feb 2015 | 29 | 1156 | …

3
预测模型中的传递函数-解释
我忙于ARIMA建模,该模型添加了用于推广建模目的的外生变量,并且很难向业务用户进行解释。在某些情况下,软件包最终会带有简单的传递函数,即参数*外生变量。在这种情况下,解释很容易,即促销活动X(由外源二进制变量表示)通过Y量影响因变量(例如需求)。因此,从业务角度来讲,我们可以说促销活动X导致需求量增加了Y个单位。 有时,传递函数更加复杂,例如多项式除法*外生变量。我所能做的就是对多项式进行除法,以便找到所有的动态回归系数,并说例如促销活动不仅会影响需求发生期间的需求,而且还会影响未来的需求。但是由于软件包将输出传递函数作为多项式的除法,因此业务用户无法做出直观的解释。如果不进行除法运算,关于复杂的传递函数,我们有什么可以说的吗? 相关模型的参数和相关传递函数如下所示: 常数= 4200,AR(1),促销活动系数30,Num1 = -15,Num2 = 1.62,Den1 = 0.25 因此,我想如果这期间我们进行促销活动,需求量将增加30个单位。另外,由于存在传递函数(多项式除法),所以促销活动不仅会影响当前时间段,还会影响随后的时间段。问题是,我们如何才能发现促销会影响将来的几个时段,以及每个时段对需求量的影响如何?

2
如何创建“美国Reddit”图?
以下是p中的图表。Christian Rudder的Dataclysm的 202 ,尽管它是由James Dowdell制造的。它说明了排名前200的子reddit之间的关系,这是reddit.com上感兴趣的区域,用户可以在其中提交链接,评论和投票。这些类似于此站点上的标签。次修订区域的大小代表了它们的受欢迎程度。子评论通过交叉注释进行分组,并且较深的色调表示留在该子评论中而不发布给他人的人数百分比。 这仅仅是一个标准的Voronoi分区,带有一些用于孤立的颜色,还是更多地涉及其中? 如何去做其中之一?

2
直观地汇总一堆有向线段
我有一个数百万有向线段的数据集。线段是连续的-这是一个气候变量(显热),每半小时就有观察和模拟的值。我正在尝试寻找模拟执行方式的模式。我正在查看obs与仿真值的散点图,并将它们与线段链接(箭头表示时间方向)。如果我绘制它们,我将得到一个无法解释的模糊混乱,就像这样: 这是10000行的子集,绘制得很好并且具有低不透明度: ggplot(d, aes(x=Qh_obs, xend=lead(Qh_obs), y=Qh_sim, yend=lead(Qh_sim))) + geom_segment(size=0.1, alpha=0.2, arrow=arrow(length=unit(2, units='mm'))) dput() 前700行数据(受发布长度限制): structure( list( Qh_sim = c( 56.401439666748, 33.9568634033203, 16.2147789001465, 0.797790050506592, -3.19529962539673, -10.3250732421875, -11.6082448959351, -21.5074787139893, -21.5963478088379, -21.4389324188232, -19.8912830352783, -18.5908279418945, -19.2523441314697, -19.663516998291, -19.1126575469971, -18.4237308502197, -16.6181221008301, -14.7601175308228, -14.5604763031006, -14.3527803421021, -14.6219816207886, -14.791407585144, -15.452392578125, -15.8962726593018, -11.9349966049194, -7.97028636932373, 12.4507570266724, 32.1654815673828, 56.9330673217773, 82.0748443603516, 110.501235961914, …

4
帮助解释一个交互图?
当两个独立变量之间存在交互时,我很难解释交互图。 下图来自此站点: 此处,和是自变量,是因变量。一个AA乙BBd VDVDV 问:有互动的主要作用,但没有主效应一个AA乙BB 我可以看到,如果B在,则的值越高,的值越高,否则,无论的值如何,都是恒定。因此,存在之间的相互作用和和的主效应(因为较高导致更高,保持以恒定)。一个AAd VDVDV乙1个B1B_1d VDVDV一个AA一个AABBBAAAAAADVDVDVBBBB1B1B_1 另外,我可以看到不同层次的会导致不同程度的,拿着常数。因此,存在B的主要作用。但是,事实显然并非如此。因此,这必须表示我错误地解释了交互图。我究竟做错了什么?BBBDVDVDVAAA 我也错误地解释了情节6-8。我用来解释它们的逻辑与我上面使用的逻辑相同,所以如果我知道我在上面犯的错误,我应该能够正确解释其余的逻辑。否则,我将更新此问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.