Questions tagged «visualization»

构建有意义且有用的数据图形表示。(如果您的问题仅是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题了。)


3
大熊猫相关矩阵的计算与可视化
我有一个带有多个条目的熊猫数据框,并且我想计算某种类型商店的收入之间的相关性。许多商店都有收入数据,活动区域分类(剧院,布料商店,食品...)和其他数据。 我尝试创建一个新的数据框,并插入一列,其中包含属于同一类别的所有种类的商店的收入,返回的数据框仅填充了第一列,其余填充了NaN。我累的代码: corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] 我想这样做,所以我可以.corr()用来给出商店类别之间的相关矩阵。 之后,我想知道如何使用matplolib绘制矩阵值(-1到1,因为我想使用Pearson的相关性)。

1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

7
可视化高维数据的目的?
有很多可视化高维数据集的技术,例如T-SNE,isomap,PCA,监督PCA等。我们经历了将数据投影到2D或3D空间的动作,因此我们拥有“漂亮的图片”。这里介绍了其中一些嵌入(流形学习)方法。 但这“漂亮的图画”实际上有意义吗?通过可视化此嵌入式空间,某人可以获取哪些可能的见解? 我问,因为投射到这个嵌入式空间通常是没有意义的。例如,如果将数据投影到由PCA生成的主要成分,则这些主要成分(特征向量)不对应于数据集中的要素。他们是他们自己的特征空间。 同样,t-SNE将您的数据向下投影到一个空间,如果这些空间可以最大程度地减少KL差异,则它们彼此靠近。这不再是原始功能空间。(如果我做错了,请纠正我,但我什至不认为ML社区使用t-SNE来帮助分类的工作量很大;但这与数据可视化是一个不同的问题。) 我只是非常困惑,为什么人们对其中的一些可视化做出如此大的贡献。

3
如何创建复杂的雷达图?
因此,我想创建一个球员资料雷达图,如下所示: 不仅每个变量的标度都不同,而且我还希望某些统计数据(例如“ dispossed”统计)的标度要倒置,“少”实际上意味着好。 每个统计数据的可变标度的一种解决方案可能是设置基准,然后计算100分的分数? 但是,如何在图表上显示实际数字呢?另外,如何获得某些统计数字的倒数比例。 当前在Excel中工作。创建像这样的复杂图表的最强大的工具是什么?

6
您如何在R中生成仪表板?
我需要生成定期(每日,每月)的网络分析仪表板报告。它们将是静态的,不需要交互,因此可以将PDF文件作为目标输出。这些报告将混合表格和图表(主要是使用ggplot2创建的迷你图和项目符号图)。考虑一下Stephen Few / Perceptual Edge样式的仪表板,例如: 但适用于网络分析。 关于使用哪些程序包创建这些仪表板报告的任何建议? 我的第一个直觉是使用R markdown和knitr,但也许您找到了更好的解决方案。我似乎找不到从R生成的仪表板的丰富示例。
17 r  visualization 

7
可视化具有一百万个顶点的图形
什么是用于可视化(绘制顶点和边)具有1000000个顶点的图的最佳工具?图中大约有50000条边。而且我可以计算单个顶点和边的位置。 我正在考虑编写一个程序来生成svg。还有其他建议吗?

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
可以在T-SNE可视化中将更近的点视为更相似吗?
我从欣顿的论文中了解到,T-SNE在保持本地相似性方面做得很好,在维护全球结构(集群化)方面做得很好。 但是我不清楚在2D t-sne可视化中出现的点是否可以假定为“更相似”的数据点。我正在使用具有25个功能的数据。 例如,观察下面的图像,我是否可以假定蓝色数据点与绿色数据点更相似,特别是最大的绿色点群集?或者,以不同的方式询问,是否可以假设蓝点与最近的群集中的绿色点比其他群集中的红色点更类似于绿色点?(忽略带红色簇中的绿色点) 当观察其他示例时,例如在sci-kit上学习的示例流形学习中,可以假定这一点是正确的,但是我不确定统计学上是否正确。 编辑 我已经手动计算了与原始数据集的距离(平均成对欧几里得距离),而可视化实际上代表了关于数据集的比例空间距离。但是,我想知道从t-sne的原始数学公式中得出的结果是否完全可以接受,而不仅仅是巧合。

1
用Python在地图上绘制热图
模式分析具有出色的热图功能(https://community.modeanalytics.com/gallery/geographic-heat-map/)。但这不利于比较地图(每个报告仅一张地图)。 他们所允许的是将数据轻松地拉入包装好的python笔记本中。然后,可以将python中的任何图像轻松添加到报告中。 所以我的问题是:如何在Python中的实际地图上重新创建热图?我已经检查了卵泡并进行了密探,但似乎两者都没有相似的功能。

2
可视化深度神经网络训练
我正在尝试为多层网络找到等效的欣顿图,以在训练过程中绘制权重。 训练后的网络在某种程度上类似于Deep SRN,即它具有大量的多个权重矩阵,这会使多个Hinton图的同时绘制在视觉上造成混淆。 有人知道可视化多层多层递归网络权重更新过程的好方法吗? 我没有找到太多关于该主题的论文。我当时想在每层权重上显示与时间相关的信息,如果我无法解决问题。例如,随着时间的推移,每一层的权重增量(省略每个连接的使用)。PCA是另一种可能性,尽管我不想产生太多额外的计算,因为可视化是在培训期间在线完成的。

2
航空公司票价-应该使用什么分析方法来检测竞争性的价格制定行为和价格相关性?
我想调查航空公司的定价行为-特别是航空公司对竞争对手定价的反应。 就像我说的那样,我对更复杂的分析的知识是非常有限的,我几乎已经完成了所有基本方法来收集数据的整体视图。这包括简单的图形,这些图形已经有助于识别相似的模式。我也在使用SAS Enterprise 9.4。 但是,我正在寻找一种基于数字的方法。 数据集 我正在使用的(自己)收集的数据集包含大约54.000的车费。每天(每天晚上00:00)在60天的时间范围内收集所有票价。 因此,该时间窗口内的每个票价都会出现次,这要取决于票价的可用性以及航班的出发日期(如果超过了票价的收取日期)。 (如果航班的出发日期是过去的日期,则无法为该航班收取票价)nnn 未经格式化的基本上看起来像这样:(伪数据) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 915.32 …

3
如何为社交网络的成长提供动画效果?
我正在寻找一个库/工具来可视化添加新节点/边缘后社交网络的变化。 现有解决方案之一是SoNIA:Social Network Image Animator。它使您可以制作像这样的电影。 SoNIA的文档说,它现在已经坏了,除此之外,我更喜欢基于JavaScript的解决方案。所以,我的问题是:您是否熟悉任何工具,或者是否可以指出一些使该任务尽可能简单的库? 发布此问题后,我将深入探讨sigma.js,因此请考虑涵盖此库。 通常,我的输入数据如下所示: time_elapsed; node1; node2 1; A; B 2; A; C 3; B; C 因此,这里我们有三个时间点(1、2、3),三个节点(A,B,C)和三个边,它们表示三个所考虑的节点之间的三元闭合。 而且,每个节点都有两个属性(年龄和性别),因此我希望能够更改节点的形状/颜色。 同样,在添加新节点之后,最好具有一些ForceAtlas2或类似的算法来调整图形的布局。

1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.