数据科学 visualization

15

当写论文/做一个关于神经网络的话题的演讲时，通常会形象化网络体系结构。有什么好的/简单的方法可以自动可视化常见的体系结构？

79 machine-learning neural-network deep-learning visualization

3

我有一个带有多个条目的熊猫数据框，并且我想计算某种类型商店的收入之间的相关性。许多商店都有收入数据，活动区域分类（剧院，布料商店，食品...）和其他数据。我尝试创建一个新的数据框，并插入一列，其中包含属于同一类别的所有种类的商店的收入，返回的数据框仅填充了第一列，其余填充了NaN。我累的代码： corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] 我想这样做，所以我可以.corr()用来给出商店类别之间的相关矩阵。之后，我想知道如何使用matplolib绘制矩阵值（-1到1，因为我想使用Pearson的相关性）。

35 python statistics visualization pandas

1

为什么xgboost比sklearn GradientBoostingClassifier快得多？

我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树，而GradientBoostingClassifier只处理10棵（！）以1分2秒:(我没有理会试图种植500棵树，因为它会需要几个小时。我使用的是相同的learning_rate，并max_depth设置，见下文。是什么使XGBoost如此之快？它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式？还是“偷工减料”并种植浅树？ ps我知道这个讨论：https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey，但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

7

可视化高维数据的目的？

有很多可视化高维数据集的技术，例如T-SNE，isomap，PCA，监督PCA等。我们经历了将数据投影到2D或3D空间的动作，因此我们拥有“漂亮的图片”。这里介绍了其中一些嵌入（流形学习）方法。但这“漂亮的图画”实际上有意义吗？通过可视化此嵌入式空间，某人可以获取哪些可能的见解？我问，因为投射到这个嵌入式空间通常是没有意义的。例如，如果将数据投影到由PCA生成的主要成分，则这些主要成分（特征向量）不对应于数据集中的要素。他们是他们自己的特征空间。同样，t-SNE将您的数据向下投影到一个空间，如果这些空间可以最大程度地减少KL差异，则它们彼此靠近。这不再是原始功能空间。（如果我做错了，请纠正我，但我什至不认为ML社区使用t-SNE来帮助分类的工作量很大；但这与数据可视化是一个不同的问题。）我只是非常困惑，为什么人们对其中的一些可视化做出如此大的贡献。

23 machine-learning dimensionality-reduction visualization

3

如何创建复杂的雷达图？

因此，我想创建一个球员资料雷达图，如下所示：不仅每个变量的标度都不同，而且我还希望某些统计数据（例如“ dispossed”统计）的标度要倒置，“少”实际上意味着好。每个统计数据的可变标度的一种解决方案可能是设置基准，然后计算100分的分数？但是，如何在图表上显示实际数字呢？另外，如何获得某些统计数字的倒数比例。当前在Excel中工作。创建像这样的复杂图表的最强大的工具是什么？

19 visualization

6

您如何在R中生成仪表板？

我需要生成定期（每日，每月）的网络分析仪表板报告。它们将是静态的，不需要交互，因此可以将PDF文件作为目标输出。这些报告将混合表格和图表（主要是使用ggplot2创建的迷你图和项目符号图）。考虑一下Stephen Few / Perceptual Edge样式的仪表板，例如：但适用于网络分析。关于使用哪些程序包创建这些仪表板报告的任何建议？我的第一个直觉是使用R markdown和knitr，但也许您找到了更好的解决方案。我似乎找不到从R生成的仪表板的丰富示例。

17 r visualization

7

可视化具有一百万个顶点的图形

什么是用于可视化（绘制顶点和边）具有1000000个顶点的图的最佳工具？图中大约有50000条边。而且我可以计算单个顶点和边的位置。我正在考虑编写一个程序来生成svg。还有其他建议吗？

17 visualization graphs

5

扩大seaborn热图

我corr()用原始df 创建了df。该corr()DF出来70×70，这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr()，则表格不适合屏幕，并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗？

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

1

可以在T-SNE可视化中将更近的点视为更相似吗？

我从欣顿的论文中了解到，T-SNE在保持本地相似性方面做得很好，在维护全球结构（集群化）方面做得很好。但是我不清楚在2D t-sne可视化中出现的点是否可以假定为“更相似”的数据点。我正在使用具有25个功能的数据。例如，观察下面的图像，我是否可以假定蓝色数据点与绿色数据点更相似，特别是最大的绿色点群集？或者，以不同的方式询问，是否可以假设蓝点与最近的群集中的绿色点比其他群集中的红色点更类似于绿色点？（忽略带红色簇中的绿色点）当观察其他示例时，例如在sci-kit上学习的示例流形学习中，可以假定这一点是正确的，但是我不确定统计学上是否正确。编辑我已经手动计算了与原始数据集的距离（平均成对欧几里得距离），而可视化实际上代表了关于数据集的比例空间距离。但是，我想知道从t-sne的原始数学公式中得出的结果是否完全可以接受，而不仅仅是巧合。

14 visualization dimensionality-reduction tsne manifold

1

用Python在地图上绘制热图

模式分析具有出色的热图功能（https://community.modeanalytics.com/gallery/geographic-heat-map/）。但这不利于比较地图（每个报告仅一张地图）。他们所允许的是将数据轻松地拉入包装好的python笔记本中。然后，可以将python中的任何图像轻松添加到报告中。所以我的问题是：如何在Python中的实际地图上重新创建热图？我已经检查了卵泡并进行了密探，但似乎两者都没有相似的功能。

14 python visualization geospatial

2

可视化深度神经网络训练

我正在尝试为多层网络找到等效的欣顿图，以在训练过程中绘制权重。训练后的网络在某种程度上类似于Deep SRN，即它具有大量的多个权重矩阵，这会使多个Hinton图的同时绘制在视觉上造成混淆。有人知道可视化多层多层递归网络权重更新过程的好方法吗？我没有找到太多关于该主题的论文。我当时想在每层权重上显示与时间相关的信息，如果我无法解决问题。例如，随着时间的推移，每一层的权重增量（省略每个连接的使用）。PCA是另一种可能性，尽管我不想产生太多额外的计算，因为可视化是在培训期间在线完成的。

13 machine-learning neural-network visualization deep-learning

2

航空公司票价-应该使用什么分析方法来检测竞争性的价格制定行为和价格相关性？

我想调查航空公司的定价行为-特别是航空公司对竞争对手定价的反应。就像我说的那样，我对更复杂的分析的知识是非常有限的，我几乎已经完成了所有基本方法来收集数据的整体视图。这包括简单的图形，这些图形已经有助于识别相似的模式。我也在使用SAS Enterprise 9.4。但是，我正在寻找一种基于数字的方法。数据集我正在使用的（自己）收集的数据集包含大约54.000的车费。每天（每天晚上00:00）在60天的时间范围内收集所有票价。因此，该时间窗口内的每个票价都会出现次，这要取决于票价的可用性以及航班的出发日期（如果超过了票价的收取日期）。（如果航班的出发日期是过去的日期，则无法为该航班收取票价）nnn 未经格式化的基本上看起来像这样：（伪数据） +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 915.32 …

12 data-mining dataset regression correlation visualization

3

如何为社交网络的成长提供动画效果？

我正在寻找一个库/工具来可视化添加新节点/边缘后社交网络的变化。现有解决方案之一是SoNIA：Social Network Image Animator。它使您可以制作像这样的电影。 SoNIA的文档说，它现在已经坏了，除此之外，我更喜欢基于JavaScript的解决方案。所以，我的问题是：您是否熟悉任何工具，或者是否可以指出一些使该任务尽可能简单的库？发布此问题后，我将深入探讨sigma.js，因此请考虑涵盖此库。通常，我的输入数据如下所示： time_elapsed; node1; node2 1; A; B 2; A; C 3; B; C 因此，这里我们有三个时间点（1、2、3），三个节点（A，B，C）和三个边，它们表示三个所考虑的节点之间的三元闭合。而且，每个节点都有两个属性（年龄和性别），因此我希望能够更改节点的形状/颜色。同样，在添加新节点之后，最好具有一些ForceAtlas2或类似的算法来调整图形的布局。

12 social-network-analysis time-series javascript visualization

1

我应该使用多少个LSTM细胞？

是否有关于我应使用的LSTM电池的最小，最大和“合理”数量的经验法则（或实际规则）？具体来说，我与TensorFlow和property 有关的BasicLSTMCell有关num_units。请假设我有以下定义的分类问题： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如，训练示例的数量应该大于： 4*((n+1)*m + m*m)*c c单元数在哪里？我基于此：如何计算LSTM网络的参数数量？据我了解，这应该给出参数的总数，该总数应少于训练示例的数量。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

如何在Python中制作交互式PCA散点图？

该matplotlib库是非常有能力，但缺乏互动性，尤其是里面Jupyter笔记本。我想一个好的离线绘图工具一样plot.ly。

11 python visualization pca jupyter

Questions tagged «visualization»