数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答

1
用Python在地图上绘制热图
模式分析具有出色的热图功能(https://community.modeanalytics.com/gallery/geographic-heat-map/)。但这不利于比较地图(每个报告仅一张地图)。 他们所允许的是将数据轻松地拉入包装好的python笔记本中。然后,可以将python中的任何图像轻松添加到报告中。 所以我的问题是:如何在Python中的实际地图上重新创建热图?我已经检查了卵泡并进行了密探,但似乎两者都没有相似的功能。

5
现代R和/或Python库会使SQL过时吗?
我在办公室工作,其中SQL Server是我们所做的一切工作的骨干,从数据处理到清理再到处理。我的同事擅长编写复杂的功能和存储过程,以系统地处理传入的数据,以便可以对其进行标准化并将其用于报告,可视化和分析项目中。在这里开始之前,除了编写最基本的查询之外,我对SQL的了解很少。我的大部分分析准备工作都是在R中完成的。我的老板坚持说我提高了我的SQL技能,尽管似乎很少有分配工作无法更有效地完成,并且使用R编写的代码行少得多软件包,例如dplyr,data.table和tidyr(仅举几例)。我的问题是-这有意义吗? 几周前,我发现自己面临的任务是获取满足特定条件的表中每一行的列名列表,然后将它们连接成字符串向量。截止日期很紧,当时我遇到了一些障碍,无法完全解决这个问题。我问我的老板,后者又请我的同事编写脚本TSQL来解决问题。当他在研究它时,我想出了一种方法来用R编写一个相当简单的函数并将其应用于数据框。大约两个小时后,我的同事带着他的剧本回来了。至少有75行包含两个嵌套的for循环。我要求他告诉它何时完成运行,他说这需要几个小时。同时,我的R脚本能够在约30秒内循环遍历约45,000条记录。 我是否应该认为R是用于清理和处理数据的更好选择?也许我办公室里的SQL开发人员只是无能为力?我很好奇,是否同时使用R和SQL(或Python和SQL)的人对此有任何想法。
14 python  r  data-cleaning  data  sql 

1
通过最大池化层进行反向传播
我对这个问题有一个小问题。 我了解到,在通过最大池化层进行反向传播时,梯度将以之前选择为max的上一层神经元获取所有梯度的方式路由回去。我不确定100%是下一层的渐变如何路由回到池化层。 因此,第一个问题是我是否将池化层连接到完全连接的层-如下图所示。 在计算池化层的青色“神经元”的梯度时,是否将来自FC层神经元的所有梯度求和?如果这是正确的,那么池化层的每个“神经元”都具有相同的梯度? 例如,如果FC层的第一个神经元的渐变为2,第二个神经元的渐变为3,第三个神经元的渐变为6,则池化层中蓝色和紫色“神经元”的渐变是什么?为什么? 第二个问题是池化层何时连接到另一个卷积层。那我该如何计算梯度呢?请参见下面的示例。 对于池化层中最右端的“神经元”(绿色框),我只是在下一个conv层中采用紫色神经元的梯度并将其路由回去,对吗? 那个绿色的怎么样?由于链式规则,我需要将下一层的神经元的第一列相乘?还是我需要添加它们? 请不要发布一堆方程式,并告诉我我的答案就在那儿,因为我一直在努力将方程式包围着我,但我仍然不太了解它,这就是为什么我要简单地问这个问题办法。

3
Doc2vec(gensim)-如何推断看不见的句子的标签?
https://radimrehurek.com/gensim/models/doc2vec.html 例如,如果我们使用以下方法训练了doc2vec “ aaaaaAAAAAaaaaaaaa”-“标签1” “ bbbbbbBBBBBbbbb”-“标签2” 我们可以使用Doc2vec推断标签为1的“ aaaaAAAAaaaaAAAA”吗? 我知道Doc2vec可以训练单词向量和标签向量。使用这个向量,我们可以推断出哪个标签中看不见的句子(经过训练的单词的组合)吗?
14 gensim 

1
(动态)贝叶斯网络和HMM有什么区别?
我已经读过HMM,粒子滤波器和卡尔曼滤波器是动态贝叶斯网络的特例。但是,我只知道HMM,看不到动态贝叶斯网络的区别。 有人可以解释一下吗? 如果您的答案可能类似于以下内容,那将是很好的选择,但对于Bayes Networks: 隐马尔可夫模型 隐马尔可夫模型(HMM)是5元组:λ = (S,O ,A ,B ,Π )λ=(S,O,A,B,Π)\lambda = (S, O, A, B, \Pi) :一组状态(例如“音素的开始”,“音素的中间”,“音素的结尾”)小号≠ ∅S≠∅S \neq \emptyset :一组可能的观察值(音频信号)O ≠ ∅O≠∅O \neq \emptyset :一个随机矩阵,给出概率(a i j)从状态 i到状态 j。A∈R|S|×|S|A∈R|S|×|S|A \in \mathbb{R}^{|S| \times |S|}(aij)(aij)(a_{ij})iiijjj :一个随机矩阵,给出概率(b k l)以使状态 k变为观测值 l。B∈R|S|×|O|B∈R|S|×|O|B \in \mathbb{R}^{|S| \times |O|}(bkl)(bkl)(b_{kl})kkklll :初始分发开始于一种状态。Π∈R|S|Π∈R|S|\Pi \in \mathbb{R}^{|S|} 它通常被显示为一个有向图,其中每个节点对应于一个状态和转变概率被表示在边缘上。s∈Ss∈Ss \in …

2
高维数据:了解哪些有用的技术?
由于维数的各种诅咒,许多常见的预测技术的准确性和速度在高维数据上会下降。什么是最有效地处理高维数据的最有用的技术/技巧/启发式方法?例如, 某些统计/建模方法在高维数据集上表现良好吗? 我们是否可以通过使用某些(定义距离的替代概念)或核(定义点积的替代概念)来提高高维数据预测模型的性能? 高维数据降维最有用的技术是什么?

2
使用独立的t检验分析非正态分布的A / B检验结果
我有一组来自A / B测试的结果(一个对照组,一个功能组),这些结果不符合正态分布。实际上,该分布与Landau分布更相似。 我认为独立的t检验要求样本至少近似正态分布,这使我不愿意将t检验用作有效的显着性检验方法。 但是我的问题是: 在什么时候可以说t检验不是一种重要的重要检验方法? 或换一种说法,仅给出数据集,如何确定t检验的p值的可靠性?


3
CNN的图像大小调整和填充
我想训练CNN进行图像识别。用于训练的图像尺寸不固定。例如,我希望CNN的输入大小为50x100(高x宽)。当我将一些较小尺寸的图像(例如32x32)调整为输入尺寸时,图像的内容在水平方向上拉伸得太多,但是对于某些中等尺寸的图像而言,它看起来还不错。 在避免内容被破坏的同时调整图像大小的正确方法是什么? (我正在考虑将图像的大小调整到一定程度并保持宽度和高度的比率后,将图像以0s填充为完整大小。这种方法可以吗?)

1
决策树:逐叶(最佳优先)和逐层树遍历
问题1: 我对LightGBM对树的扩展方式的描述感到困惑。 他们声明: 大多数决策树学习算法都是按级别(深度)逐级增长树,如下图所示: 问题1:哪种“最多”算法以这种方式实现?据我所知C4.5和CART使用DFS。XGBoost使用BFS。哪些其他算法或软件包将BFS用于决策树? 问题2: LightGBM指出: LightGBM按叶子方向(最佳优先)生长树,它将选择具有最大delta损失的叶子进行生长。当生长相同的叶子时,与逐级算法相比,逐叶算法可以减少更多的损失。 问题2:说水平生长树的所有叶子具有相同的深度是否正确? 问题3:如果问题2不正确,则遍历结束时(不进行修剪等),从水平和叶子方向生长的树将看起来相同。这是正确的说法吗? 问题4:如果问题3是正确的,“叶级算法比级算法可以减少更多的损失”怎么办?它与修剪后的算法有关吗?


3
如果Max Pooling只是要对图像进行降采样,为什么还要回旋呢?
应用滤镜做诸如识别边缘之类的想法的想法很酷。 例如,您可以拍摄一张7的图像。使用某些滤镜,最终可以得到强调原​​始图像不同特征的变换图像。原来的7: 网络可以体验为: 注意每个图像如何提取原始图像7的不同边缘。 一切都很好,但是然后说网络中的下一层是“最大池”层。 我的问题是,总的来说,这看起来有点像过大杀伤力吗?我们只是非常谨慎和谨慎地使用滤镜来识别边缘-现在,我们不再在乎这些,因为我们已经从像素值中剔除了一切!如果我错了,请纠正我,但是我们从25 X 25变为2 X 2!为什么不直接进入Max Pooling,我们最终不会得到基本相同的东西吗? 作为扩展,我的问题是,我不禁要问,如果巧合的是,这4个正方形中的每一个恰好都具有一个具有相同最大值的像素,将会发生什么情况。当然这不是罕见的情况,对吗?突然,您所有的训练图像看起来都完全一样。

4
如何使用预先训练的模型权重初始化新的word2vec模型?
我在python中使用Gensim库来使用和训练word2vector模型。最近,我正在考虑使用一些预先训练的word2vec模型(例如GoogleNewDataset预训练模型)来初始化模型权重。我一直在努力奋斗了几周。现在,我刚刚搜索出在gesim中有一个函数可以帮助我使用预先训练的模型权重来初始化模型的权重。如下所述: reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. 我不知道此功能可以做同样的事情。请帮忙!!!

8
Python是否适合大数据
我在这篇文章中读到的是,R语言适用于大数据构成的大数据5TB,尽管它很好地提供了有关使用这种类型的数据的可行性的信息,R但提供的信息却很少Python。我想知道是否Python也可以处理这么多数据。
14 bigdata  python 

4
LSTM时间序列预测的预测间隔
是否有一种方法可以根据LSTM(或其他递归)神经网络在时间序列预测周围计算预测间隔(概率分布)? 假设举例来说,根据最近观察到的10个样本(t-9至t),我预测了10个样本(t + 1至t + 10),我希望在t + 1的预测会更多比t + 10时的预测准确。通常,可能会在预测周围绘制误差线以显示间隔。使用ARIMA模型(在正态分布误差的假设下),我可以围绕每个预测值计算预测间隔(例如95%)。我可以从LSTM模型中计算出相同的值(或与预测间隔有关的值)吗? 我一直在Keras / Python的LSTMs,下面很多来自例子machinelearningmastery.com,从我的示例代码(见下文)的基础上的。我正在考虑将问题重新分类为离散的分类,因为这会使每个类产生置信度,但这似乎是一个糟糕的解决方案。 有几个类似的主题(例如以下主题),但是似乎没有什么可以直接解决LSTM(或其他)神经网络的预测间隔问题: /stats/25055/how-to-calculate-the-confidence-interval-for-time-series-prediction 使用ARIMA和LSTM进行时间序列预测 from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM from math import sin from matplotlib import pyplot import numpy as np # Build an LSTM network and train def fit_lstm(X, y, …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.