数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答


11
使用scikit Learn的SVM无限运行,永远无法完成执行
我正在尝试在具有595605行和5列(功能)的训练数据集和具有397070行的测试数据集上使用scikit Learn(python)运行SVR。数据已经过预处理和规范化。 我能够成功运行测试示例,但是使用我的数据集执行并使其运行了一个多小时后,我仍然看不到任何输出或程序终止。我尝试使用不同的IDE甚至从终端执行,但这似乎不是问题。我也尝试将'C'参数值从1更改为1e3。 使用scikit的所有svm实现都面临类似的问题。 我还没有等到它完成?此执行需要多少时间? 根据我的经验,它不需要几分钟。 这是我的系统配置:Ubuntu 14.04、8GB RAM,大量可用内存,第四代i7处理器

5
为什么成本函数使用平方误差?
我刚刚开始进行一些机器学习,直到现在我一直在处理一个变量的线性回归。 我了解到有一个假设,即: hθ(x)=θ0+θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x 要了解好值的参数和θ 1,我们希望尽量减少计算结果和我们的测试数据的实际结果之间的差别。所以我们减去θ0θ0\theta_0θ1θ1\theta_1 hθ(x(i))−y(i)hθ(x(i))−y(i)h_\theta(x^{(i)})-y^{(i)} 从1到m的所有。因此,我们计算该差的总和,然后将总和乘以1来计算平均值iii111mmm。到现在为止还挺好。这将导致:1m1m\frac{1}{m} 1m∑mi=1hθ(x(i))−y(i)1m∑i=1mhθ(x(i))−y(i)\frac{1}{m}\sum_{i=1}^mh_\theta(x^{(i)})-y^{(i)} 但这不是建议。相反,该课程建议采用差的平方值,然后乘以。因此公式为:12m12m\frac{1}{2m} 12m∑mi=1(hθ(x(i))−y(i))212m∑i=1m(hθ(x(i))−y(i))2\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 这是为什么?为什么在这里使用平方函数,为什么要乘以而不是112m12m\frac{1}{2m}?1m1m\frac{1}{m}

11
为什么人们喜欢熊猫而不是SQL?
自1996年以来我一直在使用SQL,因此我可能会有所偏见。我已经广泛使用MySQL和SQLite 3,但也使用了Microsoft SQL Server和Oracle。 我见过的使用Pandas进行的绝大多数操作都可以通过SQL轻松完成。这包括过滤数据集,选择要显示的特定列,将函数应用于值等等。 SQL具有优化器和数据持久性的优点。SQL还具有清晰易懂的错误消息。Pandas的API有点晦涩难懂,在某些情况下,有时需要使用单个[ stuff ],[[ stuff ]]有时需要使用.loc。熊猫的复杂性部分是由于存在如此多的超载而造成的。 所以我试图了解为什么熊猫如此受欢迎。
69 pandas  sql 

1
熊猫中isna()和isull()之间的区别
我已经使用熊猫已有一段时间了。但是,我不了解熊猫isna()和isnull()熊猫之间有什么区别。而且,更重要的是,可使用哪一个来识别数据框中的缺失值。 如何将值检测为na或的基本根本区别是null什么?


8
数据科学家与机器学习工程师
“数据科学家”和“机器学习工程师”之间有什么区别(如果有)? 在过去的一年左右的时间里,“机器学习工程师”已经开始出现在很多职位上。这在旧金山尤其明显,这可以说是“数据科学家”一词的起源。有一次,“数据科学家”超过了“统计学家”,我想知道“数据科学家”现在是否正在慢慢开始发生这种情况。 在此站点上,职业建议被列为题外话,但是由于我在询问定义,因此我认为我的问题非常相关。考虑到自己的职业发展轨迹或个人情况,我并不是在问建议,就像其他题外的问题一样。 这个问题是热门话题,因为有朝一日它可能对该网站的许多用户产生重大影响。实际上,如果没有发生“统计学家”与“数据科学家”的进化,那么这个堆叠交换站点可能不存在。从这个意义上讲,这是一个相当相关的,可能存在的问题。

5
使用ARIMA和LSTM进行时间序列预测
我要处理的问题是预测时间序列值。我正在一次查看一个时间序列,例如,基于15%的输入数据,我想预测其未来值。到目前为止,我遇到了两种模型: LSTM(长期短期记忆;一类递归神经网络) 有马 我都尝试过并阅读了一些文章。现在,我试图更好地了解如何比较两者。到目前为止,我发现了什么: 如果我们要处理大量数据并且有足够的训练数据,那么LSTM会更好地工作,而ARIMA对于较小的数据集则更好(这是正确的吗?) ARIMA需要一系列(p,q,d)必须基于数据计算的参数,而LSTM不需要设置此类参数。但是,我们需要为LSTM调整一些超参数。 编辑:我在这里读到一篇很棒的文章时注意到的两者之间的主要区别是,ARIMA只能在固定时间序列(没有季节性,趋势等)下表现良好,如果需要,想要使用ARIMA 除了上述特性之外,我找不到其他可以帮助我选择最佳模型的要点或事实。如果有人能帮助我找到文章,论文或其他东西,我将非常感谢(到目前为止,还没有运气,只是到处都是一些一般性意见,而没有基于实验的内容。) 我不得不提到,最初我是在处理流数据,但是现在我使用的是NAB数据集,其中包括50个数据集,最大大小为2万个数据点。

1
如何获得两个类别变量与一个类别变量和连续变量之间的相关性?
我正在建立一个回归模型,我需要计算以下内容以检查相关性 2个多级分类变量之间的相关性 多级分类变量和连续变量之间的相关性 多级分类变量的VIF(方差膨胀因子) 我相信在上述情况下使用Pearson相关系数是错误的,因为Pearson仅适用于2个连续变量。 请回答以下问题 哪种相关系数最适合上述情况? VIF计算仅适用于连续数据,那么有什么替代方法? 在使用您建议的相关系数之前,需要检查哪些假设? 如何在SAS&R中实施它们?

3
AUC与标准精度相比的优势
我开始研究曲线下的面积(AUC),对它的有用性有些困惑。当初次向我解释时,AUC似乎是性能的一个很好的衡量指标,但是在我的研究中,我发现有人声称它的优势在很大程度上是微不足道的,因为它最适合捕捉具有高标准精度测量值和低AUC的“幸运”模型。 因此,我应该避免依靠AUC来验证模型还是最好的组合?感谢你的帮助。

6
字符串作为决策树/随机森林中的特征
我在决策树/随机森林的应用程序上遇到了一些问题。我正在尝试解决一个以数字和字符串(例如国家/地区名称)为特征的问题。现在的库scikit-learn仅将数字作为参数,但是我想注入字符串,因为它们具有大量的知识。 如何处理这种情况? 我可以通过某种机制将字符串转换为数字,例如Python中的哈希。但是我想知道有关如何在决策树问题中处理字符串的最佳实践。

3
通过最大池层反向传播?
这是一个概念上的小问题,困扰了我一段时间:我们如何通过神经网络中的最大池层反向传播? 在本教程中使用Torch 7的nn库时,我遇到了最大池化层。该库为深度网络的每一层抽象了梯度计算和前向传递。我不明白最大池层的梯度计算是如何完成的。 我知道,如果您有一个输入进入第层的神经元,则(定义为的计算公式为: zilzil{z_i}^liiilllδilδil{\delta_i}^lδil=∂E∂zilδil=∂E∂zil{\delta_i}^l = \frac{\partial E}{\partial {z_i}^l}δil=θ′(zil)∑jδjl+1wl,l+1i,jδil=θ′(zil)∑jδjl+1wi,jl,l+1 {\delta_i}^l = \theta^{'}({z_i}^l) \sum_{j} {\delta_j}^{l+1} w_{i,j}^{l,l+1} 因此,最大池化层将接收下一层的;但是由于最大池神经元的激活函数接受了一个值(在其上最大)的向量作为输入,因此不再是单个数字,而是一个向量(必须替换为)。此外,作为最大函数的就其输入而言是不可区分的。δjl+1δjl+1{\delta_j}^{l+1}δilδil{\delta_i}^{l}θ′(zjl)θ′(zjl)\theta^{'}({z_j}^l)∇θ({zjl})∇θ({zjl})\nabla \theta(\left\{{z_j}^l\right\})θθ\theta 所以....应该如何精确计算呢?

8
Python中的开源异常检测
问题背景: 我正在从事一个项目,该项目涉及类似于IT监视空间中的日志文件(以我对IT空间的最佳理解)。这些日志文件是时间序列数据,组织成成百上千的各种参数的行。每个参数都是数字(浮点),并且每个时间点都有一个非平凡/非错误的值。我的任务是监视所述日志文件以进行异常检测(峰值,跌落,某些参数不同步的异常模式,奇怪的1st / 2nd / etc。派生行为等)。 在类似的任务中,我曾在Prelert尝试过Splunk,但此刻我正在探索开源选项。 限制: 我限制自己使用Python,因为我很了解Python,并希望延迟切换到R和相关的学习过程。除非似乎对R(或其他语言/软件)提供了压倒性的支持,否则我将坚持使用Python来完成此任务。 另外,我目前正在Windows环境中工作。我想继续在Windows上的小型日志文件上进行沙箱测试,但是如果需要的话可以移至Linux环境。 资源: 我已经检查了以下带有死角的结果: 的Python或R用于实现机器学习算法用于欺诈检测。这里的一些信息是有帮助的,但是不幸的是,我正在努力寻找合适的包装,因为: Twitter的“ AnomalyDetection”在R中,我想坚持使用Python。此外,Python端口特性对我来说似乎在Windows环境中实现时会引起问题。 我下一次尝试的天际线似乎已经停产了(来自github issue)。鉴于似乎很少有在线支持,所以我没有深入研究这一点。 scikit-learn我仍在探索中,但这似乎更加手动。杂草丛生的方法对我来说是可以的,但是我在学习工具方面的背景很薄弱,因此对于像Splunk + Prelert这样的技术方面来说,就像黑盒子一样。 问题定义和问题: 我正在寻找开源软件,该软件可以帮助我自动通过包或库从Python中的时间序列日志文件进行异常检测过程。 是否存在这样的事情来辅助我的紧迫任务,或者它们在我心中是虚构的? 任何人都可以协助具体步骤来帮助我实现我的目标,包括背景基础知识或概念吗? 这是最好的StackExchange社区,还是Stats,Math甚至Security或Stackoverflow是更好的选择? 编辑[2015-07-23] 请注意,对于pyculiarity的最新更新似乎已在Windows环境中修复!我尚未确认,但是应该成为社区的另一个有用工具。 编辑[2016-01-19] 较小更新。我没有时间进行此工作和研究,但是在继续进行具体细节研究之前,我已退后一步来了解此问题的基本原理。例如,我正在采取的两个具体步骤是: 从用于异常检测的Wikipedia文章开始[ https://en.wikipedia.org/wiki/Anomaly_detection ],全面理解,然后在其他链接的Wikipedia文章的概念层次结构中上移或下移,例如[ https:// en.wikipedia.org/wiki/K-nearest_neighbors_algorithm ],然后转到[ https://en.wikipedia.org/wiki/Machine_learning ]。 在Chandola等人2009年“异常检测:调查” [ http://www-users.cs.umn.edu/~banerjee/papers/09/anomaly.pdf ]和Hodge等人2004年所做的大型调查中探索技术。“异常值检测方法概述” [ http://eprints.whiterose.ac.uk/767/1/hodgevj4.pdf ]。 一旦更好地理解了这些概念(我希望在开发实际方面时也能玩一些玩具示例),我希望了解哪种开源Python工具更适合我的问题。

2
在Keras中使用不同长度的示例训练RNN
我正在尝试开始学习RNN,并且正在使用Keras。我了解香草RNN和LSTM层的基本前提,但是我无法理解培训的某些技术要点。 在keras文档中,它说到RNN层的输入必须具有形状(batch_size, timesteps, input_dim)。这表明所有训练示例都具有固定的序列长度,即timesteps。 但这不是特别典型,是吗?我可能想让RNN对不同长度的句子进行运算。当我在某种语料库上对其进行训练时,我将为它提供成批的句子,这些句子的长度各不相同。 我想要做的显而易见的事情是找到训练集中任何序列的最大长度并将其零填充。但这是否意味着我无法在测试时进行输入长度大于该长度的预测? 我想这是一个关于Keras特定实现的问题,但是我也想问人们通常在遇到这种问题时通常会做什么。
59 python  keras  rnn  training 

2
支持向量机是否仍被视为利基市场中的“最新技术”?
这个问题是我在另一个问题上看到的评论的回应。 评论是关于Coursera上的机器学习课程提纲的,并且遵循“如今SVM的使用率不高”的思路。 我本人只是刚刚完成了相关的讲座,而我对SVM的理解是它们是一种强大且高效的分类学习算法,并且在使用内核时,它们具有“利基”特性,涵盖了大约10到1000个特征,以及训练样本的数量可能在100到10,000之间。训练样本的限制是因为核心算法围绕优化从方形矩阵生成的结果进行了优化,该矩阵的尺寸基于训练样本的数量,而不是原始特征的数量。 因此,我看到的评论是否对课程进行了一些实际的改变,如果是这样,那是什么改变:一种同样涵盖SVM的“最佳点”的新算法,更好的CPU意味着SVM的计算优势不那么值得?抑或是评论者的意见或个人经验? 我尝试搜索例如“支持向量机过时了”,但没有发现任何暗示它们被抛弃的理由。 Wikipedia拥有:http : //en.wikipedia.org/wiki/Support_vector_machine#Issues。。。主要的症结似乎是难以解释模型。这使SVM可以很好地用于黑匣子预测引擎,但对于生成见解却不是那么好。我认为这不是主要问题,在选择合适的工作工具时(考虑到培训数据和学习任务的性质等),这只是一件小事。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.