数据科学 machine-learning

17

我正在使用神经网络来解决不同的机器学习问题。我正在使用Python和pybrain，但该库几乎已停产。Python中还有其他好的替代方法吗？

130 machine-learning python neural-network

5

参阅有关视觉识别的卷积神经网络的斯坦福课程笔记，一段内容如下： “不幸的是，ReLU单元在训练过程中可能很脆弱，并且可能“死亡”。例如，流过ReLU神经元的大梯度可能导致权重更新，从而使神经元再也不会在任何数据点上激活。如果发生这种情况，那么从该点开始流过该单元的梯度将永远为零，也就是说，ReLU单元在训练过程中可能会不可逆地死亡，因为它们可能会从数据流形上脱落下来。例如，您可能会发现多达40个如果学习率设置得太高，您的网络中的％可能是“死亡”的（即永远不会在整个训练数据集中激活的神经元）。通过适当设置学习率，这通常不会成为问题。这里的神经元死亡意味着什么？您能否以更简单的方式提供直观的说明。

118 machine-learning neural-network deep-learning

5

神经网络中的交叉熵误差函数

在MNIST对于ML初学者中，他们将交叉熵定义为 Hy′(y):=−∑iy′ilog(yi)Hy′(y):=−∑iyi′log⁡(yi)H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i) yiyiy_i是类别i的预测概率值iii，y′iyi′y_i'是该类别的真实概率。问题1 yiyiy_i（在log(yi)log⁡(yi)\log(y_i)）可以为0 是否不是问题？当然，这意味着我们的分类器非常差。但是请考虑我们数据集中的错误，例如1标记为的“显而易见”错误3。它会崩溃吗？我们选择的模型（最后激活softmax）是否基本上不会为正确的类别给出概率0？问题2 我了解到交叉熵定义为 Hy′(y):=−∑i(y′ilog(yi)+(1−y′i)log(1−yi))Hy′(y):=−∑i(yi′log⁡(yi)+(1−yi′)log⁡(1−yi))H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log (1-y_i)}) 什么是正确的？您对这两个版本都有教科书参考吗？这些函数的特性如何不同（作为神经网络的误差函数）？

113 machine-learning tensorflow

15

适用于机器学习的Python vs R

我刚刚开始出于学术目的开发机器学习应用程序。我目前正在使用R并对其进行训练。但是，在很多地方，我都看到人们在使用Python。人们在学术界和工业界使用什么，建议是什么？

101 machine-learning r python

8

选择学习率

我目前正在SGD使用反向传播为神经网络实现随机梯度下降，尽管我了解其目的，但我对如何选择学习率的值存在一些疑问。学习率是否与误差梯度的形状有关，因为它决定了下降率？如果是这样，您如何使用此信息来告知您有关价值的决定？如果不是那样，我应该选择哪种值，以及如何选择它们？似乎您希望使用较小的值来避免过冲，但是如何选择一个值以免陷入局部最小值或花很长时间下降呢？保持恒定的学习速度有意义吗？还是应该在接近梯度最小值时使用一些指标来更改其值？简而言之：如何选择SGD的学习率？

85 machine-learning neural-network deep-learning optimization hyperparameter

15

您如何可视化神经网络架构？

当写论文/做一个关于神经网络的话题的演讲时，通常会形象化网络体系结构。有什么好的/简单的方法可以自动可视化常见的体系结构？

79 machine-learning neural-network deep-learning visualization

5

如何绘制深度学习网络架构图？

我已经建立了模型。现在，我想为我的研究论文绘制网络架构图。示例如下所示：

77 machine-learning neural-network deep-learning svm software-recommendation

5

为什么成本函数使用平方误差？

我刚刚开始进行一些机器学习，直到现在我一直在处理一个变量的线性回归。我了解到有一个假设，即： hθ(x)=θ0+θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x 要了解好值的参数和θ 1，我们希望尽量减少计算结果和我们的测试数据的实际结果之间的差别。所以我们减去θ0θ0\theta_0θ1θ1\theta_1 hθ(x(i))−y(i)hθ(x(i))−y(i)h_\theta(x^{(i)})-y^{(i)} 从1到m的所有。因此，我们计算该差的总和，然后将总和乘以1来计算平均值iii111mmm。到现在为止还挺好。这将导致：1m1m\frac{1}{m} 1m∑mi=1hθ(x(i))−y(i)1m∑i=1mhθ(x(i))−y(i)\frac{1}{m}\sum_{i=1}^mh_\theta(x^{(i)})-y^{(i)} 但这不是建议。相反，该课程建议采用差的平方值，然后乘以。因此公式为：12m12m\frac{1}{2m} 12m∑mi=1(hθ(x(i))−y(i))212m∑i=1m(hθ(x(i))−y(i))2\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 这是为什么？为什么在这里使用平方函数，为什么要乘以而不是112m12m\frac{1}{2m}？1m1m\frac{1}{m}

73 machine-learning linear-regression loss-function

8

我何时应该使用Gini不纯而不是信息获取？

有人可以实际解释基尼杂质与信息增益（基于熵）背后的原理吗？使用决策树时，在不同情况下哪种指标更好？

66 machine-learning decision-trees

8

数据科学家与机器学习工程师

“数据科学家”和“机器学习工程师”之间有什么区别（如果有）？在过去的一年左右的时间里，“机器学习工程师”已经开始出现在很多职位上。这在旧金山尤其明显，这可以说是“数据科学家”一词的起源。有一次，“数据科学家”超过了“统计学家”，我想知道“数据科学家”现在是否正在慢慢开始发生这种情况。在此站点上，职业建议被列为题外话，但是由于我在询问定义，因此我认为我的问题非常相关。考虑到自己的职业发展轨迹或个人情况，我并不是在问建议，就像其他题外的问题一样。这个问题是热门话题，因为有朝一日它可能对该网站的许多用户产生重大影响。实际上，如果没有发生“统计学家”与“数据科学家”的进化，那么这个堆叠交换站点可能不存在。从这个意义上讲，这是一个相当相关的，可能存在的问题。

66 machine-learning

3

AUC与标准精度相比的优势

我开始研究曲线下的面积（AUC），对它的有用性有些困惑。当初次向我解释时，AUC似乎是性能的一个很好的衡量指标，但是在我的研究中，我发现有人声称它的优势在很大程度上是微不足道的，因为它最适合捕捉具有高标准精度测量值和低AUC的“幸运”模型。因此，我应该避免依靠AUC来验证模型还是最好的组合？感谢你的帮助。

63 machine-learning accuracy

6

字符串作为决策树/随机森林中的特征

我在决策树/随机森林的应用程序上遇到了一些问题。我正在尝试解决一个以数字和字符串（例如国家/地区名称）为特征的问题。现在的库scikit-learn仅将数字作为参数，但是我想注入字符串，因为它们具有大量的知识。如何处理这种情况？我可以通过某种机制将字符串转换为数字，例如Python中的哈希。但是我想知道有关如何在决策树问题中处理字符串的最佳实践。

63 machine-learning python scikit-learn random-forest decision-trees

8

Python中的开源异常检测

问题背景：我正在从事一个项目，该项目涉及类似于IT监视空间中的日志文件（以我对IT空间的最佳理解）。这些日志文件是时间序列数据，组织成成百上千的各种参数的行。每个参数都是数字（浮点），并且每个时间点都有一个非平凡/非错误的值。我的任务是监视所述日志文件以进行异常检测（峰值，跌落，某些参数不同步的异常模式，奇怪的1st / 2nd / etc。派生行为等）。在类似的任务中，我曾在Prelert尝试过Splunk，但此刻我正在探索开源选项。限制：我限制自己使用Python，因为我很了解Python，并希望延迟切换到R和相关的学习过程。除非似乎对R（或其他语言/软件）提供了压倒性的支持，否则我将坚持使用Python来完成此任务。另外，我目前正在Windows环境中工作。我想继续在Windows上的小型日志文件上进行沙箱测试，但是如果需要的话可以移至Linux环境。资源：我已经检查了以下带有死角的结果：的Python或R用于实现机器学习算法用于欺诈检测。这里的一些信息是有帮助的，但是不幸的是，我正在努力寻找合适的包装，因为： Twitter的“ AnomalyDetection”在R中，我想坚持使用Python。此外，Python端口特性对我来说似乎在Windows环境中实现时会引起问题。我下一次尝试的天际线似乎已经停产了（来自github issue）。鉴于似乎很少有在线支持，所以我没有深入研究这一点。 scikit-learn我仍在探索中，但这似乎更加手动。杂草丛生的方法对我来说是可以的，但是我在学习工具方面的背景很薄弱，因此对于像Splunk + Prelert这样的技术方面来说，就像黑盒子一样。问题定义和问题：我正在寻找开源软件，该软件可以帮助我自动通过包或库从Python中的时间序列日志文件进行异常检测过程。是否存在这样的事情来辅助我的紧迫任务，或者它们在我心中是虚构的？任何人都可以协助具体步骤来帮助我实现我的目标，包括背景基础知识或概念吗？这是最好的StackExchange社区，还是Stats，Math甚至Security或Stackoverflow是更好的选择？编辑[2015-07-23] 请注意，对于pyculiarity的最新更新似乎已在Windows环境中修复！我尚未确认，但是应该成为社区的另一个有用工具。编辑[2016-01-19] 较小更新。我没有时间进行此工作和研究，但是在继续进行具体细节研究之前，我已退后一步来了解此问题的基本原理。例如，我正在采取的两个具体步骤是：从用于异常检测的Wikipedia文章开始[ https://en.wikipedia.org/wiki/Anomaly_detection ]，全面理解，然后在其他链接的Wikipedia文章的概念层次结构中上移或下移，例如[ https：// en.wikipedia.org/wiki/K-nearest_neighbors_algorithm ]，然后转到[ https://en.wikipedia.org/wiki/Machine_learning ]。在Chandola等人2009年“异常检测：调查” [ http://www-users.cs.umn.edu/~banerjee/papers/09/anomaly.pdf ]和Hodge等人2004年所做的大型调查中探索技术。“异常值检测方法概述” [ http://eprints.whiterose.ac.uk/767/1/hodgevj4.pdf ]。一旦更好地理解了这些概念（我希望在开发实际方面时也能玩一些玩具示例），我希望了解哪种开源Python工具更适合我的问题。

61 machine-learning python data-mining anomaly-detection library

9

Sklearn中的训练/测试/验证集拆分

如何使用Sklearn将数据矩阵和相应的标签向量随机分为X_train，X_test，X_val，y_train，y_test，y_val？据我所知，sklearn.cross_validation.train_test_split只能分解为两个，不能分解为三个...

58 machine-learning scikit-learn

3

RNN vs CNN的高水平

我一直在考虑递归神经网络（RNN）及其变种以及卷积神经网络（CNN）及其变种。这两点是否可以公平地说：使用CNN将组件（例如图像）分解为子组件（例如图像中的对象，例如图像中对象的轮廓等）使用RNN创建子组件的组合（图像标题，文本生成，语言翻译等）如果有人想指出这些陈述中的任何错误之处，我将不胜感激。我的目标是在CNN和RNN的使用上建立更清晰的基础。

53 machine-learning neural-network beginner

Questions tagged «machine-learning»