数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答

5
AlphaGo的政策网络和价值网络之间的区别
我正在阅读有关Google AlphaGo的高级摘要(http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html),并且遇到了“政策”一词。网络”和“价值网络”。在较高的层次上,我了解到策略网络用于建议行动,价值网络用于“减少搜索树的深度[并估计]每个位置的获胜者,而不是一直搜索到游戏结束。” 这两个网络对我来说似乎是多余的。如果策略网络未使用价值网络修剪其策​​略,该怎么做?显而易见,价值网络是一种深度学习神经网络。政策网络只是理论上的抽象,而不是实际的神经网络吗?价值网络的目标变量似乎是赢/输。策略网络是否有目标变量?如果是这样,那是什么?策略网络试图优化什么? 可以在以下位置找到《自然》杂志上发表的Google论文的完整pdf:https: //vk.com/doc-44016343_437229031?dl = 56ce06e325d42fbc72

4
Word2Vec用于命名实体识别
我正在寻找使用Google的word2vec实现来构建命名实体识别系统。我听说具有通过结构的反向传播的递归神经网络非常适合命名实体识别任务,但是我无法为该类型的模型找到像样的实现或像样的教程。因为我使用的是非典型语料库,所以NLTK和类似工具中的标准NER工具的效果非常差,看起来我必须训练自己的系统。 简而言之,有哪些资源可用于解决此类问题?是否有可用的标准递归神经网络实现?

3
基尼系数vs基尼杂质-决策树
问题是决策树的建立。根据维基百科,“ 基尼系数 ”不应与“ 基尼杂质 ” 相混淆。但是,在构建决策树时可以同时使用两种方法-在拆分项目集时,这些方法可以支持我们的选择。 1)'基尼杂质'-它是标准的决策树拆分指标(请参见上面的链接); 2)'基尼系数'-可以基于AUC标准评估每个分裂。对于每种拆分方案,我们都可以构建ROC曲线并计算AUC度量。根据维基百科AUC =(GiniCoeff + 1)/ 2; 问题是:这两项措施是否相等?一方面,我被告知不要将基尼系数与基尼杂质混淆。另一方面,这两种措施都可以用于做同一件事-评估决策树拆分的质量。


4
Scikit学习:让SGDClassifier进行预测以及Logistic回归
训练Logistic回归的一种方法是使用随机梯度下降,scikit-learn提供了接口。 我想做的是使用scikit-learn的SGDClassifier,并使其得分与此处的Logistic回归相同。但是,我必须错过一些机器学习增强功能,因为我的分数并不相同。 这是我当前的代码。我在SGDClassifier上缺少什么,它会产生与Logistic回归相同的结果? from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn.linear_model import SGDClassifier import numpy as np import pandas as pd from sklearn.cross_validation import KFold from sklearn.metrics import accuracy_score # Note that the iris dataset is available in sklearn by default. # This data is also conveniently preprocessed. …

5
数据科学项目的VM映像
由于有许多工具可用于数据科学任务,因此安装所有组件并构建完善的系统非常麻烦。 是否有安装了Python,R和其他开源数据科学工具的Linux / Mac OS映像,可供人们立即使用?安装了最新版本的Python,R(包括IDE)和其他开源数据可视化工具的Ubuntu或轻量级操作系统将是理想的选择。我在Google上进行的快速搜索还没有找到。 请让我知道是否有任何东西或者您是否有人为自己创建了一个?我认为某些大学可能拥有自己的VM映像。请分享这样的链接。
24 python  r  tools 

4
随机森林过度拟合吗?
我一直在阅读有关随机森林的文章,但是我真的找不到关于过度拟合问题的明确答案。根据Breiman的原始论文,当增加森林中的树木数量时,它们不应过拟合,但似乎对此尚未达成共识。这使我对此问题颇为困惑。 也许比我更专业的人可以给我一个更具体的答案,或者为我指明正确的方向,以便更好地理解问题。


9
任何在线R控制台?
我正在寻找一种语言R的在线控制台。就像我编写代码一样,服务器应该执行并向我提供输出。 类似于网站Datacamp。
24 r  statistics 

4
潜在功能的含义?
我正在学习推荐系统的矩阵分解,并且看到该词latent features出现得太频繁了,但我无法理解它的含义。我知道功能是什么,但我不了解潜在功能的概念。请解释一下吗?或者至少将我指向可以阅读的论文/地方?

3
存储Python机器学习模型的最佳实践
保存,存储和共享机器学习模型的最佳实践是什么? 在Python中,我们通常使用pickle或joblib存储模型的二进制表示形式。在我的情况下,模型可以大到100Mo。此外,除非您设置compress=1(/programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre)。 但是,然后,如果您想控制对模型的访问权限,并能够使用来自不同计算机的模型,最好的存储方法是什么? 我有几种选择: 将它们存储为文件,然后使用Git LFS将它们放入存储库中 将它们作为二进制文件存储在SQL数据库中: 例如在Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB中 这也是SQL Server团队推荐的方法: https://docs.microsoft.com/zh-cn/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system HDFS

4
使用整个数据集训练最终模型总是更好吗?
在训练,验证和测试机器学习偏好模型之后,一种常见的技术是使用完整的数据集(包括测试子集)来训练最终模型,以将其部署到例如产品上。 我的问题是:这样做是否总是最好的?如果性能实际上下降了怎么办? 例如,让我们假设在分类测试子集时模型得分约为65%的情况。这可能意味着要么模型训练不足,要么测试子集包含异常值。在后一种情况下,与他们一起训练最终模型会降低其性能,并且只有在部署模型后才能发现。 重新表述我的最初问题: 如果您曾经进行过一次模型演示,例如将其部署在昂贵的火箭实验上的嵌入式电子设备上,那么您是否会信任在最后一步中已通过测试子集重新训练的模型,而无需重新进行?对其新性能进行了测试?


3
使用随机森林进行建模是否需要交叉验证?
据我所知,人们对此的看法往往有所不同。最佳实践肯定会规定使用交叉验证(尤其是将RF与同一数据集上的其他算法进行比较时)。另一方面,原始消息来源指出,在模型训练期间计算出OOB误差这一事实足以说明测试集的性能。甚至特雷弗·哈斯提(Trevor Hastie)在最近的一次对话中都说“随机森林提供免费的交叉验证”。直观地,如果在一个数据集上训练并尝试改进基于RF的模型,这对我来说很有意义。 有人可以提出支持和反对使用随机森林进行交叉验证的论点吗?

3
数据科学项目的想法[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 5年前关闭。 我不知道这是否是问这个问题的合适地点,但我认为,致力于数据科学的社区应该是最合适的地方。 我刚刚开始学习数据科学和机器学习。我正在寻找可以在大约8个月的时间里工作的长期项目构想。 数据科学和机器学习相结合会很棒。 一个足以帮助我理解核心概念并同时实施这些概念的项目将非常有益。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.