数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答

1
为什么ReLU比其他激活功能更好
这里的答案指的是sigmoid像激活函数一样已经消失的梯度和爆炸的梯度,但是我猜Relu它有一个缺点,那就是它的期望值。对的输出没有限制Relu,因此其期望值不为零。我记得之前的时间普及Relu这tanh是最流行之间机器学习专家,而不是sigmoid。原因是的期望值tanh等于零,并且有助于更深层次的学习,从而在神经网络中更快地学习。Relu没有这个特性,但是如果我们不考虑它的派生优势,为什么它会如此出色。而且,我猜导数也可能会受到影响。因为激活(输出Relu)用于计算更新规则。

3
符号mAP @ [。5:.95]是什么意思?
为了进行检测,确定一个对象提议是否正确的一种常见方法是“ 联合路口”(IoU,IU)。这将采用建议的目标像素的集合和真实目标像素的集合B并计算:AAABBB IoU(A,B)=A∩BA∪BIoU(A,B)=A∩BA∪BIoU(A, B) = \frac{A \cap B}{A \cup B} 通常,IoU> 0.5表示这是命中,否则是失败。对于每个类别,可以计算出 真实肯定():针对c类提出了一个建议,实际上有一个c类对象TP(c)TP(c)TP(c)cccccc 误报():针对c类提出了一个建议,但没有c类的对象FP(c)FP(c)FP(c)cccccc 平均精密类:#牛逼P (C ^ )ccc#TP(c)#TP(c)+#FP(c)#TP(c)#TP(c)+#FP(c)\frac{\#TP(c)}{\#TP(c) + \#FP(c)} mAP(平均平均精度)= 1个| ç升一个小号小号Ë小号 |∑Ç ∈ Ç 升一个小号小号ë 小号#ŤP(c )#ŤP(c )+ #FP(c )1|classes|∑c∈classes#TP(c)#TP(c)+#FP(c)\frac{1}{|classes|}\sum_{c \in classes} \frac{\#TP(c)}{\#TP(c) + \#FP(c)} 如果有人想要更好的建议,则可以将IoU从0.5增加到更高的值(最理想的是增加到1.0)。一个可以与地图@ p,其中表示这个是IOU。p ∈ (0 ,1 )p∈(0,1)p \in (0, 1) 但是mAP@[.5:.95](如本文所述)是什么意思?

3
深度神经网络中的装袋与辍学
套袋是多个预测变量的生成,可以像单个预测变量一样进行混淆。辍学是一种教导神经网络求平均所有可能子网的技术。在最重要的Kaggle比赛中,这两种技术经常一起使用。除了实际的实现,我看不到任何理论上的差异。谁能解释我为什么在任何实际应用程序中都应同时使用它们?以及为什么同时使用它们时性能会提高?

2
Doc2Vec-如何标记段落(gensim)
我想知道如何从gensim中使用doc2vec在gensim中标记(标记)句子/段落/文档。 您是否需要使每个句子/段落/文档带有自己的唯一标签(例如“ Sent_123”)?如果您想说“哪些单词或句子与标记为“ Sent_123”的单个特定句子最相似”,这似乎很有用。 能否根据内容重复标签?例如,如果每个句子/段落/文档都与某个特定产品有关(并且给定产品项目有多个句子/段落/文档),则可以根据该项目为句子加上标签,然后计算单词或词组之间的相似度句子和这个标签(我想这将是与产品有关的所有句子的平均值)?

1
文本聚类算法
我有一个问题,就是将大量句子按其含义分组。当您有很多句子并想按其含义对它们进行分组时,这类似于一个问题。 建议使用什么算法来做到这一点?我不知道簇的数量(随着更多数据的到来,簇也可以改变),通常用什么特征来表示每个句子? 我现在正在尝试使用最简单的功能,将单词列表和句子之间的距离定义为: (A和B是句子A和B中的相应单词集) 真的有道理吗? 我正在尝试将scikit库中的Mean-Shift算法应用于此距离,因为它不需要预先提供多个簇。 如果有人会建议解决问题的更好方法/方法,将不胜感激,因为我还是这个话题的新手。


2
伦理学应如何应用于数据科学
最近有一种骚动,facebook在对其用户进行试验,以查看他们是否可以改变用户的情绪,现在变得很沮丧。 虽然我不是专业的数据科学家,但我从Cathy O'Neill的著作《 Doing Data Science》中读到了有关数据科学伦理学的信息,并且想知道这是否是在专业水平上教授的专业知识(我希望如此)或在专业领域被忽略或轻描淡写。特别是对于那些最终意外完成数据科学的人。 在链接的文章谈到数据完整性的同时,该书还讨论了理解所创建的数据模型的影响以及这些模型的影响背后的道德伦理,这些模型的使用不当(有时是无意间)或模型使用时可能产生不利影响。不准确的话,又会产生不利的结果。 本文讨论了行为准则,并提到了数据科学协会的行为准则,这是否正在使用中?规则7特别引起关注(从其网站上引用): (a)与数据科学家就某件事形成客户-数据科学家关系的可能性进行咨询的人是准客户。 (b)即使未达成客户与数据科学家的关系,从潜在客户那里学习到信息的数据科学家也不得使用或泄露该信息。 (c)受(b)款约束的数据科学家,如果其从利益相关者那里收到信息,则不得为其利益严重不利于相同或基本相关行业中的潜在客户的利益的客户提供专业的数据科学服务在那件事上可能对那个人有很大的伤害 这是专业实践吗?许多用户盲目接受我们获得了一些免费服务(邮件,社交网络,图像托管,博客平台等),并同意EULA以便向我们推送广告。 最终,这是如何受到监管的,我经常读到有关服务条款变更时用户会变得武装起来的消息,但似乎需要一些自由组织,集体诉讼或参议员对此类事情做出反应,然后事情才能发生。 顺便说一句,我在这里没有做出任何判断,也没有说所有数据科学家的行为都是这样,我对学术教学和专业实践感兴趣。

3
最近的邻居搜索非常高维的数据
我对用户和他们喜欢的项目有一个稀疏的矩阵(按100万个用户和100K个项目的顺序排列,稀疏程度很低)。我正在探索可以对其执行kNN搜索的方法。考虑到数据集的大小和我执行的一些初始测试,我的假设是我将使用的方法必须是并行的或分布式的。因此,我正在考虑两类可能的解决方案:一种可以在单个多核计算机上使用(或以相当容易的方式实现),另一种可以在Spark集群上使用,即作为MapReduce程序。我考虑了以下三个主要思想: 假设一个余弦相似性度量,通过其转置(作为外部乘积之和来实现)对归一化矩阵进行完全乘法 使用位置敏感的哈希(LSH) 首先使用PCA降低问题的维度 对于任何其他可以解决此问题的方式的想法或建议,我将不胜感激。

6
您如何在R中生成仪表板?
我需要生成定期(每日,每月)的网络分析仪表板报告。它们将是静态的,不需要交互,因此可以将PDF文件作为目标输出。这些报告将混合表格和图表(主要是使用ggplot2创建的迷你图和项目符号图)。考虑一下Stephen Few / Perceptual Edge样式的仪表板,例如: 但适用于网络分析。 关于使用哪些程序包创建这些仪表板报告的任何建议? 我的第一个直觉是使用R markdown和knitr,但也许您找到了更好的解决方案。我似乎找不到从R生成的仪表板的丰富示例。
17 r  visualization 

4
神经网络中的额外输出层(十进制到二进制)
我正在研究在线书中的一个问题: http://neuralnetworksanddeeplearning.com/chap1.html 我可以理解,如果额外的输出层是5个输出神经元,那么我可能会将前一层的偏倚设置为0.5,权重分别为0.5和0.5。但是现在的问题是需要新的四个输出神经元层-足以代表处的10个可能的输出。24242^{4} 有人可以指导我完成理解和解决此问题的步骤吗? 练习题: 通过在上面的三层网络中增加一个额外的层,可以确定数字的按位表示。额外的层将前一层的输出转换为二进制表示,如下图所示。查找新输出层的一组权重和偏差。假设神经元的前3层是这样,即第三层(即旧的输出层)中的正确输出具有至少0.99的激活,而错误的输出具有小于0.01的激活。

7
可视化具有一百万个顶点的图形
什么是用于可视化(绘制顶点和边)具有1000000个顶点的图的最佳工具?图中大约有50000条边。而且我可以计算单个顶点和边的位置。 我正在考虑编写一个程序来生成svg。还有其他建议吗?

2
在大数据上使用liblinear进行语义分析
我使用Libsvm训练数据并预测语义分析问题的分类。但是由于语义分析涉及n维问题,因此在大规模数据上存在性能问题。 去年,Liblinear发布了,它可以解决性能瓶颈。但这会占用太多内存。是的MapReduce解决大数据的语义分析问题的唯一途径?还是有其他方法可以改善Liblinear上的内存瓶颈?

5
通过异常检测在视觉上检测猫
我有一个业余项目,我正在考虑将其作为增加我迄今为止有限的机器学习经验的一种方式。我已经完成了有关该主题的Coursera MOOC。我的问题是关于该项目的可行性。 任务如下: 邻居的猫时不时在我的花园里逛,我不喜欢它们,因为它们倾向于在我的草坪上排便。我想有一个警告系统,当有猫在场时提醒我,以便我可以用我的超级浸泡器赶走它。为简单起见,假设我只关心黑白相间的猫。 我已经设置了带有相机模块的树莓派,可以捕获花园一部分的视频和/或图片。 样本图片: 我的第一个想法是训练一个分类器来识别猫或类似猫的物体,但是在意识到我将无法获得足够多的阳性样本后,我放弃了这一方法,转而支持异常检测。 我估计,如果我每隔一秒钟拍摄一张照片,最终可能会得到五张每天包含猫的照片(约有60,000张带有阳光)。 使用异常检测是否可行?如果是这样,您会建议什么功能?到目前为止,我的想法是简单地计算具有某些颜色的像素数。进行某种类型的斑点检测/图像分割(我不知道该怎么做,因此希望避免),并对它们执行相同的颜色分析。

4
基于相似度分数的聚类
假设我们有一组元素E和两个元素ei,ej∈E之间的相似度函数(而不是距离)sim(ei,ej)。 我们如何使用sim(有效地)将E的元素聚类? ķ -means,例如,需要在给定ķ,雨棚聚类需要两个阈值。如果我们不想要这样的预定义参数怎么办? 注意,sim不一定是度量(即三角形不等式可能成立,也可能不成立)。此外,簇是否不相交(E的分区)也没关系。

5
关系DBMS中的数据越来越大,是时候迁移到NoSQL了吗?
我们创建了一个用于电子学习的社交网络应用程序。这是我们正在实验室中研究的实验项目。在某些案例研究中已经使用了一段时间,并且关系DBMS(SQL Server 2008)中的数据越来越大。现在只有几千兆字节,并且表之间相互连接紧密。性能仍然不错,但是什么时候应该考虑其他选择呢?是性能问题吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.