数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答

2
使用什么机器/深度学习/ nlp技术将给定单词分类为名称,手机号码,地址,电子邮件,州,县,城市等
我正在尝试生成一个智能模型,该模型可以扫描一组单词或字符串,并使用机器学习或深度学习将它们分类为名称,手机号码,地址,城市,州,国家和其他实体。 我一直在寻找方法,但是不幸的是我没有找到任何方法。我曾尝试用词袋模型和嵌入的手套词来预测字符串是名称还是城市等。 但是,我的单词袋模型并没有成功,在GloVe中,嵌入示例中没有涉及很多名称:-劳伦出现在手套中,而劳伦娜则没有 我确实在这里找到了这篇文章,该文章的答案很合理,但是除了使用NLP和SVM来解决这个问题之外,我无法采用该方法来解决该问题。 任何建议表示赞赏 致谢,Sai Charan Adurthi。

1
如何在Octave中实现S形函数?[关闭]
已关闭。这个问题需要细节或说明。它当前不接受答案。 想改善这个问题吗?添加细节并通过编辑此帖子来澄清问题。 2年前关闭。 因此,鉴于将S型函数定义为hθ(x)= g(θ^(T)x),考虑到g = zeros(size(z)),我该如何在Octave中实现此函数?

1
数据不平衡导致多类数据集分类错误
我正在研究文本分类,这里有39个类别/类和850万条记录。(未来的数据和类别将会增加)。 我的数据的结构或格式如下。 ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover Honor 8 | Color:transparent,Height:15 mm,width:22 mm | 212 Ruggers Men's T-Shirt | Size:L,ideal for:men,fit:regular, | 111 sleeve:half sleeve Optimum Nutrition Gold | …

2
哪种算法选择正确的点
下图显示了原点周围的7个点。其中一个已由人类根据规则和经验选择,并被涂成红色(左下象限中的一个)。 现在我们有1000多个这样的点集,并且每个人都选择了一个点。这些条件适用于所有集合: 每套大约有3-10分 没有异常值 点可以具有正值和负值 选择一个点没有犯错 我的问题是:是否存在一种机器学习算法可从这些集合和人工选择中学习,以便在给出新的一组点时可以自动决定要选择哪个点?当然,这个新集合可以满足前三个条件。 2最后的评论: 我给出的示例只是我随机构建的示例,以支持有关原点周围平面中的点以及选定点的想法。在现实生活中,可能会有更多的结构,但是现在我很好奇,想知道这种情况下可能发生什么。 会有变化吗?假设它是大约2个选定点,或者您有给定半径的圆而不是点。

1
HDF5是否可以通过单独的python进程可靠地同时写入和读取?
我正在编写一个脚本,将一段时间后的实时数据记录到一个HDF5文件中,该文件包括该项目的整个数据集。我正在使用Python 3.6,并决定创建一个click用于收集数据的命令行工具。 我担心的是,如果数据收集脚本正在写入HDF5文件,而尚待开发的ML应用程序尝试从同一文件中读取数据,将会发生什么? 我看了HDF Group关于HDF5并行I / O的文档,但这并没有真正为我弄清楚。
9 python  dataset 

2
“深Noether定理”:建立对称约束
如果我有一个应该具有固有对称性的学习问题,是否有办法使我的学习问题受到对称性约束的影响而增强学习? 例如,如果我要进行图像识别,则可能需要2D旋转对称性。这意味着图像的旋转版本应获得与原始图像相同的结果。 或者,如果我正在学习玩井字游戏,那么旋转90度应该可以产生相同的游戏效果。 是否对此进行了研究?

1
如何处理一个分类问题,其中一个类别由“其他类别中的任何一个都不定义”
假设我对三个类,和。但是我的数据集实际上包含了更多的真实类。c 2 c 3(c j )n j = 4C1个C1个c_1C2C2c_2C3C3c_3(cĴ)ñj = 4(CĴ)Ĵ=4ñ(c_j)_{j=4}^n 显而易见的答案是定义一个新类,它引用所有类,但是我怀疑这不是一个好主意,因为的样本将很少并且彼此之间不太相似。çĴĴ>3 Ç 4C^4C^4\hat c_4CĴCĴc_jj > 3Ĵ>3j>3C^4C^4\hat c_4 为了可视化我要说的内容,假设我有以下两个变量空间,并且类,,,分别用红色,直到,绿色和黑色分别。这就是我怀疑我的数据的样子。c ^ 2 ç 3 Ç 4 = ⋃ Ñ Ĵ = 4 Ç ĴC1个C1个c_1C2C2c_2C3C3c_3C^4= ⋃ñj = 4CĴC^4=⋃Ĵ=4ñCĴ\hat c_4= \bigcup_{j=4}^n c_j 有没有解决此问题的标准方法?什么是最有效的分类器,为什么?


4
分类多元时间序列
我有一组由约40个维度的时间序列(8个点)组成的数据(因此每个时间序列为8 x 40)。对应的输出(类别的可能结果)为0或1。 设计具有多个维度的时间序列的分类器的最佳方法是什么? 我最初的策略是从这些时间序列中提取特征:均值,标准差,每个维度的最大变化。我获得了用于训练RandomTreeForest的数据集。意识到这一点的天真之处,并且在获得较差的结果之后,我现在正在寻找一种更好的模型。 我的线索如下:对每个维度进行系列分类(使用KNN算法和DWT),使用PCA降低维度,并沿多维类别使用最终分类器。作为ML的新手,我不知道自己是否完全错了。

2
将CNN训练为自动编码器有意义吗?
我正在分析脑电数据,最终将需要对其进行分类。但是,获取唱片的标签有些昂贵,这使我考虑采用无监督方法,以更好地利用我们大量的无标签数据。 这自然会导致考虑堆叠自动编码器,这可能是一个好主意。但是,使用卷积神经网络也是有意义的,因为某种形式的过滤通常是对EEG的非常有用的方法,并且所考虑的时期可能应该在本地而非整体上进行分析。 是否有结合两种方法的好方法?似乎当人们使用CNN时,他们通常会使用监督培训,或者什么?探索神经网络来解决我的问题的两个主要好处似乎是无人监管,以及微调(例如,在人口数据上创建一个网络,然后针对个人进行微调很有趣)。 那么,有谁知道我是否可以像训练“残破的”自动编码器那样预训练CNN,还是毫无意义? 我是否应该考虑其他某种架构,例如深度信任网络?


3
为什么在经典的简历模板匹配上使用卷积神经网络进行视觉检查任务?
基于我们正在研究的项目,我进行了有趣的讨论:为什么在模板匹配算法上使用CNN视觉检查系统? 背景:我展示了一个简单的CNN视觉系统(网络摄像头和笔记本电脑)的演示,该系统检测特定类型的对象是否“损坏” /有缺陷-在这种情况下,是PCB电路板。我的CNN模型显示了在静态背景下正确和断裂的电路板(每个电路板大约100张图像)的示例。我们的模型使用了预先训练的VGG16的前几个conv / maxpool层(在imagenet上),然后我们添加了一些可训练的conv / pool,并带有一些密度,从而得到了dim-3一个热编码的矢量输出用于分类:(is_empty,has_good_product,has_defective_product)。 该模型非常容易训练,并且达到99%的验证准确无误;由于我们知道我们的数据集很小,因此我们还进行了各种数据扩充方面的培训。实际上,它的工作效率约为10的9倍,但是同一块电路板的几次随机平移/旋转有时会使其处于相反的类别。也许更积极的数据增强会有所帮助。无论如何,对于原型概念项目,我们感到很高兴。 现在我们正在向另一位工程师和他的同事介绍,他提出了这样的论点,即NN对于此而言是过大的,应该只使用模板匹配,为什么要做CNN? 对于为什么我们的方法在某些应用程序(例如要检查的其他零件)中会更好,我们没有一个很好的答案。我们提出了一些要点: 1)对不变性更健壮(例如通过数据增强) 2)可以进行在线学习以改进系统(例如,人可以告诉软件哪个示例出错了) 3)不需要像传统计算机视觉算法中那样设置阈值,您认为呢,对于这种类型的检查任务,CNN系统还有更多优势吗?在什么情况下会比模板匹配更好? 对于何时将深度NN用作工作的技术,还有一些随机的想法:对于需要3D深度感测作为输入一部分的系统,或者可以变形/拉伸/挤压但仍然“好”的任何类型的对象,以及没有缺陷(例如毛绒动物,电线等)。很好奇听到您的想法:)

1
卷积层与普通的卷积网络有何不同?
我目前正在对重建这一结果纸。在本文中,他们描述了一种使用CNN进行特征提取的方法,并具有Dnn-hmm的声学模型,并使用RBM进行了预训练。 第三节A小节陈述了可以表示输入数据的不同方式。我决定垂直堆叠静态,增量和增量增量的频谱图。 因此: 然后,本文描述了网络的运行方式。他们声明他们使用了卷积网络,但是关于网络的结构却一无所知。此外,网络是否始终被称为卷积层?我敢肯定,与普通的网络卷积神经网络(cnn)相比,我看不出任何区别。 该文件就差异指出了这一点: (摘自第三节B小节) 但是,卷积层在两个重要方面与标准的完全连接的隐藏层不同。首先,每个卷积单元仅从输入的局部区域接收输入。这意味着每个单元代表输入局部区域的某些特征。其次,卷积层的单元本身可以组织为多个特征图,其中同一特征图中的所有单元共享相同的权重,但从较低层的不同位置接收输入 我想知道的另一件事是,该论文是否实际陈述了馈送dnn-hmm声学模型所需的输出参数。我似乎无法解码过滤器的数量,过滤器的大小..网络的一般细节?

1
卷积层的参数数量
在这篇被高度引用的论文中,作者对权重参数的数量进行了以下讨论。我不太清楚为什么它具有参数。我认为应该是因为每个输入通道共享同一个滤波器,该滤波器具有参数。49 ℃249C249C^249℃49C49CCCC494949

4
在功能重要性的上下文中解释决策树
我试图了解如何完全理解使用sklearn构建的决策树分类模型的决策过程。我要看的2个主要方面是树的graphviz表示形式和功能重要性列表。我不了解的是如何在树的上下文中确定功能的重要性。例如,这是我的功能重要性列表: 功能排名:1. FeatureA(0.300237) FeatureB(0.166800) FeatureC(0.092472) 精选(0.075009) FeatureE(0.068310) FeatureF(0.067118) FeatureG(0.066510) FeatureH(0.043502) FeatureI(0.040281) FeatureJ(0.039006) FeatureK(0.032618) FeatureL(0.008136) FeatureM(0.000000) 但是,当我查看树的顶部时,它看起来像这样: 实际上,某些排名为“最重要”的要素要到树下很远时才会出现,而树的顶部是FeatureJ,这是排名最低的要素之一。我天真的假设是,最重要的功能将排在树的顶部附近,以产生最大的影响。如果那是不正确的,那么什么使功能“重要”?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.