Questions tagged «machine-learning»

建立“随经验自动改进的计算机系统”的方法和原理。


4
PCA是否被视为机器学习算法
我知道主成分分析是一种降维技术,即给定10个输入特征,它将产生较少数量的独立特征,这些特征是原始特征的正交和线性变换。 是PCA由本身视为学习算法或它是一个数据预处理步骤。

3
GPS坐标(纬度和经度)可以用作线性模型的特征吗?
我的数据集包含许多功能,其中包括GPS坐标(纬度和经度)。我想使用这些数据集来探讨以下问题:(1)计算ETA以在起点和终点之间行驶;(2)估算特定点的犯罪数量。 我想使用线性回归模型。但是,我可以直接在线性模型中使用这些GPS坐标吗? 纬度和经度不具有序数属性,例如与人的年龄无关。例如,两个点(40.805996,-96.681473)和(41.226682,-95.986587)似乎没有任何有意义的排序。它们只是空间中的点。我当时想用分类的美国邮政编码替换它们,然后进行一键编码,但这会导致很多变量。


2
如何执行具有大量功能的Logistic回归?
我有一个包含330个样本和每个样本27个特征的数据集,以及Logistic回归的二元类问题。 根据“十个规则”,每个功能至少需要包含10个事件。虽然,我有一个不平衡的数据集,有20%的正类和80%的负类。 这仅给我70个事件,因此Logistic模型仅包含大约7/8个功能。 我想将所有功能评估为预测器,但我不想手工选择任何功能。 那你有什么建议呢?我应该将所有7种功能组合在一起吗?我应该使用关联模型单独评估每个功能,然后只为最终模型选择最佳功能吗? 我也对分类和连续特征的处理感到好奇,可以混合使用吗?如果我有类别[0-1]和连续[0-100],我应该归一化吗? 我目前正在使用Python。 非常感谢你的帮助!

2
word2vec中的特征矩阵是什么?
我是神经网络的初学者,目前正在探索word2vec模型。但是,我很难理解特征矩阵的确切含义。 我可以理解,第一个矩阵是给定单词的单编码编码矢量,但是第二个矩阵表示什么呢?更具体地说,这些值(即17、24、1等)分别是什么意思?

1
如何确定英语句子的复杂性?
我正在开发一个应用程序,以帮助人们学习英语作为第二语言。我已经证实句子可以通过提供额外的上下文来帮助学习语言。我是通过在60名学生的教室中进行小型研究来做到这一点的。 我已经从Wikipedia挖掘了十万多个用于各种英语单词的句子(包括Barrons的800个单词和1000个最常见的英语单词) 整个数据可从https://buildmyvocab.in获得 为了保持内容的质量,我过滤掉了超过160个字符的句子,因为这些句子可能很难理解。 下一步,我希望能够以易于理解的顺序自动化对该内容进行排序的过程。我本人不是英语母语者。我想知道我可以使用哪些功能将简单句子与困难句子分开。 另外,您认为这可能吗?

3
预测最佳通话时间
我有一个数据集,其中包括一组位于加利福尼亚不同城市的客户,呼叫每个客户的时间以及呼叫状态(如果客户接听电话则为True,如果客户未接听则为False)。 我必须找到合适的时间来拜访未来的客户,以便接听电话的可能性很高。那么,解决此问题的最佳策略是什么?我应该将小时数(0,1,2,... 23)归类为分类问题吗?还是应该将其视为时间是连续变量的回归任务?如何确保接听电话的可能性很高? 任何帮助,将不胜感激。如果您让我参考类似的问题,那也很好。 以下是数据的快照。

1
HOW TO:深度神经网络权重初始化
给定艰巨的学习任务(例如高维,固有的数据复杂性),深度神经网络变得难以训练。为了缓解许多问题,可以采取以下措施: 规范化&&精选质量数据 选择其他训练算法(例如RMSprop而不是Gradient Descent) 选择较陡峭的渐变成本函数(例如,交叉熵而不是MSE) 使用不同的网络结构(例如,卷积层而不是前馈层) 我听说有一些聪明的方法可以初始化更好的权重。例如,您可以选择更好的幅度:Glorot和Bengio(2010) 对于S形单位:对具有的Uniform(-r,r)进行采样r=6Nin+Nout−−−−−−√r=6Nin+Noutr = \sqrt{\frac{6}{N_{in} + N_{out}}} 或双曲正切单元:对的Uniform(-r,r)进行采样r = 4 6ñ我ñ+ NØ ü Ť------√r=46Nin+Noutr =4 \sqrt{\frac{6}{N_{in} + N_{out}}} 有什么一致的方法可以更好地初始化权重?

1
提供用户产品肯定(点击数据)。如何生成否定(无点击数据)?
在推荐器中,很常见的是我们拥有带有标签的用户产品数据,例如“点击”。为了学习模型,我需要单击和不单击数据。 生成最简单的方法是获取在点击数据中找不到的用户产品对。但是,这可能会产生误导。例: user1, product1 (click) user2, product2 (click) user2, product3 (click) user3, product2 (click) 我可以将user1与product1以外的所有产品一起使用,并将它们标记为“ no_click”,依此类推。但是,事实可能并非如此。如果显示了product2,则user1可能会单击product2。但是仅仅因为向他展示了其他产品集-他没有机会决定点击/不点击product2。 那么如何解决一元数据问题呢?

2
测试数据的功能少于训练数据时该怎么办?
假设我们正在预测商店的销售量,而我的培训数据具有两组功能: 关于带有日期的商店销售的一项(“商店”字段不是唯一的) 一种关于商店类型(此处的“商店”字段是唯一的) 所以矩阵看起来像这样: +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday | +-------+-----------+------------+---------+-----------+------+-------+--------------+ | 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 | | 2 | 5 | 2015-07-31 | 6064.0 | 625.0 …

2
科学家如何提出使用正确的隐马尔可夫模型参数和拓扑?
我了解如何在基因组序列(例如寻找基因)中使用隐马尔可夫模型。但是我不明白如何提出一个特定的马尔可夫模型。我的意思是,模型应具有多少个状态?有多少种可能的过渡?模型应该有一个循环吗? 他们怎么知道他们的模型是最优的? 他们是否想像出10种不同的模型,对这10种模型进行基准测试并发布最佳模型?

1
给定前一卷积层的增量项和权重,如何计算卷积层的增量项?
我正在尝试训练具有两个卷积层(c1,c2)和两个隐藏层(c1,c2)的人工神经网络。我正在使用标准的反向传播方法。在反向遍历中,我根据前一层的误差,前一层的权重以及相对于当前层的激活函数的激活梯度来计算层(δ)的误差项。更具体地说,第l层的增量看起来像这样: delta(l) = (w(l+1)' * delta(l+1)) * grad_f_a(l) 我能够计算c2的梯度,该梯度连接到常规层中。我只是将h1的权重乘以它的增量。然后,我将该矩阵重塑为c2输出的形式,将其与激活函数的梯度相乘就完成了。 现在,我有了c2的增量项-这是大小为4D的矩阵(featureMapSize,featureMapSize,filterNum,patternNum)。此外,我具有c2的权重,它们是大小为3D的矩阵(filterSize,filterSize,filterNum)。 有了这两个项以及c1激活的梯度,我想计算c1的增量。 长话短说: 给定前一个卷积层的增量项和该层的权重,我如何计算卷积层的增量项?

2
放大局部敏感哈希
我正在尝试建立一个余弦局部敏感哈希,这样我就可以找到候选的相似项目对,而不必比较每个可能的对。我已经基本工作了,但是我数据中的大多数配对似乎在-0.2到+0.2范围内具有余弦相似度,因此我试图将其切成小方块,并选择余弦相似度0.1及更高的东西。 我一直在阅读第3章“挖掘海量数据集”。它讨论了通过放大局部敏感族来提高候选对选择的准确性。我想我只是想了解数学上的解释,但是我很难理解我是如何实际实现的。 我到目前为止所拥有的如下 我说有1000部电影,每部电影都有来自1M用户的评分。每部电影都由用户分数的稀疏向量表示(行数=用户ID,值=用户分数) 我建立了N个随机向量。向量长度与电影向量的长度(即用户数量)匹配。向量值为+1或-1。我实际上将这些向量编码为二进制以节省空间,其中+1映射为1,-1映射为0 我通过获取电影的点积和N个随机向量中的每一个来为每个电影构建草图向量(或者更确切地说,如果我通过水平放置N个随机向量并将它们彼此叠置来创建矩阵R,则草图因为电影m是R * m),然后取结果向量中每个元素的符号,所以我以每张+1和-1s电影的草图向量结尾,我再次将其编码为二进制。每个向量的长度为N位。 接下来,通过执行以下操作寻找相似的草图 我将素描矢量分成r位的b个带 r位的每个带都是一个数字。我将该数字与乐队编号结合起来,然后将电影添加到该编号下的哈希存储桶中。每部电影可以添加到多个存储桶中。 然后,我看着每个水桶。同一存储桶中的所有电影都是候选对。 将此与mmds的3.6.3进行比较,我的AND步骤是当我查看r位的波段时-如果r位具有相同的值,则一对电影通过AND步骤。我的OR步骤发生在存储桶中:如果电影都在任何存储桶中,则它们都是候选对。 这本书建议我可以通过添加更多的AND和OR步骤来“放大”我的结果,但是我对如何实际执行操作感到困惑,因为对于进一步的层的构造过程的解释是检查成对相等性而不是检查拿出桶号。 谁能帮助我了解如何执行此操作?

2
scikit分类器需要多少时间进行分类?
我计划使用scikit线性支持向量机(SVM)分类器对包含100万个带标签文档的语料库进行文本分类。我打算做的是,当用户输入某个关键字时,分类器将首先将其分类为一个类别,然后在该类别目录的文档中进行后续的信息检索查询。我有几个问题: 如何确认分类不会花费太多时间?我希望用户不必花时间等待分类完成才能获得更好的结果。 使用适用于网站/ Web应用程序的Python的scikit库适合吗? 有谁知道亚马逊或翻车如何对用户查询进行分类,或者他们使用完全不同的逻辑?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.