数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答

2
为什么在L2上使用L1正则化?
使用损失函数进行线性回归模型,为什么我应该使用而不是L 2正则化?大号1个L1L_1大号2L2L_2 是否可以防止过度拟合?它是确定性的(因此总是唯一的解决方案)?在特征选择上是否更好(因为产生稀疏模型)?它会分散特征之间的权重吗?

3
GPS坐标(纬度和经度)可以用作线性模型的特征吗?
我的数据集包含许多功能,其中包括GPS坐标(纬度和经度)。我想使用这些数据集来探讨以下问题:(1)计算ETA以在起点和终点之间行驶;(2)估算特定点的犯罪数量。 我想使用线性回归模型。但是,我可以直接在线性模型中使用这些GPS坐标吗? 纬度和经度不具有序数属性,例如与人的年龄无关。例如,两个点(40.805996,-96.681473)和(41.226682,-95.986587)似乎没有任何有意义的排序。它们只是空间中的点。我当时想用分类的美国邮政编码替换它们,然后进行一键编码,但这会导致很多变量。

2
仅使用2个隐藏层对数字进行排序
我正在阅读Ilya Sutskever和Quoc Le撰写的基础论文《使用神经网络进行序列学习》。在第一页上,它简短地提到: A surprising example of the power of DNNs is their ability to sort N N-bit numbers using only 2 hidden layers of quadratic size 谁能简要概述如何仅使用2个隐藏层对数字进行排序?


1
t-SNE对最近的邻居有意义吗?
对此的回答表明,t-SNE中的尺寸是没有意义的,并且点之间的距离不是相似性的量度。 但是,基于t-SNE空间中最接近的点,我们能说点什么吗?为什么完全相同的点不会聚类的答案表明,在较低和较高尺寸的表示形式之间,点之间的距离比是相似的。 例如,下图显示了我的一个数据集(15个类)上的t-SNE。 我可以说cro 479(右上方)是一个离群值吗?是fra 1353(左下)更类似于cir 375比其他图像fra类,等等?还是这些仅仅是人工制品,例如fra 1353被卡在了几个集群的另一端而无法强行进入另一类fra?
10 tsne 

4
如果函数平滑,为什么它会加快梯度下降?
我现在读了一本书,标题为“使用Scikit-Learn和TensorFlow进行动手机器学习”,在第11章中,对ELU(指数ReLU)的解释如下。 第三,该函数在所有位置(包括z = 0左右)都是平滑的,这有助于加速Gradescent Descent,因为它在z = 0的左右两侧反弹得不那么快。 在z装置上面的曲线图中的x轴上。我知道导数是平滑的,因为该z < 0直线具有曲线,并且在那个领域中导数不再等于0。 但是,为什么函数“在所有地方都平滑,包括z = 0左右”会加速梯度下降呢?

2
如何执行具有大量功能的Logistic回归?
我有一个包含330个样本和每个样本27个特征的数据集,以及Logistic回归的二元类问题。 根据“十个规则”,每个功能至少需要包含10个事件。虽然,我有一个不平衡的数据集,有20%的正类和80%的负类。 这仅给我70个事件,因此Logistic模型仅包含大约7/8个功能。 我想将所有功能评估为预测器,但我不想手工选择任何功能。 那你有什么建议呢?我应该将所有7种功能组合在一起吗?我应该使用关联模型单独评估每个功能,然后只为最终模型选择最佳功能吗? 我也对分类和连续特征的处理感到好奇,可以混合使用吗?如果我有类别[0-1]和连续[0-100],我应该归一化吗? 我目前正在使用Python。 非常感谢你的帮助!

2
word2vec中的特征矩阵是什么?
我是神经网络的初学者,目前正在探索word2vec模型。但是,我很难理解特征矩阵的确切含义。 我可以理解,第一个矩阵是给定单词的单编码编码矢量,但是第二个矩阵表示什么呢?更具体地说,这些值(即17、24、1等)分别是什么意思?

3
在DataFrame中找到连续的零并进行条件替换
我有一个像这样的数据集: 样本数据框 import pandas as pd df = pd.DataFrame({ 'names': ['A','B','C','D','E','F','G','H','I','J','K','L'], 'col1': [0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0], 'col2': [0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0]}) 我想,以取代一些0的中col1和col2用1的,而不是替代0的,如果三个或更多0的是在同一列的连续。熊猫怎么办? 原始数据集: names col1 col2 A 0 0 B 1 0 C 0 …

1
如何确定英语句子的复杂性?
我正在开发一个应用程序,以帮助人们学习英语作为第二语言。我已经证实句子可以通过提供额外的上下文来帮助学习语言。我是通过在60名学生的教室中进行小型研究来做到这一点的。 我已经从Wikipedia挖掘了十万多个用于各种英语单词的句子(包括Barrons的800个单词和1000个最常见的英语单词) 整个数据可从https://buildmyvocab.in获得 为了保持内容的质量,我过滤掉了超过160个字符的句子,因为这些句子可能很难理解。 下一步,我希望能够以易于理解的顺序自动化对该内容进行排序的过程。我本人不是英语母语者。我想知道我可以使用哪些功能将简单句子与困难句子分开。 另外,您认为这可能吗?

1
梯度提升树:“变量越大越好”?
从XGBoost 的教程中,我认为当每棵树长大时,将扫描所有变量以选择拆分节点,然后选择具有最大增益拆分的变量。所以我的问题是,如果我将一些噪声变量添加到数据集中,这些噪声变量会影响变量选择(对于每棵树生长)吗?我的逻辑是,由于这些噪声变量根本不会给出最大的增益分配,因此将永远不会选择它们,因此它们不会影响树的生长。 如果答案是肯定的,那么“ XGBoost变量越多越好”是真的吗?我们不考虑培训时间。 同样,如果答案是肯定的,那么“我们不需要从模型中滤除非重要变量”是否成立。 谢谢!

3
如何使用GAN从图像中进行无监督特征提取?
我了解GAN在两个网络(生成性和区分性)相互竞争时如何工作。我建立了一个DCGAN(带有卷积鉴别器和反卷积生成器的GAN),现在可以成功生成类似于MNIST数据集中的手写数字。 我已经阅读了很多有关GAN从图像中提取特征的应用程序。如何使用训练有素的GAN模型(在MNIST数据集上)从MNIST手写的挖掘者图像中提取特征?


1
避免在不同的python内核之间重新加载DataFrame
有没有一种方法可以在内存中保留变量(大表/数据框)并在多个ipython笔记本之间共享? 我会寻找某种在概念上类似于MATLAB的持久变量的东西。可以从多个单独的编辑器(笔记本)中调用自定义函数/库,并使该外部函数缓存某些结果(或大表)。 通常,我想避免重新加载使用频繁的表(该表是通过从笔记本调用的自定义库加载的),因为每当我开始新的分析时,读取它大约需要2-3分钟。

3
预测最佳通话时间
我有一个数据集,其中包括一组位于加利福尼亚不同城市的客户,呼叫每个客户的时间以及呼叫状态(如果客户接听电话则为True,如果客户未接听则为False)。 我必须找到合适的时间来拜访未来的客户,以便接听电话的可能性很高。那么,解决此问题的最佳策略是什么?我应该将小时数(0,1,2,... 23)归类为分类问题吗?还是应该将其视为时间是连续变量的回归任务?如何确保接听电话的可能性很高? 任何帮助,将不胜感激。如果您让我参考类似的问题,那也很好。 以下是数据的快照。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.