数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答

6
对几个连续变量进行对数转换的原因是什么?
我一直在做分类问题,并且阅读了很多人的代码和教程。我注意到的一件事是,许多人采用np.log或log连续变量,例如loan_amount或applicant_income等。 我只想了解其背后的原因。它有助于提高我们的模型预测准确性。它是强制性的吗?还是背后有逻辑? 如果可能的话,请提供一些解释。谢谢。

3
如何使用predict_generator对Keras中的流测试数据进行预测?
在Keras从头开始培训卷积网络的博客中,代码仅显示了运行在培训和验证数据上的网络。那测试数据呢?验证数据是否与测试数据相同(我认为不是)。如果在与train和validation文件夹相似的行上有一个单独的测试文件夹,我们如何获得测试数据的混淆矩阵。我知道我们必须使用scikit Learn或其他软件包来执行此操作,但是如何从类明智的测试数据概率中获取一些信息呢?我希望将其用于混淆矩阵。

3
如何预测xgboost的概率?
下面的预测函数也给出-ve值,因此它不可能是概率。 param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) 我用谷歌搜索,pred_s <- predict(bst, x_mat_s2,type="response") 但没有成功。 题 如何预测概率呢?


1
CNN中的反向传播
我有以下CNN: 我从5x5大小的输入图片开始 然后,我使用2x2内核和stride = 1进行卷积,生成大小为4x4的特征图。 然后,我将2x2 max-pooling应用于stride = 2,这会将要素图缩小为2x2。 然后我应用逻辑乙状结肠。 然后是一层完全连接的带有2个神经元的层。 并有输出层。 为了简单起见,假设我已经完成了前向通过并计算出δH1= 0.25和 δH2= -0.15 因此,在完成完全向前传递和部分完成向后传递之后,我的网络如下所示: 然后,我为非线性层(逻辑Sigmoid)计算增量: δ11= (0.25 * 0.61 + - 0.15 * 0.02 )* 0.58 * (1 - 0.58 )= 0.0364182δ12= (0.25 * 0.82 + - 0.15 * - 0.50 )* 0.57 * (1 - 0.57 …

1
将批大小保持2的幂有什么优势?
在机器学习中训练模型时,为什么有时将批次大小保持为2的幂是有利的?我认为最好使用最大适合GPU内存/ RAM的大小。 该答案声称,对于某些包装,批次大小以2的幂为佳。有人可以为此提供详细说明/链接到详细说明吗?对于所有优化算法(梯度下降,反向传播等)还是仅其中某些算法,这是正确的吗?

5
特征选择与特征提取。什么时候使用?
特征提取和特征选择从本质上减少了数据的维数,但是如果我对的话,特征提取还使数据更可分离。 哪种技术会比其他技术更受青睐?何时使用? 我当时在想,因为特征选择不会修改原始数据及其属性,所以我假设在要培训的特征不变的情况下很重要,因此您将使用特征选择。但是我无法想象你为什么想要这样的东西。

4
熊猫现在比data.table快吗?
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping 自2014年以来,未对data.table基准进行更新。我听说某个地方Pandas现在的速度比快data.table。这是真的?有人做过基准测试吗?我以前从未使用过Python,但会考虑切换是否pandas可以击败data.table?
16 python  r  pandas  data  data.table 

1
RandomForestClassifier OOB评分方法
scikit-learn中的随机森林实现是否使用平均精度作为其评分方法来估计袋装样本的泛化误差?文档中未提及,但score()方法报告平均准确度。 我有一个高度不平衡的数据集,并且我在网格搜索中使用ROC的AUC作为评分标准。有没有办法告诉分类器对OOB样本也使用相同的评分方法?

3
如何结合分类和连续输入特征进行神经网络训练
假设我们有两种输入功能,即分类输入和连续输入。分类数据可以表示为单热码A,而连续数据只是N维空间中的向量B。似乎仅使用concat(A,B)并不是一个好选择,因为A,B是完全不同的数据。例如,与B不同,A中没有数字顺序。因此,我的问题是如何组合这两种数据,或者是否有任何常规方法来处理它们。 实际上,我提出了一个朴素的结构,如图所示 如您所见,前几层用于将数据A更改(或映射)到连续空间中的某个中间输出,然后将其与数据B合并,形成连续空间中新的输入要素,供以后的层使用。我不知道这是合理的还是仅仅是“试错”的游戏。谢谢。

2
为什么我们需要丢弃一个虚拟变量?
我了解到,为了创建回归模型,我们必须通过将分类变量转换为虚拟变量来加以处理。例如,如果在我们的数据集中存在诸如location之类的变量: Location ---------- Californian NY Florida 我们必须像这样转换它们: 1 0 0 0 1 0 0 0 1 但是,建议无论存在多少个虚拟变量,都必须丢弃一个虚拟变量。 为什么我们需要丢弃一个虚拟变量?

8
我如何学习神经网络?
我是一名新生,目前正在使用神经网络进行研究(这是提法的,因此您可能会原谅我的陌生感)。根据我教授的指导,我已经编码了一个三节点神经网络(有效)。但是,我想从事AI和数据科学领域的工作,并且想深入地自学这些知识。是否有任何书籍或资源可以教我更多有关神经网络结构,深度学习等的知识。是否有任何建议? 注意:我精通Java,Python,Bash,JavaScript,Matlab,并且懂一点C ++。

2
旋转角度的参数化回归
假设我有一个自上而下的箭头图片,并且我想预测该箭头所成的角度。这将在到度之间,或者在到。问题在于该目标是圆形的,度和度是完全相同的,这是我希望在目标中纳入的不变性,这将有助于显着地推广(这是我的假设)。问题是我没有找到解决这个问题的干净方法,是否有任何论文试图解决这个问题(或类似的问题)?对于它们的潜在缺点,我确实有一些想法:0003603603600002π2π2\pi000360360360 使用S形或tanh激活,将其缩放到(范围,并将圆形属性合并到损失函数中。我认为这将相当困难,因为如果它在边界上(最差的预测),则只有很小的噪音会推动砝码向另一方向移动。而且,更接近于和边界的值将更难达到,因为绝对预激活值将需要接近无穷大。0,2π)0,2π)0, 2\pi)0002π2π2\pi 回归到和这两个值,并根据这两个值所成的角度计算损耗。我认为这有更大的潜力,但此向量的范数不受限制,这可能会导致数值不稳定,并可能导致训练过程中爆炸或趋于零。可以通过使用一些怪异的正则化函数来防止此规范离1太远,从而解决此问题。xxxyyy 其他选项可能会对正弦和余弦函数有所帮助,但我感觉到这样的事实,即多个预激活映射到相同的输出也会使优化和泛化变得非常困难。

3
如何为深度学习模型添加新类别?
假设我已经在经过预先训练的网络上进行了转移学习,可以识别10个对象。如何添加网络可以分类的第11个项目,而又不丢失我已经训练的所有10个类别或原始预训练模型的信息?一位朋友告诉我,该领域正在积极研究中,但是我找不到任何相关论文或名称来搜索? 谢谢。

1
一般而言,神经网络中激活函数的差异
我研究了神经网络的激活函数类型。这些函数本身非常简单,但是应用程序的差异并不完全清楚。 合理的是,可以根据所需的二进制/连续输出来区分逻辑类型函数和线性类型函数,但是S型函数比简单线性函数有何优势? 例如,对我而言,ReLU尤其难以理解:使用一个在正输入情况下表现为线性,而在负输入情况下表现为“平坦”的函数有什么意义呢?这背后的直觉是什么?还是仅仅是简单的试错法,仅此而已?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.