Questions tagged «machine-learning»

建立“随经验自动改进的计算机系统”的方法和原理。

4
决策树与KNN
在哪种情况下最好使用决策树,而在其他情况下使用KNN? 为什么在某些情况下使用其中之一?还有其他情况不同吗?(通过查看其功能而不是算法) 有人对此有一些解释或参考吗?

1
是否需要分层抽样(随机森林,Python)?
我使用Python在不平衡的数据集上运行随机森林模型(目标变量是一个二进制类)。在拆分训练和测试数据集时,我很难避免是否使用分层抽样(如所示的代码)。到目前为止,我在项目中观察到分层案例将导致更高的模型性能。但是我认为,如果我将使用我的模型来预测新案例,那么新案例的目标类与当前数据集的分布很可能会有所不同。因此,我倾向于放宽此限制,并使用未分层的拆分。任何人都可以建议以澄清这一点吗? train,test=train_test_split(myDataset, test_size=0.25, stratify=y)


2
使用属性来分类/集群用户配置文件
我有一个用户从网站购买产品的数据集。 我具有的属性是用户ID,用户的地区(州),产品的类别ID,产品的关键字ID,网站的关键字ID和产品的销售金额。 目的是使用产品和网站的信息来识别用户的身份,例如“年轻的男性玩家”或“待在家里的妈妈”。 我附上了一个示例图片,如下所示: 产品共有1940个唯一类别和13845个唯一关键字。对于该网站,有13063个唯一关键字。整个数据集非常庞大,因为这是每日的记录数据。 我正在考虑聚类,因为它们是无监督的,但是这些id是没有数字含义的有序数字。然后我不知道如何应用该算法。我也在考虑分类。如果我根据购买的产品的销售额添加一列类。我认为群集是更可取的。我不知道在这种情况下应该使用哪种算法,因为关键字id的尺寸可能会超过10000(每个产品可能有很多关键字,网站也是如此)。我需要在该项目中使用Spark。 有人可以帮我一些想法或建议吗? 非常感谢!

1
Ruby的机器学习库
是否有相对完善的Ruby机器学习库(包括用于有监督和无监督学习的各种算法),经过严格测试并有据可查的文档?我喜欢Python的scikit-learn,它提供了令人难以置信的文档,但是客户更喜欢用Ruby编写代码,因为这是他们所熟悉的。 理想情况下,我正在寻找一个库或一组库,它们像scikit和一样numpy,可以实现各种数据结构,例如稀疏矩阵以及学习者。 我们需要做的一些例子是使用SVM进行二进制分类,并实现一揽子单词模型,我们希望将其与任意数值数据连接起来,如本StackOverflow帖子所述。

2
不平衡数据的二进制分类模型
我有一个具有以下规格的数据集: 训练193,176个样本的数据集,具有2,821个阳性 包含82,887个样本和673个阳性样本的测试数据集 有10个功能。 我想执行一个二进制分类(0或1)。我面临的问题是数据非常不平衡。在对数据进行归一化和缩放以及一些特征工程并使用几种不同的算法之后,这些是我可以实现的最佳结果: mean square error : 0.00804710026904 Confusion matrix : [[82214 667] [ 0 6]] 即只有6个正确的正面命中率。这是使用逻辑回归。这是我尝试过的各种方法: 不同的算法,例如RandomForest,DecisionTree,SVM 更改参数值以调用函数 一些基于直觉的要素工程以包含复合要素 现在,我的问题是: 我该怎么做才能增加正面的点击次数? 在这种情况下,如何确定是否存在过度拟合?(我曾尝试绘图等。) 在什么时候可以得出结论,也许这可能是我所能做到的最佳选择?(考虑到673中只有6个匹配项,这似乎很可悲) 有没有办法使正样本实例更重,从而提高模式识别能力并导致更多匹配? 哪些图形化图可以帮助检测离群值或关于哪种模式最适合的直觉? 我将scikit-learn库与Python一起使用,并且所有实现都是库函数。 编辑: 以下是一些其他算法的结果: 随机森林分类器(n_estimators = 100) [[82211 667] [ 3 6]] 决策树: [[78611 635] [ 3603 38]]

4
用高度偏向的数据集训练树组合有什么意义?
我有一个高度偏向的二进制数据集-否定类的示例比肯定类多1000倍。我想在此数据上训练树合奏(例如超随机树或随机森林),但是很难创建包含足够的正类示例的训练数据集。 采取分层抽样方法以规范阳性和阴性样本数量的含义是什么?换句话说,例如人为地增加(通过重采样)训练集中肯定的班级示例的数量是一个坏主意吗?

4
寻找例如基础架构堆栈/工作流程/管道
我试图了解现实世界中所有“大数据”组件如何一起发挥作用,例如hadoop,monogodb / nosql,storm,kafka等……我知道这是用于不同的类型,但我想了解更多有关它们在应用程序中的交互的信息,例如,为应用程序,网络应用程序,在线商店思考机器学习。 我有访问者/会话,交易数据等并存储;但是,如果我想即时提出建议,则无法在我拥有的一些大型日志数据库上运行慢的地图/归约工作。在哪里可以了解有关基础架构方面的更多信息?我认为我可以自己使用大多数工具,但是将它们相互插入似乎是一种艺术。 有公开的例子/用例等吗?我知道各个管道在很大程度上取决于用例和用户,但是仅示例对我来说可能非常有用。

1
如何沿着侧面图像添加非图像特征作为CNN的输入
我正在训练一个卷积神经网络以对雾条件下的图像进行分类(3类)。但是,对于约150.000张图像中的每张图像,我还具有四个可用的气象变量,这些变量可能有助于预测图像的类别。我想知道如何将气象变量(例如温度,风速)添加到现有的CNN结构中,从而有助于分类。 我已经想到的一种方法是在CNN旁边创建另一个(小型)前馈神经网络,然后在密集层将CNN层的输出和非图像神经网络的隐藏层彼此连接。 我能想到的第二种方法就是将这些要素与致密层接触。但是,在这种情况下,非图像变量(我认为)只能进行线性预测。 还有其他(更好)的方法可以将非图像特征包括在模型中吗?考虑到我拥有的数据量,什么是明智的选择呢? 我还有一个问题是,在使用这些非图像特征进行训练时,是否应该解冻卷积层?Resnet-18的这些层(在ImageNet上初始化为预先训练的)已经使用图像进行了微调。我的猜测是,我应该使它们保持冻结状态,并且仅解冻稠密层,因为只有在这种情况下,非图像特征才与图像特征“接触”(在CNN的较早版本中才出现)。如果我错了,请这样说!

3
ImageNet中是否有人类?有没有与人类有关的课程?
如果我查看Internet上Imagenet类的众多资源之一,就找不到一个与人类有关的类(不,收割者不是一个收割者,但这就是我所知的爸爸长腿,一种蜘蛛:-)。那怎么可能?我想至少有预期person类,甚至更具体的东西,例如man,woman,toddler等之类的没有。为什么?难道飞翡丽和她的团队有意识地选择不具有人的图像数据库?我看错文件了吗?为了解决这个问题,我们可以考虑ImageNet2014年以后的版本。

5
机器学习入门数学书籍
我是一位计算机科学工程师,没有统计学或高级数学背景。 我正在学习Raschka和Mirjalili撰写的《Python机器学习》一书,但是当我试图理解机器学习的数学时,我无法理解一位朋友向我推荐的《统计学习的要素》这本书。 您知道用于机器学习的更简单的统计资料和数学书籍吗?如果不这样做,我应该怎么走?

1
通过最大池化层进行反向传播
我对这个问题有一个小问题。 我了解到,在通过最大池化层进行反向传播时,梯度将以之前选择为max的上一层神经元获取所有梯度的方式路由回去。我不确定100%是下一层的渐变如何路由回到池化层。 因此,第一个问题是我是否将池化层连接到完全连接的层-如下图所示。 在计算池化层的青色“神经元”的梯度时,是否将来自FC层神经元的所有梯度求和?如果这是正确的,那么池化层的每个“神经元”都具有相同的梯度? 例如,如果FC层的第一个神经元的渐变为2,第二个神经元的渐变为3,第三个神经元的渐变为6,则池化层中蓝色和紫色“神经元”的渐变是什么?为什么? 第二个问题是池化层何时连接到另一个卷积层。那我该如何计算梯度呢?请参见下面的示例。 对于池化层中最右端的“神经元”(绿色框),我只是在下一个conv层中采用紫色神经元的梯度并将其路由回去,对吗? 那个绿色的怎么样?由于链式规则,我需要将下一层的神经元的第一列相乘?还是我需要添加它们? 请不要发布一堆方程式,并告诉我我的答案就在那儿,因为我一直在努力将方程式包围着我,但我仍然不太了解它,这就是为什么我要简单地问这个问题办法。

2
高维数据:了解哪些有用的技术?
由于维数的各种诅咒,许多常见的预测技术的准确性和速度在高维数据上会下降。什么是最有效地处理高维数据的最有用的技术/技巧/启发式方法?例如, 某些统计/建模方法在高维数据集上表现良好吗? 我们是否可以通过使用某些(定义距离的替代概念)或核(定义点积的替代概念)来提高高维数据预测模型的性能? 高维数据降维最有用的技术是什么?

3
CNN的图像大小调整和填充
我想训练CNN进行图像识别。用于训练的图像尺寸不固定。例如,我希望CNN的输入大小为50x100(高x宽)。当我将一些较小尺寸的图像(例如32x32)调整为输入尺寸时,图像的内容在水平方向上拉伸得太多,但是对于某些中等尺寸的图像而言,它看起来还不错。 在避免内容被破坏的同时调整图像大小的正确方法是什么? (我正在考虑将图像的大小调整到一定程度并保持宽度和高度的比率后,将图像以0s填充为完整大小。这种方法可以吗?)


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.