Questions tagged «machine-learning»

建立“随经验自动改进的计算机系统”的方法和原理。

3
如何对未知特征执行特征工程?
我正在参加kaggle比赛。数据集包含约100个要素,所有要素都是未知的(就其实际表示而言)。基本上,它们只是数字。 人们正在对这些功能执行许多功能工程。我想知道一个人究竟能对未知的特征执行特征工程吗?有人可以帮助我理解这一点,以及一些有关如何对未知特征执行特征工程的提示吗?


2
文字分类:结合不同种类的功能
我要解决的问题是将短文本分为多个类别。我目前的方法是使用tf-idf加权词频,并学习一个简单的线性分类器(逻辑回归)。这相当有效(测试集上的宏F-1约为90%,训练集上接近100%)。一个大问题是看不见的单词/ n-gram。 我正在尝试通过添加其他功能(例如,使用分布相似性(由word2vec计算)计算出的固定大小的矢量)或示例中的其他分类功能来改进分类器。我的想法是仅从单词袋中将功能添加到稀疏输入功能中。但是,这会导致测试和训练集的性能变差。附加功能本身可以在测试装置上提供大约80%的F-1,因此它们不是垃圾。扩展功能也没有帮助。我目前的想法是,这类功能与(稀疏的)单词功能组合得不太好。 所以问题是:假设附加功能提供了附加信息,那么将它们合并的最佳方法是什么?是否可以训练单独的分类器并将它们组合在一起以进行某种整体工作(这可能会有一个缺点,即无法捕获不同分类器的特征之间的交互)?我还应该考虑其他更复杂的模型吗?

4
我应该使用哪种统计模型来分析单个事件影响纵向数据的可能性
我试图找到一种公式,方法或模型来分析特定事件影响某些纵向数据的可能性。我很难弄清楚在Google上搜索什么。 这是一个示例方案: 您拥有一家每天平均有100个客户的公司。有一天,您决定要增加每天到达商店的客源客户的数量,因此您会在商店外进行疯狂的表演以引起注意。在下一周,您平均每天会看到125位客户。 在接下来的几个月中,您再次决定要获得更多的业务,也许还要维持更长的时间,因此您尝试其他一些随机的事情来在商店中吸引更多的客户。不幸的是,您不是最佳的营销人员,您的某些策略几乎没有效果,甚至没有效果,有些甚至产生了负面影响。 我可以使用哪种方法来确定任何一个单独事件正面或负面地影响到门顾客数量的可能性?我完全意识到关联并不一定等于因果关系,但是在特定事件发生之后,我可以使用哪些方法来确定您的业务在客户日常活动中可能增加或减少? 我不希望分析您尝试增加无障碍顾客数量之间是否存在关联,而是要分析一个事件是否独立于其他事件是否具有影响力。 我意识到这个示例是非常人为的和简单的,因此,我还将简要介绍一下我正在使用的实际数据: 我正在尝试确定特定的市场营销代理商在发布新内容,进行社交媒体宣传等活动时对其客户的网站的影响。对于任何一个特定的代理商,他们可能拥有1至500个客户。每个客户拥有的网站范围从5页到超过一百万个不等。在过去的5年中,每个代理商都为每个客户注释了他们的所有工作,包括已完成的工作类型,受影响的网站页面数量,花费的时间等。 使用我已经组装到数据仓库中的上述数据(放入一堆星型/雪花模式),我需要确定任何一件工作(及时发生的任何事件)对以下项目产生影响的可能性:流量触及受特定作品影响的任何/所有页面。我已经为网站上找到的40种不同类型的内容创建了模型,这些模型描述了从发布日期到现在,具有所述内容类型的页面可能遇到的典型流量模式。相对于适当的模型进行规范化之后,我需要确定由于特定工作而获得的特定页面所增加或减少的访问者的最高和最低数量。 虽然我有基本数据分析(线性和多元回归,相关性等)的经验,但我对如何解决这个问题一无所知。过去,我通常使用给定轴的多次测量数据来分析数据(例如,温度,口渴和动物之间的关系,并确定温度升高对动物的口渴的影响),但我觉得上面我正在尝试分析影响非线性但可预测(或至少可建模)的纵向数据集在某个时间点的单个事件的统计。我很沮丧:( 任何帮助,提示,指示,建议或指示都将非常有帮助,我将永远感激不已!

2
为什么将ReLU用作激活功能?
激活函数用于w * x + b在神经网络的类型的线性输出中引入非线性。 对于激活功能(例如Sigmoid),我能够直观地理解。 我了解ReLU的优势,它可以避免反向传播过程中死亡的神经元。但是,我无法理解为什么ReLU的输出为线性时为什么将其用作激活函数? 如果不引入非线性,激活函数的全部意义就不会被破坏吗?

1
处理经度/纬度特征的方法
已关闭。这个问题需要细节或说明。它当前不接受答案。 想改善这个问题吗?添加详细信息并通过编辑此帖子来澄清问题。 3年前关闭。 我正在研究具有25个功能的虚构数据集。其中两个功能是地点的纬度和经度,其他功能是pH值,海拔高度,windSpeed等变化范围的功能。我可以对其他要素进行归一化,但是如何处理纬度/经度要素? 编辑:这是预测农业产量的问题。我认为纬度/经度非常重要,因为位置在预测中至关重要,因此造成了困境。

1
如何决定神经网络架构?
我想知道如何确定隐藏层中有多少个节点,以及在构建神经网络体系结构时要放置多少个隐藏层。 我了解输入和输出层取决于我们拥有的训练集,但是总体上我们如何确定隐藏层和整体体系结构?



4
什么时候使用曼哈顿距离与欧几里得距离相反?
我正在尝试寻找一个很好的论据,说明为什么在机器学习中为什么要使用曼哈顿距离而不是欧几里得距离。 到目前为止,我发现与一个很好的论点最接近的事情是在麻省理工学院的这次演讲中。 在36:15,您可以在幻灯片上看到以下语句: “通常使用欧几里德度量;如果不同维度之间不具有可比性,则曼哈顿可能是合适的。 ” 在教授说之后不久,由于爬行动物的腿数从0到4变化(而其他特征是二进制的,仅从0到1变化),因此“腿数”特征最终将具有更高的特征如果使用欧氏距离,则为重量。果然,这确实是对的。但是如果使用曼哈顿距离,也会有一个问题(只是因为我们不会像欧几里德距离那样对差进行平方处理,所以该问题会得到稍微缓解)。 解决上述问题的一种更好的方法是将“支路数”特征规格化,以便其值始终在0到1之间。 因此,由于有更好的解决方法,至少在我看来,在这种情况下使用曼哈顿距离的论点缺乏要点。 有人真的知道为什么以及何时有人会在欧几里得上使用曼哈顿距离吗?谁能给我一个使用曼哈顿距离会产生更好结果的例子吗?

1
如何使用keras处理多类分类中的字符串标签?
我是机器学习和keras的新手,现在正在使用keras处理多类图像分类问题。输入的是带标签的图像。经过一些预处理后,训练数据在Python列表中表示为: [["dog", "path/to/dog/imageX.jpg"],["cat", "path/to/cat/imageX.jpg"], ["bird", "path/to/cat/imageX.jpg"]] “狗”,“猫”和“鸟”是类标签。我认为应该使用一站式编码解决此问题,但是我对如何处理这些字符串标签不是很清楚。我已经尝试过sklearn的LabelEncoder(): encoder = LabelEncoder() trafomed_label = encoder.fit_transform(["dog", "cat", "bird"]) print(trafomed_label) 输出是[2 1 0],这与我对[[1,0,0],[0,1,0],[0,0,1]]之类的东西的期望输出不同。可以通过一些编码来完成,但是我想知道是否有某种“标准”或“传统”方式来处理它?

7
如何根据以前的时间序列数据预测流量?
如果我有一家零售商店,并且有办法衡量每分钟有多少人进入我的商店,并对数据加盖时间戳,我如何预测未来的人流量? 我研究过机器学习算法,但不确定使用哪种算法。在我的测试数据中,与我尝试过的其他方法(例如KNN(我认为是合理的参数和距离函数))相比,逐年趋势更为准确。 似乎这似乎与财务模型类似,您可以在其中处理时间序列数据。有任何想法吗?

2
深度学习中的局部极小值与鞍点
我听过Andrew Ng(不幸的是,在视频中我找不到)谈论关于深度学习问题中的局部最小值的理解已经发生了改变,因为它们现在被认为问题较少,因为在高维空间中(遇到深度学习),关键点更有可能是鞍点或平稳状态,而不是局部最小值。 我看过一些论文(例如本篇论文)讨论了“每个局部最小值都是一个全局最小值”的假设。这些假设都是相当技术性的,但是据我了解,它们倾向于在神经网络上施加某种使其线性的结构。 在深度学习(包括非线性体系结构)中,高原比局部极小概率更有可能是正确的说法吗?如果是这样,它背后是否有(可能是数学上的)直觉? 关于深度学习和鞍点,有什么特别之处吗?

4
S形函数在神经网络中的作用导数
我试图了解S型函数的导数在神经网络中的作用。 首先,我绘制了sigmoid函数,并使用python定义了所有点。该衍生物的确切作用是什么? import numpy as np import matplotlib.pyplot as plt def sigmoid(x): return 1 / (1 + np.exp(-x)) def derivative(x, step): return (sigmoid(x+step) - sigmoid(x)) / step x = np.linspace(-10, 10, 1000) y1 = sigmoid(x) y2 = derivative(x, 0.0000000000001) plt.plot(x, y1, label='sigmoid') plt.plot(x, y2, label='derivative') plt.legend(loc='upper left') plt.show()


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.