数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答

1
学习信号编码
我有大量样本,它们将曼彻斯特编码的比特流表示为音频信号。它们的编码频率很高时,它是主要的频率成分,并且背景中始终有恒定的白噪声。 我已经手动解码了这些流,但是我想知道是否可以使用某种机器学习技术来学习编码方案。这将节省大量手动识别这些方案的时间。困难在于不同的信号被不同地编码。 是否有可能建立一个可以学习解码多个编码方案的模型?这样的模型有多健壮,我想采用哪种技术?独立分量分析(ICA)似乎对隔离我关心的频率有用,但是我将如何学习编码方案?

4
建议文本分类器训练数据集
我可以使用哪些免费数据集来训练文本分类器? 我们正在尝试通过向用户推荐最相关的内容来增强用户的参与度,因此我们认为,如果我们根据预定义的单词袋对内容进行分类,那么我们可以通过获取用户对已经分类的随机帖子数量的反馈来向其推荐内容之前。 我们可以使用此信息为他推荐标有这些类别的豆类。但是我们发现,如果使用与内容无关的预定义词袋,则特征向量将充满零,类别也可能与内容不相关。因此出于这些原因,我们尝试了另一种解决方案,该解决方案将内容分类而不是对其进行分类。 谢谢 :)

1
不使用ILP的关系数据挖掘
我有一个来自关系数据库的庞大数据集,需要为其创建分类模型。通常在这种情况下,我会使用归纳逻辑编程(ILP),但由于特殊情况,我无法做到这一点。 解决此问题的另一种方法是,当我有外交关系时尝试合计价值观。但是,对于某些名义属性,我有成千上万的重要且不同的行(例如:与几种不同的药物处方有关的患者)。因此,如果不为该名义属性的每一行创建一个新属性,我就无法做到这一点,而且如果我这样做的话,大多数新列将具有NULL值。 是否有任何非ILP算法可以让我在不使用数据透视之类的技术的情况下对关系数据库进行数据挖掘,该技术会创建成千上万的新列?

2
使用智能手机数据集问题的人类活动识别
我是这个社区的新手,希望我的问题很适合这里。作为我的本科数据分析课程的一部分,我选择使用智能手机数据集进行有关人类活动识别的项目。就我而言,这个主题与机器学习和支持向量机有关。我对这种技术还不太熟悉,因此我需要一些帮助。 我已决定遵循此项目构想http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html(顶部的第一个项目)该项目的目标是确定一个人的活动根据智能手机(三星Galaxy S II)在对象腰部记录的数据进行(例如,行走,行走,向上,行走,下坐,坐着,站立,躺着)。使用其嵌入式加速度计和陀螺仪,数据包括以50Hz恒定速率的3轴线性加速度和3轴角速度。 所有数据集在一个文件夹中给出,带有一些描述和功能标签。数据分为“测试”和“训练”文件,其中数据以这种格式表示: 2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001 7.1720847e-001 6.3550240e-001 7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001 2.4621698e-001 5.2120364e-001 -4.8779311e-001 4.8228047e-001 -4.5462113e-002 2.1195505e-001 -1.3489443e-001 1.3085848e-001 -1.4176313e-002 -1.0597085e-001 7.3544013e-002 -1.7151642e-001 4.0062978e-002 7.6988933e-002 -4.9054573e-001 -7.0900265e-001 这只是文件包含内容的很小一部分。 我真的不知道这些数据代表什么以及如何解释。另外,对于数据的分析,分类和聚类,我需要使用哪些工具?有什么办法可以将包含标签的数据放入excel,例如使用R或python提取示例数据并进行处理? 任何提示/技巧将不胜感激。

1
如何处理推荐中的隐式数据
推荐系统保留对特定用户做出了哪些推荐以及该用户是否接受该推荐的日志。就像是 user_id item_id result 1 4 1 1 7 -1 5 19 1 5 80 1 其中1表示用户接受了推荐,而-1表示用户未响应推荐。 问题:如果我要根据上述日志类型向一堆用户提出建议,并且想最大化MAP @ 3分数,该如何处理隐式数据(1或-1)? 我的想法是将1和-1视为等级,并使用分解机类型算法预测等级。但是,鉴于隐式数据的不对称性,这似乎并不正确(-1并不意味着用户不喜欢该建议)。 编辑1 让我们在矩阵分解方法的上下文中考虑它。如果我们将-1和1视为评分,则会出现一些问题。例如,用户1喜欢电影A,其在潜在因素空间中在一个因素(例如具有光荣的背景音乐)中得分较高。系统会推荐在“光彩夺目的背景音乐”中得分也很高的电影B,但是由于某种原因,用户1太忙而无法查看推荐,因此我们将电影B评为-1。如果我们将1或-1均等对待,则可能不鼓励系统向用户1推荐具有光荣BGM的电影,而用户1仍然喜欢具有光荣BGM的电影。我认为这种情况应该避免。

1
使用SMOTE技术平衡数据集的最佳性能指标是什么
我使用smote技术对数据集进行过采样,现在有了平衡的数据集。我面临的问题是性能指标;精度,召回率,f1度量,不平衡数据集中的准确性要优于平衡数据集。 我可以使用哪种度量来表明平衡数据集可以改善模型的性能? 注意:平衡数据集中的roc_auc_score比数据集不平衡的roc_auc_score更好吗?是否可以认为它是一个很好的性能衡量指标?经过解释,我实现了代码,并得到了这个结果 import pandas as pd import numpy as np from sklearn import preprocessing import matplotlib.pyplot as plt plt.rc("font", size=14) from sklearn.svm import LinearSVC from sklearn.svm import SVC from sklearn.cross_validation import train_test_split,StratifiedShuffleSplit,cross_val_score import seaborn as sns from scipy import interp from time import * from sklearn import metrics X=dataCAD.iloc[:,0:71] …

1
keras的ModelCheckpoint不起作用
我正在尝试在keras中训练模型,并使用ModelCheckpoint根据监视的验证指标(在我的情况下为Jaccard index)保存最佳模型。 虽然可以在tensorboard中看到模型的改进,但是当我尝试加载权重并评估模型时,它根本无法工作。此外,通过应该存储权重的文件上的时间戳,我可以知道它们根本没有被保存。时间戳大致对应于我开始训练的时间。 有人遇到过这样的问题吗?
8 keras  convnet 

1
分类处理不平衡班级的方法
对已解决不平衡类问题的方法进行分类的最佳方法是什么? 此文章对其进行分类为: 预处理:包括过采样,欠采样和混合方法, 成本敏感型学习:包括直接方法和元学习,后者进一步分为阈值和抽样, 合奏技术:包括对成本敏感的合奏和数据预处理以及合奏学习。 在第二个分类: 数据预处理:包括分布更改和加权数据空间。一类学习被认为是分布的变化。 特殊目的学习方法 预测后处理:包括阈值方法和对成本敏感的后处理 混合方法: 第三篇文章: 数据级方法 算法级方法 混合方法 最后的分类也将输出调整视为独立的方法。 提前致谢。


3
是否有任何机器学习技术来识别地块/图像上的点?
我具有随时间和车道数得出的每辆车横向位置的数据,如以下图像和示例数据中的这3个图所示。 > a Frame.ID xcoord Lane 1 452 27.39400 3 2 453 27.38331 3 3 454 27.42999 3 4 455 27.46512 3 5 456 27.49066 3 横向位置会随时间变化,因为驾驶员无法完全控制车辆的位置。当横向位置急剧变化时,变道操纵开始,当变化再次变为“正常”时,变道操纵结束。无法直接从数据中识别出来。我必须手动查看每辆车的图,以确定车道变更操作的起点和终点,以便估算车道变更的持续时间。但是我在数据集中有成千上万辆汽车。您能否将我引导至可以训练以识别这些点的任何相关图像分析/机器学习算法?我在R工作。

5
主题模型和LDA教程
我想知道你们是否有关于主题模型和LDA的一些很好的教程(快速而直接),直观地讲授如何设置一些参数,它们的含义,并在可能的情况下提供一些真实的例子。

2
当我的训练集中没有y负值时,为什么Gradient Boosting回归预测负值?
当我增加树木的数量在scikit学习的GradientBoostingRegressor,我得到更多的负面预测,即使在我的训练或测试组没有负值。我有大约10个功能,其中大多数是二进制的。 我正在调整的一些参数是: 树木/迭代次数; 学习深度; 和学习率。 负值的百分比似乎最大约为2%。1(树桩)的学习深度似乎是负值的最大百分比。随着树木的增多和学习率的降低,这一百分比似乎也有所增加。该数据集来自kaggle游乐场比赛之一。 我的代码是这样的: from sklearn.ensemble import GradientBoostingRegressor X_train, X_test, y_train, y_test = train_test_split(X, y) reg = GradientBoostingRegressor(n_estimators=8000, max_depth=1, loss = 'ls', learning_rate = .01) reg.fit(X_train, y_train) ypred = reg.predict(X_test)

2
在CNN模型中使用更多图层时出现内存错误
在我的Dell Core i7-16GB RAM-4gb 960m GPU笔记本电脑上,我正在使用3d CNN对肺部CT图像进行分类的项目。我正在使用Tensorflow的CPU版本。图像准备为numpy数组大小(25,50,50)。 我的CNN模型具有2个转换层,2个maxpool层,1个FC层和输出层。通过这种架构,我可以训练大约(5000至6000)个样本的模型。添加更多层后,我的模型现在具有6个转换层,3个最大池层,FC和输出层。我的问题是在更改架构后,仅使用了1000多个样本,我的内存被填满,并且出现内存错误。我试图做较小的批次,但是每次都会出现相同的错误。我有两个问题: 为什么通过添加更多层,模型需要更多内存? 有什么办法可以解决这类问题?


1
关于偏差方差折衷和优化方法的问题
因此,我想知道当面对高偏差或高方差问题时,如何才能最好地优化他们要建立的模型。现在,当然,您可以使用正则化参数来达到令人满意的效果,但是我想知道是否可以不依靠正则化来实现此目的。 如果b是模型的偏差估计量,而v是模型的方差,那么尝试最小化b * v是否有意义?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.