数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答

2
为什么我们需要处理数据不平衡?
我需要知道为什么我们需要处理数据不平衡问题。我知道如何处理它以及通过上采样或下采样或使用Smote来解决该问题的不同方法。 例如,如果我患一种罕见疾病,即100分之一,而我决定为我的训练集选择一个平衡的数据集,即:50/50样本不会使机器认为50%的患者会疾病?即使比率是100的1。所以 为什么我们需要处理数据不平衡问题? 设定余额的建议比率是多少

4
用神经网络检测异常
我有一个每天生成的大型多维数据集。 与前几天相比,什么是检测任何类型的“异常”的好方法?这是神经网络可以解决的合适问题吗? 任何建议表示赞赏。 附加信息:没有示例,因此该方法应自行检测异常

4
比较不同格式的文档时,TF-IDF和余弦相似度的替代方法
我一直在从事一个小型的个人项目,该项目需要用户的工作技能,并根据这些技能为他们建议最理想的职业。我使用工作清单数据库来实现这一目标。目前,代码的工作方式如下: 1)处理每个职位清单的文本以提取清单中提到的技能 2)对于每个职业(例如“数据分析师”),将针对该职业的工作清单的处理后的文本合并到一个文档中 3)计算职业文件中每种技能的TF-IDF 之后,我不确定应该使用哪种方法根据用户的技能列表对职业进行排名。我见过的最流行的方法是将用户的技能也视为文档,然后计算技能文档的TF-IDF,并使用余弦相似度来计算技能文档与每个文档之间的相似度。职业文件。 这对我来说似乎不是理想的解决方案,因为在比较两个相同格式的文档时,最好使用余弦相似度。因此,TF-IDF似乎根本不适合应用于用户的技能列表。例如,如果用户将其他技能添加到他们的列表中,则每个技能的TF都会下降。实际上,我不在乎用户技能列表中技能的频率是多少—我只是在乎他们是否拥有这些技能(也许他们对这些技能的了解程度如何)。 似乎更好的指标是执行以下操作: 1)对于用户拥有的每种技能,请在职业文档中计算该技能的TF-IDF 2)对于每个职业,将所有用户技能的TF-IDF结果相加 3)根据上述总和来排名职业 我在想这里的正确方法吗?如果是这样,是否有任何算法可以沿这条线运行,但比简单的总和还要复杂?谢谢您的帮助!

3
如何使用RBM进行分类?
目前,我正在使用Restricted Boltzmann Machines,由于我一直在使用它,所以我想尝试用它对手写数字进行分类。 我创建的模型现在是相当不错的生成模型,但是我不知道该如何进一步发展。 在本文中,作者说,在创建了良好的生成模型后,“ 然后使用标记的样本在RBM上训练一个判别式分类器(即线性分类器,支持向量机),并进一步声明”,因为您传播了将数据向量传递到RBM模型的隐藏单元,以获取隐藏单元向量,或对数据进行更高级的表示。问题是我不确定我是否正确。 这是否意味着我要做的就是将输入传播到隐藏的单元,并且我有用于分类的RBM功能? 有人可以向我解释这个过程吗?

2
即使验证损失仍然下降,也可能发生过度拟合吗?
我在Keras中有一个卷积+ LSTM模型,与此类似(参考文献1),我正在用它进行Kaggle竞赛。架构如下所示。我已经在我标记的11000个样本集上进行了训练(两个类别,初始患病率是〜9:1,所以我将1的样本上采样到大约1/1的比例)进行了50个时期的验证,拆分率为20%。有一阵子,但我认为它受到噪音和掉线层的控制。 模型看起来像是在进行出色的训练,最终在整个训练集上得分为91%,但是在对测试数据集进行测试时,绝对是垃圾。 注意:验证准确性高于训练准确性。这与“典型”过度拟合相反。 我的直觉是,考虑到验证的细微差别,该模型仍在设法过于严格地适应输入集而失去概括性。另一个线索是val_acc大于acc,这似乎很可疑。这是最有可能的情况吗? 如果这太适合了,那么增加验证间隔会完全缓解吗,还是我会遇到同样的问题,因为平均而言,每个样本仍会看到整个时期的一半? 该模型: Layer (type) Output Shape Param # Connected to ==================================================================================================== convolution1d_19 (Convolution1D) (None, None, 64) 8256 convolution1d_input_16[0][0] ____________________________________________________________________________________________________ maxpooling1d_18 (MaxPooling1D) (None, None, 64) 0 convolution1d_19[0][0] ____________________________________________________________________________________________________ batchnormalization_8 (BatchNormal(None, None, 64) 128 maxpooling1d_18[0][0] ____________________________________________________________________________________________________ gaussiannoise_5 (GaussianNoise) (None, None, 64) 0 batchnormalization_8[0][0] ____________________________________________________________________________________________________ lstm_16 (LSTM) (None, …

1
简易自驾遥控车的监督学习与强化学习
我正在建造一辆遥控自驾车,很有趣。我正在使用Raspberry Pi作为车载计算机。我正在使用各种插件,例如Raspberry Pi摄像头和距离传感器,以获取有关汽车周围环境的反馈。我正在使用OpenCV将视频帧转换为张量,并且正在使用Google的TensorFlow构建一个复杂的神经网络来学习道路边界和障碍物。我的主要问题是,我应该使用监督学习来教汽车驾驶,还是应该提供目标和罚则并进行强化学习(即,尽可能快地到达B点,而不撞到任何东西并停留在道路边界内)?以下是我提出的利弊清单。 监督学习专家: 学习算法的输入非常简单。汽车学会将视频帧张量和传感器距离读数与前,后和角轮位移相关联 我可以或多或少地教导汽车完全按照我的意愿驾驶(当然,不要过度安装) 之前,我已经做过很多有监督的学习问题,而且这种方法似乎很适合我现有的技能 监督学习的弊端: 目前尚不清楚如何教授速度,并且正确的速度是任意的,只要汽车的行驶速度不会太快而偏离道路。我想我可以在训练中快速开车,但这似乎是一种粗略的方法。也许我可以在训练期间手动添加一个常量变量,该变量对应于该训练课程的速度,然后在部署学习算法时,我根据所需的速度设置此变量? 强化学习的优点: 如果我以赛车别人的自动驾驶汽车为特定目的来制造汽车,那么强化学习似乎是告诉我的汽车“尽可能快地到达那里”的自然方法。 我已经读到RL有时会用于无人驾驶无人机,因此从理论上讲,它应该在汽车中更容易使用,因为我不必担心上下 强化学习的弊端: 我觉得强化学习将需要很多额外的传感器,坦率地说,我的脚踏车内部没有那么多空间,因为它也需要安装电池,Raspberry Pi和面包板 最初,汽车的行为会非常不稳定,以至于它可能会自行毁坏。学习也可能花费不合理的长时间(例如,数月或数年) 以后我不能加入明确的规则,例如,停在玩具红灯前。通过监督学习,我可以将许多SL算法(例如,用于识别交通信号灯的Haar Cascade分类器)合并到可配置的规则引擎中,以在每个视频帧之间进行评估。因此,即使交通信号灯可能不是驾驶算法训练的一部分,如果规则引擎看到了红色的交通灯,它也将能够超越驾驶SL算法。RL似乎太连续了,无法执行此操作(即仅在终端状态下停止) 我没有应用强化学习的丰富经验,尽管我绝对想学习

2
做PCA时要减少多少尺寸?
如何为PCA选择K?K是要向下投影的尺寸数。唯一的要求是不要丢失太多信息。我了解这取决于数据,但我希望更多地了解有关选择K时应考虑哪些特征的简单概述。
12 pca 

1
根据2个功能和事件时间序列对客户进行分类
在设计算法的下一步时,我需要帮助。 由于NDA的原因,我无法透露太多,但我会尽量做到通俗易懂。 基本上,在算法中经过几个步骤之后,我得到了: 对于我拥有的每个客户及其一个月内发生的事件,在第一步中,我将事件分为几类(每位客户将事件分为从1到x等于1到25之间的x的类别,通常,第一类别的事件密度高于其他类别。 我为每个类别和客户创建了一个时间序列,汇总每小时每小时的事件(获取完成这些事件的时间的模式)。我还使用了一些归一化变量,这些变量基于一个人在一个月(30天)内执行至少一个事件的天数,以及在一个事件中至少发生一个事件的天数中至少发生一个事件的天数事件(汇总所有群集)。第一个给了我一个月客户活跃度的比率,第二个给了这个类别与其他类别的权重。 决赛桌看起来像这样 |*Identifier*| *firstCat* | *feature1* | *feature2* | { *(TIME SERIES)* } CustomerID | ClusterID | DaysOver30 | DaysOverTotal | Events9AM Events10AM ... xx | 1 | 0,69 | 0,72 | 0,2 0,13 ... xx | 2 | 0,11 | 0,28 | 0,1 0,45 ... …

1
MinHashing vs SimHashing
假设我有五组要聚类。我了解SimHashing技术在这里描述: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ 可能产生三个集群({A},{B,C,D}和{E}),举例来说,如果其结果是: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 同样,MMDS书籍的第3章中介绍了MinHashing技术: http://infolab.stanford.edu/~ullman/mmds/ch3.pdf 如果其结果是,也可以产生相同的三个聚类: A -> h01 - h02 - h03 B -> h04 - h05 - h06 | C -> h04 - h07 - h08 | D -> h09 - h10 - …


2
航空公司票价-应该使用什么分析方法来检测竞争性的价格制定行为和价格相关性?
我想调查航空公司的定价行为-特别是航空公司对竞争对手定价的反应。 就像我说的那样,我对更复杂的分析的知识是非常有限的,我几乎已经完成了所有基本方法来收集数据的整体视图。这包括简单的图形,这些图形已经有助于识别相似的模式。我也在使用SAS Enterprise 9.4。 但是,我正在寻找一种基于数字的方法。 数据集 我正在使用的(自己)收集的数据集包含大约54.000的车费。每天(每天晚上00:00)在60天的时间范围内收集所有票价。 因此,该时间窗口内的每个票价都会出现次,这要取决于票价的可用性以及航班的出发日期(如果超过了票价的收取日期)。 (如果航班的出发日期是过去的日期,则无法为该航班收取票价)nnn 未经格式化的基本上看起来像这样:(伪数据) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 915.32 …

7
数据科学家的“旧名”是什么?
如今,越来越多地使用“数据科学”和“数据科学家”之类的术语。许多公司正在招聘“数据科学家”。但我认为这不是一项全新的工作。过去已经存在数据,必须有人来处理数据。我猜“数据科学家”一词变得越来越流行是因为它听起来更加花哨和“性感”。过去,数据科学家是如何称呼的?
12 bigdata 

1
哈希技巧-实际发生了什么
当ML算法(例如Vowpal Wabbit或某些因式分解机器赢得点击率竞争(Kaggle))提到功能“散乱”时,这实际上对模型意味着什么?可以说有一个变量表示互联网添加的ID,该变量采用诸如“ 236BG231”之类的值。然后,我了解到此功能已哈希为一个随机整数。但是,我的问题是: 是模型中现在使用的整数,是整数(数字)或 哈希值是否仍然仍然像分类变量一样被一键编码?因此,哈希技巧只是为了以某种方式节省大数据的空间?

3
非结构化文本分类
我将对非结构化文本文档进行分类,即结构未知的网站。我要分类的课程数量有限(目前,我相信不超过三个)。有人对我的入门提出建议吗? 在这里“言语袋”方法可行吗?后来,我可以基于文档结构(也许是决策树)添加另一个分类阶段。 我对Mahout和Hadoop有点熟悉,所以我更喜欢基于Java的解决方案。如果需要,我可以切换到Scala和/或Spark引擎(ML库)。

2
表情符号的情绪数据
为了进行实验,我们希望将嵌入许多推文中的Emoji用作基本事实/训练数据,以便进行简单的定量分析。推文通常过于结构化,NLP无法正常工作。 无论如何,Unicode 6.0中有722个表情符号,Unicode 7.0中可能还会添加250个表情符号。 是否有一个数据库(例如SentiWordNet)包含针对它们的情感注释? (请注意,SentiWordNet的确也允许模棱两可的含义。考虑一下例如funny,这不仅是肯定的:“这听起来很有趣”可能不是肯定的…… ;-)例如,同样适用。但是我不认为这更难表情符号比普通单词更适合...) 另外,如果您有使用它们进行情感分析的经验,我很想听听。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.