数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答

4
数据集大小的过度拟合/不足拟合
在下图中, x轴=> 数据集大小 y轴=> 交叉验证得分 红线用于培训数据 绿线用于测试数据 在我所指的教程中,作者说红线和绿线重叠的点表示, 收集更多数据不太可能提高泛化性能,并且我们处于一个可能无法适应数据的区域。因此,尝试使用容量更大的模型是有意义的 我不太理解粗体字的含义以及它的发生方式。 感谢任何帮助。


1
SVM中的正则化参数的直觉
在SVM中改变正则化参数如何改变不可分离数据集的决策边界?视觉上的答案和/或对限制行为的一些评论(对于大大小小的正则化)将非常有帮助。
11 svm 

6
Excel是否足以进行数据科学?
我正在准备使用R编程语言教授数据科学入门课程。我的听众是商业专业的本科生。典型的商业本科生没有任何计算机编程经验,但是参加了一些使用Excel的课程。 我个人对R(或其他编程语言)非常满意,因为我主修计算机科学。但是,我感到我的许多学生会对学习编程语言感到戒心,因为这对他们来说似乎很困难。 我确实对Excel有一定的了解,我相信Excel虽然可以用于简单的数据科学,但学生有必要学习一种严肃的数据科学编程语言(例如R或Python)。我该如何使自己和学生相信Excel不足以作为一名认真的商科学生学习数据科学,并且他们必须学习一些编程知识? 编辑以回应评论 以下是我将要介绍的一些主题: 数据处理和数据清理 如何操作数据表,例如,选择行的子集(过滤器),添加新变量(变异),按列对行进行排序 SQL使用dplyr包进行联接 如何使用ggplot2包绘制图(散点图,条形图,直方图等) 如何估计和解释统计模型,例如线性回归,逻辑回归,分类树和k最近邻 因为我不太了解Excel,所以我不知道所有这些任务是否都可以在Excel中轻松完成。


2
线性回归和数据缩放
下图显示了通过线性回归获得的系数(以mpg作为目标变量,所有其他作为预测变量)。 对于mtcars数据集(此处和此处),无论是否缩放数据: 如何解释这些结果?仅当数据缩放后,变量hp和disp才有意义。是am和qsec同样重要或am比数量更为重要qsec?一个人应该说哪个变量是重要的决定因素mpg? 感谢您的见解。

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
尽早停止验证损失或准确性?
我目前正在训练神经网络,我无法决定使用哪种方法来实现我的“早期停止”标准:验证损失或在验证集上计算出的诸如准确性/ f1score / auc /之类的指标。 在我的研究中,我发现捍卫这两种观点的文章。Keras似乎默认不接受验证损失,但是对于相反的方法,我也遇到了令人信服的答案(例如here)。 是否有人指示何时最好使用验证损失以及何时使用特定指标?

3
如何使用不固定的分类数据进行分类?
我对分类数据和数值数据都有分类问题。我面临的问题是我的分类数据不固定,这意味着我要预测其标签的新候选者可能具有一个新类别,而该类别之前没有被观察到。 例如,如果我的分类数据为sex,则无论如何female,唯一可能的标签将是male和other。但是,我的分类变量是city这样的,以至于我试图预测的人可能拥有一个我的分类器从未见过的新城市。 我想知道是否有一种方法可以按照这些术语进行分类,或者是否应该考虑这些新的分类数据再次进行培训。

4
这是要素工程的良好做法吗?
我有一个有关功能工程的实际问题...说我想通过逻辑回归来预测房价,并使用了包括邮政编码在内的许多功能。然后,通过检查功能的重要性,我意识到zip是一个很好的功能,因此我决定基于zip添加更多功能-例如,我去了人口普查局,并获得了平均收入,人口,学校数量和数量每个邮局的医院。有了这四个新功能,我现在发现模型性能更好。因此,我添加了更多与zip相关的功能...这个循环一直在进行。最终,模型将由这些与zip相关的功能所主导,对吗? 我的问题: 首先做这些有意义吗? 如果是,我怎么知道什么时候该停止这个周期? 如果没有,为什么不呢?

1
使用RNN(LSTM)进行手势识别系统
我正在尝试构建用于对ASL(美国手语)手势进行分类的手势识别系统,因此我的输入应该是来自摄像机或视频文件的帧序列,然后它检测到该序列并将其映射到对应的帧课堂(睡眠,帮助,饮食,跑步等) 事情是我已经建立了一个类似的系统,但是对于静态图像(不包括运动),它仅在构建CNN是直截了当的任务时才用于翻译字母,这是有用的,因为手不会动太多,并且数据集结构也很容易管理,因为我正在使用keras,也许仍然打算这样做(每个文件夹都包含一组用于特定符号的图像,并且文件夹的名称是该符号的类名,例如:A,B,C ,..) 我的问题是,如何组织我的数据集以便能够将其输入到keras中的RNN中,以及应使用哪些特定函数有效地训练我的模型和任何必要的参数,有些人建议使用TimeDistributed类,但我不这样做对如何使用它有利于我有一个清晰的想法,并考虑到网络中每一层的输入形状。 同样考虑到我的数据集将由图像组成,我可能需要一个卷积层,将conv层组合到LSTM层中是怎么可行的(我的意思是代码)。 例如,我想象我的数据集是这样的 名为“运行”的文件夹包含3个文件夹1、2和3,每个文件夹对应于其序列中的框架 所以RUN_1将包含一些图像集的第一帧,RUN_2第二帧和Run_3第三,我的模型的目标是这个顺序输出字的培训运行。

3
XGboost-由模型选择
我正在使用XGboost预测保险索赔的2类目标变量。我有一个在另一个数据集上运行的模型(交叉验证训练,超参数调整等...)。 我的问题是: 有没有办法知道为什么一个给定的要求会受到一个类别的影响,即解释模型选择的特征? 目的是能够向第三方人员证明机器所做的选择是合理的。 感谢您的回答。
10 xgboost 

5
无监督图像分割
我正在尝试实现一种算法,其中给定一个在平面表上具有多个对象的图像,期望的是每个对象的分割蒙版的输出。与CNN不同,这里的目标是在陌生的环境中检测物体。解决此问题的最佳方法是什么?另外,在线上有任何实施示例吗? 编辑:很抱歉,问题可能有点误导。我所说的“陌生环境”的意思是算法可能不知道对象。该算法不需要了解对象是什么,而应该仅检测对象。我应该如何解决这个问题?

2
尝试使用TensorFlow预测财务时间序列数据
我是ML和TensorFlow的新手(大约几个小时前开始),我正尝试使用它来预测时间序列中的下几个数据点。我正在接受输入,并使用它来执行此操作: /----------- x ------------\ .-------------------------------. | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | '-------------------------------' \----------- y ------------/ 我以为我在做的是将x用作输入数据,将y用作该输入的期望输出,因此,给定0-6时,我可以得到1-7(尤其是7)。但是,当我使用x作为输入运行图时,得到的预测看起来更像x而不是y。 这是代码(基于本文和本文): import tensorflow as tf import numpy as np import matplotlib.pyplot as plot import pandas as pd import csv def load_data_points(filename): print("Opening CSV …

1
具有一维时间序列的Keras LSTM
我正在学习如何使用Keras,并使用Chollet的Python深度学习中的示例在标记数据集上取得了合理的成功。数据集是〜1000个时间序列,长度为3125,具有3个潜在类别。 我想超越基本的Dense层,该层为我提供了约70%的预测率,并且本书继续讨论LSTM和RNN层。 所有示例似乎都为每个时间序列使用了具有多个功能的数据集,因此我正在努力研究如何实现数据。 例如,如果我有1000x3125时间序列,如何将其输入到SimpleRNN或LSTM层中?我是否缺少有关这些层功能的一些基本知识? 当前代码: import pandas as pd import numpy as np import os from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM, Dropout, SimpleRNN, Embedding, Reshape from keras.utils import to_categorical from keras import regularizers from sklearn.model_selection import train_test_split import matplotlib.pyplot as plt def readData(): # …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.