Questions tagged «beginner»

对于与数据科学或其任何相关子域入门有关的问题。

3
RNN vs CNN的高水平
我一直在考虑递归神经网络(RNN)及其变种以及卷积神经网络(CNN)及其变种。 这两点是否可以公平地说: 使用CNN将组件(例如图像)分解为子组件(例如图像中的对象,例如图像中对象的轮廓等) 使用RNN创建子组件的组合(图像标题,文本生成,语言翻译等) 如果有人想指出这些陈述中的任何错误之处,我将不胜感激。我的目标是在CNN和RNN的使用上建立更清晰的基础。

8
为什么互联网公司在数据科学家工作中更喜欢Java / Python?
我在数据科学家的职位描述中多次看到要求Python / Java经验而无视R的情况。以下是我从我通过Linkedin申请的一家公司的首席数据科学家那里收到的一封个人电子邮件。 X,感谢您的联系和表达兴趣。您确实具有良好的分析技能。但是,由于我们是互联网/移动组织,所以我们所有的数据科学家都必须具备Java / Python方面的良好编程技能,并且我们所做的一切都是在线的。 尽管我尊重首席数据科学家的决定,但我无法清楚地了解Python可以完成R无法完成的任务。有人愿意详细说明吗?实际上,我很想学习Python / Java,请提供更多细节。 编辑:我在Quora上找到了一个有趣的讨论。 为什么Python是数据科学家的首选语言? Edit2:来自Udacity的有关机器学习的语言和库的博客

1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

2
如何应对季节性或其他模式变化的时间序列?
背景 我正在研究电度表读数的时间序列数据集。系列的长度因米而异-有的我有几年,有的则只有几个月,等等。许多都表现出明显的季节性,并且通常是多层的-在一天,一周或一年之内。 我一直在努力的事情之一就是这些时间序列的聚类。目前,我的工作是学术性的,在我也对数据进行其他分析时,我有一个特定的目标来进行一些聚类。 我做了一些初步工作,计算了各种功能(周末与工作日使用的百分比,不同时间段使用的百分比,等等)。然后,我继续着眼于使用动态时间规整(DTW)获得不同序列之间的距离,以及基于差值进行聚类,并且发现了与此相关的几篇论文。 题 特定系列的季节性变化会导致我的聚类不正确吗?如果是这样,我该如何处理? 我担心的是,在时间序列中的模式已更改的情况下,DTW获得的距离可能会产生误导。这可能导致不正确的群集。 如果以上不清楚,请考虑以下示例: 例子1 仪表从午夜到晚上8点具有较低的读数,然后读数在接下来的一个小时内急剧增加,从上午9点直到5PM保持较高的读数,然后在接下来的一个小时内急剧下降,然后从6PM直到午夜保持较低的读数。仪表连续数月每天都保持这种模式,但随后变为一天中读数始终保持在恒定水平的模式。 例子2 仪表显示每个月消耗的能量大致相同。几年后,它变成一种模式,在夏季,能源使用量较高,然后恢复到正常水平。 可能的方向 我想知道是否可以继续比较整个时间序列,但是如果模式发生很大变化,可以将它们分开并考虑为一个单独的序列。但是,为此,我需要能够检测到此类更改。另外,我只是不知道这是合适的方法还是处理数据。 我还考虑过拆分数据并将其视为许多单独的时间序列。例如,我可以将每天/米的组合视为一个单独的系列。但是,如果我想考虑每周/每月/每年的模式,则需要做类似的事情。我认为这行得通,但可能会很繁重,如果我找不到更好的方法,我不愿意走这条路。 进一步说明 这些是评论中出现的事情,或者由于评论而我想到的事情,这可能是相关的。我把它们放在这里,这样人们就不必阅读所有内容来获取相关信息。 我正在使用Python工作,但是在R更适合的地方使用了rpy。不过,我不一定要寻找Python答案-如果有人对应该做什么有实际的答案,我很乐意自己找出实现细节。 我有很多工作的“草稿”代码-我已经完成了一些DTW运行,已经完成了几种不同类型的集群,等等。我想我在很大程度上理解了我的发展方向以及我的目标。我真正寻找的是与我在查找距离,运行聚类等之前处理数据的方式有关。鉴于此,我怀疑答案是相同的,无论是通过DTW还是通过更简单的欧氏距离(ED)计算序列之间的距离。 我发现这些论文特别有助于您了解时间序列和DTW,如果需要主题领域的某些背景知识,它们可能会有所帮助:http : //www.cs.ucr.edu/~eamonn/selected_publications.htm

3
使用深度学习库从文本中提取关键字/短语
也许这太广泛了,但是我正在寻找有关如何在文本摘要任务中使用深度学习的参考。 我已经使用标准的词频方法和句子排序来实现文本摘要,但是我想探索使用深度学习技术来完成此任务的可能性。我还通过使用卷积神经网络(CNN)进行情感分析,在wildml.com上进行了一些实现;我想知道如何使用TensorFlow或Theano等库进行文本汇总和关键字提取。自从我开始尝试神经网络以来已经过去了大约一周的时间,我非常高兴地看到这些库的性能与我以前解决此问题的方法相比如何。 我特别在寻找一些有趣的论文和与使用这些框架进行文本汇总有关的github项目。谁能提供一些参考资料给我?

3
如何自学数据科学?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 4年前关闭。 我是一名自学成才的Web开发人员,并且对自学数据科学感兴趣,但是我不确定如何开始。特别是,我想知道: 数据科学有哪些领域?(例如,人工智能,机器学习,数据分析等) 人们可以推荐在线课程吗? 是否有可供我练习的项目(例如,开放数据集)。 我可以申请或完成认证吗?

5
开源数据科学项目做出贡献
对开源项目的贡献通常是一种很好的方式,可以让新手有所实践,并为经验丰富的数据科学家和分析人员尝试一个新领域。 您贡献哪些项目?请在Github上提供一些介绍+链接。

2
在没有特定主题知识的情况下,数据科学作为职业值得追求吗?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为Data Science Stack Exchange 的主题。 5年前关闭。 最近,我与某人进行了交谈,并提到了我对数据分析的兴趣以及我打算学习必要的技能和工具的人。他们向我建议,虽然学习工具和建立技能很棒,但除非我在特定领域具有专门知识,否则这样做毫无意义。 他们的基本结论是,我就像一个拥有大量工具的建筑商,可以建造一些木箱,并且可以建造更好的东西(客舱,橱柜等),但是如果没有特定领域的知识,我永远不会成为建筑商,人们会去找特定的产品。 有没有人找到这个或对此有什么投入?似乎确实如此,人们将不得不学习事物的数据科学方面,然后学习一个新的领域以变得专业化。

7
我是一名程序员,如何进入数据科学领域?
首先,这个词听起来很晦涩。 无论如何..我是一名软件程序员。我可以编码的语言之一是Python。说到数据,我可以使用SQL并可以进行数据收集。在阅读了很多文章之后,我到目前为止所得出的结论是Data Science擅长: 1-统计 2-代数 3-数据分析 4-可视化。 5-机器学习。 我到目前为止所知道的: 1- Python编程2- Python中的数据抓取 您能为我提供指导还是提出重新规划理论和实践的路线图?我给了自己大约8个月的时间。
13 beginner  career 

3
非结构化文本分类
我将对非结构化文本文档进行分类,即结构未知的网站。我要分类的课程数量有限(目前,我相信不超过三个)。有人对我的入门提出建议吗? 在这里“言语袋”方法可行吗?后来,我可以基于文档结构(也许是决策树)添加另一个分类阶段。 我对Mahout和Hadoop有点熟悉,所以我更喜欢基于Java的解决方案。如果需要,我可以切换到Scala和/或Spark引擎(ML库)。

4
我应该使用哪些初始步骤来理解大型数据集,以及应该使用哪些工具?
警告:关于机器学习,我是一个完整的初学者,但渴望学习。 我有一个很大的数据集,我试图在其中找到模式。数据之间可能存在/不存在相关性,或者与已知变量相关,或者与数据中包含的变量相关,但是我尚未意识到它们实际上是变量/相关的。 我猜想这将是数据分析领域中一个熟悉的问题,所以我有几个问题: “银弹”将把所有这些数据都放入统计/数据分析程序中,并处理数据以寻找已知/未知模式以寻找关系。SPSS是否合适,或者是否存在其他更合适的应用程序。 我应该学习R之类的语言,并弄清楚如何手动处理数据。这样就不会像我必须手动指定要分析数据的方式以及如何分析这些关系那样使查找关系变得困难。 专业数据挖掘者将如何解决此问题,他/他将采取什么步骤?

1
使用R构建决策树时,是否需要规范化数据?
因此,本周我们的数据集具有14个属性,每列具有非常不同的值。一列的值小于1,而另一列的值从三到四个整数。 上周我们学习了归一化,似乎您应该对数据具有非常不同的值进行归一化。对于决策树,情况是否相同? 我对此不确定,但归一化会影响来自同一数据集的结果决策树吗?似乎不应该,但是...
10 r  beginner 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.