Questions tagged «tools»

8
为什么互联网公司在数据科学家工作中更喜欢Java / Python?
我在数据科学家的职位描述中多次看到要求Python / Java经验而无视R的情况。以下是我从我通过Linkedin申请的一家公司的首席数据科学家那里收到的一封个人电子邮件。 X,感谢您的联系和表达兴趣。您确实具有良好的分析技能。但是,由于我们是互联网/移动组织,所以我们所有的数据科学家都必须具备Java / Python方面的良好编程技能,并且我们所做的一切都是在线的。 尽管我尊重首席数据科学家的决定,但我无法清楚地了解Python可以完成R无法完成的任务。有人愿意详细说明吗?实际上,我很想学习Python / Java,请提供更多细节。 编辑:我在Quora上找到了一个有趣的讨论。 为什么Python是数据科学家的首选语言? Edit2:来自Udacity的有关机器学习的语言和库的博客

9
使用Python进行可重复数据科学的工具和协议
我正在使用Python进行数据科学项目。该项目分为几个阶段。每个阶段包括使用Python脚本获取数据集,辅助数据,配置和参数,以及创建另一个数据集。我将代码存储在git中,以便覆盖该部分。我想听听: 数据版本控制工具。 能够重现阶段和实验的工具。 此类项目的协议和建议的目录结构。 自动化的构建/运行工具。

9
R编程的IDE替代方案(RStudio,IntelliJ IDEA,Eclipse,Visual Studio)
我使用RStudio进行R编程。我记得其他技术堆栈(例如Visual Studio或Eclipse)中的固态IDE。 我有两个问题: 使用了RStudio以外的其他IDE(请考虑提供一些简短的描述)。 与RStudio相比,它们是否具有明显的优势? 除了编码本身之外,我主要指的是调试/构建/部署功能(因此,文本编辑器可能不是解决方案)。
46 r  tools  rstudio  programming 

11
数据科学家会使用Excel吗?
我认为自己是一名熟练的数据科学家。像大多数(我认为)一样,我制作了第一张图表,并使用Excel在高中和大学中进行了第一次汇总。当我上大学,研究生院和大约7年的工作经验时,我很快就选择了我认为是更高级的工具,例如SQL,R,Python,Hadoop,LaTeX等。 我们正在面试一位数据科学家的职位,并且有一位候选人自称是“资深数据科学家”(如今这是一个非常时髦的名词),具有15年以上的经验。当被问到他偏爱的工具集是什么时,他回答说这是Excel。 我以此为依据,证明他没有履历所要求的那样经验丰富,但不确定。毕竟,仅因为它不是我的首选工具,并不意味着它不是其他人的工具。有经验的数据科学家会使用Excel吗?您可以假设主要使用Excel的人缺乏经验吗?
37 tools  career  excel 

5
数据科学项目的VM映像
由于有许多工具可用于数据科学任务,因此安装所有组件并构建完善的系统非常麻烦。 是否有安装了Python,R和其他开源数据科学工具的Linux / Mac OS映像,可供人们立即使用?安装了最新版本的Python,R(包括IDE)和其他开源数据可视化工具的Ubuntu或轻量级操作系统将是理想的选择。我在Google上进行的快速搜索还没有找到。 请让我知道是否有任何东西或者您是否有人为自己创建了一个?我认为某些大学可能拥有自己的VM映像。请分享这样的链接。
24 python  r  tools 


5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 


2
开源工具,可帮助挖掘排行榜得分流
考虑一个包含表示在线游戏中用户分数的元组 的流(user, new_score)。该流每秒可能有100-1,000个新元素。该游戏有200K至300K独特的玩家。 我想提出一些长期的要求,例如: 哪些玩家在一小时的滑动窗口中发布了超过x的分数 哪些玩家在一小时的滑动窗口中获得了x%分数 我的问题是我可以使用哪些开源工具来启动该项目?我目前正在考虑Esper。 注意:我刚刚阅读完“挖掘数据流”(挖掘大量数据集的第4章),并且对挖掘数据流还很陌生。

2
记下实验运行和结果
我是一名研究人员,我喜欢测试可行的解决方案,因此我倾向于进行大量实验。例如,如果我要计算文档之间的相似度得分,则可能要尝试许多措施。实际上,对于每种度量,我可能需要运行几次以测试某些参数的效果。 到目前为止,我一直在跟踪运行输入及其结果,方法是将结果写到文件中,其中包含有关输入的尽可能多的信息。问题是,即使我尝试将输入信息添加到文件名中,检索特定结果有时也成为挑战。我尝试使用包含结果链接的电子表格,但这并没有太大的不同。 您使用什么工具/过程来记录实验?

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
我应该使用哪些初始步骤来理解大型数据集,以及应该使用哪些工具?
警告:关于机器学习,我是一个完整的初学者,但渴望学习。 我有一个很大的数据集,我试图在其中找到模式。数据之间可能存在/不存在相关性,或者与已知变量相关,或者与数据中包含的变量相关,但是我尚未意识到它们实际上是变量/相关的。 我猜想这将是数据分析领域中一个熟悉的问题,所以我有几个问题: “银弹”将把所有这些数据都放入统计/数据分析程序中,并处理数据以寻找已知/未知模式以寻找关系。SPSS是否合适,或者是否存在其他更合适的应用程序。 我应该学习R之类的语言,并弄清楚如何手动处理数据。这样就不会像我必须手动指定要分析数据的方式以及如何分析这些关系那样使查找关系变得困难。 专业数据挖掘者将如何解决此问题,他/他将采取什么步骤?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.