数据科学 programming

9

R编程的IDE替代方案（RStudio，IntelliJ IDEA，Eclipse，Visual Studio）

我使用RStudio进行R编程。我记得其他技术堆栈（例如Visual Studio或Eclipse）中的固态IDE。我有两个问题：使用了RStudio以外的其他IDE（请考虑提供一些简短的描述）。与RStudio相比，它们是否具有明显的优势？除了编码本身之外，我主要指的是调试/构建/部署功能（因此，文本编辑器可能不是解决方案）。

46 r tools rstudio programming

11

C（或C ++）中的数据科学

我是R语言程序员。我也是一群被认为是数据科学家，但来自CS以外的学科的人。在我作为数据科学家的角色中，这表现得很好，但是，由于我的职业生涯开始R并且仅对其他脚本/网络语言有基本了解，所以我在两个关键领域感到不足：缺乏扎实的编程理论知识。缺乏技术人员在像更快和更广泛使用的语言有竞争力的水平的C，C++并且Java，它可以被利用以提高管道和大数据计算的速度以及创建其中可以更容易地发展成快速DS /数据产品后端脚本或独立应用程序。解决方案当然很简单-继续学习编程，这是我通过注册某些类（当前为C编程）所做的事情。但是，既然我现在开始解决上述问题＃1和＃2，我就CC++问自己“ 像数据科学这样的语言以及对于数据科学来说，这些语言的可行性如何？ ”。例如，我可以非常快速地移动数据并与用户进行很好的交互，但是高级回归，机器学习，文本挖掘和其他更高级的统计操作呢？所以。可以C完成这项工作-哪些工具可用于高级统计，ML，AI和其他数据科学领域？还是我必须放弃C通过调用R脚本或其他语言进行编程而获得的大多数效率？迄今为止，用C，我发现最好的资源是一个叫库鲨鱼，这使C/ C++使用支持向量机，线性回归（未非线性等先进的回归就像多项概率等）以及其他的短名单的能力（很棒）统计功能。

40 machine-learning bigdata statistics programming c

1

为什么xgboost比sklearn GradientBoostingClassifier快得多？

我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树，而GradientBoostingClassifier只处理10棵（！）以1分2秒:(我没有理会试图种植500棵树，因为它会需要几个小时。我使用的是相同的learning_rate，并max_depth设置，见下文。是什么使XGBoost如此之快？它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式？还是“偷工减料”并种植浅树？ ps我知道这个讨论：https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey，但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

5

扩大seaborn热图

我corr()用原始df 创建了df。该corr()DF出来70×70，这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr()，则表格不适合屏幕，并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗？

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

6

Excel是否足以进行数据科学？

我正在准备使用R编程语言教授数据科学入门课程。我的听众是商业专业的本科生。典型的商业本科生没有任何计算机编程经验，但是参加了一些使用Excel的课程。我个人对R（或其他编程语言）非常满意，因为我主修计算机科学。但是，我感到我的许多学生会对学习编程语言感到戒心，因为这对他们来说似乎很困难。我确实对Excel有一定的了解，我相信Excel虽然可以用于简单的数据科学，但学生有必要学习一种严肃的数据科学编程语言（例如R或Python）。我该如何使自己和学生相信Excel不足以作为一名认真的商科学生学习数据科学，并且他们必须学习一些编程知识？编辑以回应评论以下是我将要介绍的一些主题：数据处理和数据清理如何操作数据表，例如，选择行的子集（过滤器），添加新变量（变异），按列对行进行排序 SQL使用dplyr包进行联接如何使用ggplot2包绘制图（散点图，条形图，直方图等）如何估计和解释统计模型，例如线性回归，逻辑回归，分类树和k最近邻因为我不太了解Excel，所以我不知道所有这些任务是否都可以在Excel中轻松完成。

10 programming excel

Questions tagged «programming»