Questions tagged «programming»

9
R编程的IDE替代方案(RStudio,IntelliJ IDEA,Eclipse,Visual Studio)
我使用RStudio进行R编程。我记得其他技术堆栈(例如Visual Studio或Eclipse)中的固态IDE。 我有两个问题: 使用了RStudio以外的其他IDE(请考虑提供一些简短的描述)。 与RStudio相比,它们是否具有明显的优势? 除了编码本身之外,我主要指的是调试/构建/部署功能(因此,文本编辑器可能不是解决方案)。
46 r  tools  rstudio  programming 

11
C(或C ++)中的数据科学
我是R语言程序员。我也是一群被认为是数据科学家,但来自CS以外的学科的人。 在我作为数据科学家的角色中,这表现得很好,但是,由于我的职业生涯开始R并且仅对其他脚本/网络语言有基本了解,所以我在两个关键领域感到不足: 缺乏扎实的编程理论知识。 缺乏技术人员在像更快和更广泛使用的语言有竞争力的水平的C,C++并且Java,它可以被利用以提高管道和大数据计算的速度以及创建其中可以更容易地发展成快速DS /数据产品后端脚本或独立应用程序。 解决方案当然很简单-继续学习编程,这是我通过注册某些类(当前为C编程)所做的事情。 但是,既然我现在开始解决上述问题#1和#2,我就CC++问自己“ 像数据科学这样的语言以及对于数据科学来说,这些语言的可行性如何? ”。 例如,我可以非常快速地移动数据并与用户进行很好的交互,但是高级回归,机器学习,文本挖掘和其他更高级的统计操作呢? 所以。可以C完成这项工作-哪些工具可用于高级统计,ML,AI和其他数据科学领域?还是我必须放弃C通过调用R脚本或其他语言进行编程而获得的大多数效率? 迄今为止,用C,我发现最好的资源是一个叫库鲨鱼,这使C/ C++使用支持向量机,线性回归(未非线性等先进的回归就像多项概率等)以及其他的短名单的能力(很棒)统计功能。

1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

6
Excel是否足以进行数据科学?
我正在准备使用R编程语言教授数据科学入门课程。我的听众是商业专业的本科生。典型的商业本科生没有任何计算机编程经验,但是参加了一些使用Excel的课程。 我个人对R(或其他编程语言)非常满意,因为我主修计算机科学。但是,我感到我的许多学生会对学习编程语言感到戒心,因为这对他们来说似乎很困难。 我确实对Excel有一定的了解,我相信Excel虽然可以用于简单的数据科学,但学生有必要学习一种严肃的数据科学编程语言(例如R或Python)。我该如何使自己和学生相信Excel不足以作为一名认真的商科学生学习数据科学,并且他们必须学习一些编程知识? 编辑以回应评论 以下是我将要介绍的一些主题: 数据处理和数据清理 如何操作数据表,例如,选择行的子集(过滤器),添加新变量(变异),按列对行进行排序 SQL使用dplyr包进行联接 如何使用ggplot2包绘制图(散点图,条形图,直方图等) 如何估计和解释统计模型,例如线性回归,逻辑回归,分类树和k最近邻 因为我不太了解Excel,所以我不知道所有这些任务是否都可以在Excel中轻松完成。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.