Questions tagged «r»

R是一种免费的开源编程语言和软件环境,用于统计计算,生物信息学和图形。

15
适用于机器学习的Python vs R
我刚刚开始出于学术目的开发机器学习应用程序。我目前正在使用R并对其进行训练。但是,在很多地方,我都看到人们在使用Python。 人们在学术界和工业界使用什么,建议是什么?

1
如何获得两个类别变量与一个类别变量和连续变量之间的相关性?
我正在建立一个回归模型,我需要计算以下内容以检查相关性 2个多级分类变量之间的相关性 多级分类变量和连续变量之间的相关性 多级分类变量的VIF(方差膨胀因子) 我相信在上述情况下使用Pearson相关系数是错误的,因为Pearson仅适用于2个连续变量。 请回答以下问题 哪种相关系数最适合上述情况? VIF计算仅适用于连续数据,那么有什么替代方法? 在使用您建议的相关系数之前,需要检查哪些假设? 如何在SAS&R中实施它们?

9
R语言适合大数据吗
R有许多针对数据分析的库(例如JAGS,BUGS,ARULES等),并在流行的教科书中提到,例如:J.Krusche,Doing Bayesian Data Analysis;B.Lantz,“用R进行机器学习”。 我已经看到将数据集视为大数据的5TB准则。 我的问题是:R是否适合大数据问题中常见的数据量?在具有如此大小的数据集的情况下使用R时,是否有策略要采用?
48 bigdata  r 

9
R编程的IDE替代方案(RStudio,IntelliJ IDEA,Eclipse,Visual Studio)
我使用RStudio进行R编程。我记得其他技术堆栈(例如Visual Studio或Eclipse)中的固态IDE。 我有两个问题: 使用了RStudio以外的其他IDE(请考虑提供一些简短的描述)。 与RStudio相比,它们是否具有明显的优势? 除了编码本身之外,我主要指的是调试/构建/部署功能(因此,文本编辑器可能不是解决方案)。
46 r  tools  rstudio  programming 

7
整理数据的流程
通过对R的数据科学的有限了解,我意识到清除不良数据是准备数据进行分析的非常重要的一部分。 在处理数据之前,是否有任何最佳做法或流程来清理数据?如果是这样,是否有任何实现这些最佳实践的自动化或半自动化工具?
34 r  data-cleaning 

1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
超调XGBoost参数
在处理分类因变量和连续因变量方面,XGBoost一直表现出色。但是,如何为XGBoost问题选择优化的参数? 这是我为最近的Kaggle问题应用参数的方式: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, #changed from default of 8 subsample = 0.5, # 0.7 colsample_bytree = 0.7, # 0.7 num_parallel_tree = 5 # alpha = 0.0001, # lambda = 1 ) clf <- xgb.train( …
27 r  python  xgboost 

5
数据科学项目的VM映像
由于有许多工具可用于数据科学任务,因此安装所有组件并构建完善的系统非常麻烦。 是否有安装了Python,R和其他开源数据科学工具的Linux / Mac OS映像,可供人们立即使用?安装了最新版本的Python,R(包括IDE)和其他开源数据可视化工具的Ubuntu或轻量级操作系统将是理想的选择。我在Google上进行的快速搜索还没有找到。 请让我知道是否有任何东西或者您是否有人为自己创建了一个?我认为某些大学可能拥有自己的VM映像。请分享这样的链接。
24 python  r  tools 

9
任何在线R控制台?
我正在寻找一种语言R的在线控制台。就像我编写代码一样,服务器应该执行并向我提供输出。 类似于网站Datacamp。
24 r  statistics 


6
您如何在R中生成仪表板?
我需要生成定期(每日,每月)的网络分析仪表板报告。它们将是静态的,不需要交互,因此可以将PDF文件作为目标输出。这些报告将混合表格和图表(主要是使用ggplot2创建的迷你图和项目符号图)。考虑一下Stephen Few / Perceptual Edge样式的仪表板,例如: 但适用于网络分析。 关于使用哪些程序包创建这些仪表板报告的任何建议? 我的第一个直觉是使用R markdown和knitr,但也许您找到了更好的解决方案。我似乎找不到从R生成的仪表板的丰富示例。
17 r  visualization 

2
使用协作过滤功能向电影推荐其他功能
我正在尝试使用协作过滤来建立推荐系统。我有通常的[user, movie, rating]信息。我想合并一个附加功能,例如“语言”或“电影时长”。我不确定我可以使用什么技术来解决这个问题。 请在python / R中建议参考或软件包。

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
如何预测xgboost的概率?
下面的预测函数也给出-ve值,因此它不可能是概率。 param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) 我用谷歌搜索,pred_s <- predict(bst, x_mat_s2,type="response") 但没有成功。 题 如何预测概率呢?

4
熊猫现在比data.table快吗?
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping 自2014年以来,未对data.table基准进行更新。我听说某个地方Pandas现在的速度比快data.table。这是真的?有人做过基准测试吗?我以前从未使用过Python,但会考虑切换是否pandas可以击败data.table?
16 python  r  pandas  data  data.table 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.