Questions tagged «r»

R是一种免费的开源编程语言和软件环境,用于统计计算,生物信息学和图形。

4
R:GPU上的机器学习
是否有用于R的任何机器学习包都可以利用GPU来提高训练速度(类似于python世界中的theano)? 我看到有一个名为gputools的程序包,它允许在gpu上执行代码,但我正在寻找一个更完整的库用于机器学习。

1
删除给定文本中某个字符后的字符串
我有一个像下面这样的数据集。我想删除字符©之后的所有字符。如何在R中做到这一点? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)
15 r  data-cleaning 

5
现代R和/或Python库会使SQL过时吗?
我在办公室工作,其中SQL Server是我们所做的一切工作的骨干,从数据处理到清理再到处理。我的同事擅长编写复杂的功能和存储过程,以系统地处理传入的数据,以便可以对其进行标准化并将其用于报告,可视化和分析项目中。在这里开始之前,除了编写最基本的查询之外,我对SQL的了解很少。我的大部分分析准备工作都是在R中完成的。我的老板坚持说我提高了我的SQL技能,尽管似乎很少有分配工作无法更有效地完成,并且使用R编写的代码行少得多软件包,例如dplyr,data.table和tidyr(仅举几例)。我的问题是-这有意义吗? 几周前,我发现自己面临的任务是获取满足特定条件的表中每一行的列名列表,然后将它们连接成字符串向量。截止日期很紧,当时我遇到了一些障碍,无法完全解决这个问题。我问我的老板,后者又请我的同事编写脚本TSQL来解决问题。当他在研究它时,我想出了一种方法来用R编写一个相当简单的函数并将其应用于数据框。大约两个小时后,我的同事带着他的剧本回来了。至少有75行包含两个嵌套的for循环。我要求他告诉它何时完成运行,他说这需要几个小时。同时,我的R脚本能够在约30秒内循环遍历约45,000条记录。 我是否应该认为R是用于清理和处理数据的更好选择?也许我办公室里的SQL开发人员只是无能为力?我很好奇,是否同时使用R和SQL(或Python和SQL)的人对此有任何想法。
14 python  r  data-cleaning  data  sql 

3
根据索赔数据中的过去状况预测下一个疾病状况
我目前正在使用大量的健康保险理赔数据,其中包括一些实验室和药房理赔。但是,数据集中最一致的信息由诊断(ICD-9CM)和过程代码(CPT,HCSPCS,ICD-9CM)组成。 我的目标是: 确定最有影响力的前体疾病(合并症),例如慢性肾脏疾病等医学疾病; 根据患者过去的病情,确定其患病的可能性(或可能性); 进行与1和2相同的操作,但要进行操作和/或诊断。 最好,结果可以由医生解释 我看过诸如“ 遗产健康奖里程碑”论文之类的东西,并从中学到了很多东西,但是它们专注于预测住院情况。 所以这是我的问题:您认为哪种方法可以很好地解决此类问题?而且,对于学习与医疗保健和临床医学相关的数据科学应用和方法,哪些资源最有用? 编辑#2添加明文表: CKD是目标疾病,“慢性肾脏病”,“。any”表示他们随时都有该疾病,“。isbefore.ckd”表示他们在首次诊断CKD之前患有该疾病。其他缩写对应于由ICD-9CM代码分组标识的其他条件。在导入过程中,此分组在SQL中发生。除Patient_age之外,每个变量都是二进制的。

1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
是否有适用于python的好的即用型语言模型?
我正在为一个应用程序制作原型,我需要一个语言模型来计算一些生成的句子的困惑度。 我可以随时使用经过训练的python语言模型吗?简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架,但找不到我想要的。我知道我可以使用类似: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布,但是我正在一些大型数据集(例如1b单词数据集)上寻找精心设计的模型。我可以真正相信一般领域的结果(不仅是新闻)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
样本外数据过拟合是否具有100%的模型准确性?
我刚刚在认知类.ai上完成了R课程的机器学习,并开始尝试使用随机森林。 我已经通过使用R中的“ randomForest”库制作了一个模型。该模型分为好和坏两个类。 我知道,当模型过拟合时,其自身训练集中的数据表现良好,而样本外数据则表现不佳。 为了训练和测试我的模型,我将完整的数据集混洗并将其分成70%用于训练和30%用于测试。 我的问题是:我对测试集所做的预测获得了100%的准确性。这不好吗?看起来真是太好了。 目的是根据波形相互识别四个波形。数据集的特征是对具有目标波形的波形进行动态时间规整分析的成本结果。

1
Windows中用于R的GPU加速数据处理
我目前正在撰写有关大数据的论文,该论文使我们大量利用R进行数据分析。出于游戏原因,我的电脑中恰巧装有GTX1070。因此,我认为如果可以使用它来加快我的老师正在做的某些事情的处理速度,那真的很酷,但是这样做似乎并不容易。我已经安装了gpuR,CUDA,Rtools和其他一些东西,例如,我可以从基因组表达数据中创建gpuMatrix对象,但是我还没有找到可以同时使用gpuMatrix对象的函数并且还提供了任何明显的性能差异。也许这只是与gpuR程序包固有的局限性有关-其他一些程序包似乎确实在谈论具有听起来像他们在寻找我想要的东西的功能, 几乎所有这些软件包都是专用于Linux的,在Windows中实现对R的GPU支持是否特别困难?还是有其他原因导致Windows中可用的软件包太少?从某种意义上说,我只是很好奇,但是真正发挥作用也很酷。令我惊讶的是,Windows几乎没有可用的功能,通常情况恰恰相反。
11 r  gpu  parallel 


1
R中MLE的Fisher评分v / s坐标下降
R基函数glm()将Fisher评分用于MLE,而glmnet似乎使用坐标下降法来求解相同的方程。坐标下降比费舍尔计分法更省时,因为费舍尔计分法除了计算某些其他矩阵运算外,还计算二阶导数矩阵。这使得执行成本很高,而坐标下降可以在O(np)时间内完成相同的任务。 为什么R基函数使用Fisher评分?与其他优化方法相比,此方法是否有优势?协调血统和费舍尔评分如何比较?我在这个领域比较陌生,因此任何帮助或资源都会有所帮助。

3
在多党系统中使用什么回归来计算选举结果?
我想对议会选举的结果作出预测。我的输出将是每一方收到的百分比。有超过2个参与方,因此逻辑回归不是可行的选择。我可以为每个参与方进行单独的回归,但在那种情况下,结果将在某种程度上彼此独立。它不能确保结果的总和为100%。 我应该使用哪种回归(或其他方法)?是否可以通过特定的库在R或Python中使用此方法?

3
数据可视化以进行模式分析(与语言无关,但首选R)
我想从磁盘映像中绘制字节,以便了解其中的模式。这主要是一项学术任务,因为我几乎可以确定这种模式是由磁盘测试程序创建的,但是无论如何我都希望对其进行反向工程。 我已经知道该模式是对齐的,具有256个字符的周期性。 我可以设想出两种可视化此信息的方式:通过时间查看的16x16平面(3个维度),其中每个像素的颜色是字符的ASCII码,或者每个周期256个像素行(2个维度)。 这是模式的快照(可以看到多个),通过xxd(32x16)可以看到: 无论哪种方式,我都试图找到一种可视化此信息的方法。对于任何人来说,进行信号分析可能都不难,但是我似乎找不到使用开源软件的方法。 我想避免使用Matlab或Mathematica,并且我更喜欢R中的答案,因为我最近一直在学习它,但是无论如何,任何语言都是可以接受的。 更新,2014-07-25:鉴于以下Emre的答案,这是该模式的样子,鉴于该模式的前30MB,以512而不是256对齐(此对齐看起来更好): 任何进一步的想法都欢迎!
11 r  visualization 

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
可视化经常一起购买的物品
我在CSV文件中插入了以下结构的数据集: Banana Water Rice Rice Water Bread Banana Juice 每行表示一起购买的物品的集合。例如,第一行表示的项目Banana,Water和Rice购在一起。 我想创建如下所示的可视化文件: 这基本上是一个网格图,但是我需要一些工具(可能是Python或R),该工具可以读取输入结构并生成类似于上述的图表作为输出。

2
ggvis与ggplot2 + Shiny; 选择哪种进行交互式可视化?
CrossValidated中还有一个类似的问题,我已经阅读了答案。我的问题有点不同。我不想仅可视化我的数据,并且实际上我想可视化的内容都不容易用这两个软件包可视化。 我的绘图上有两组点(坐标)。我想添加边缘并使它类似于图形。如果我有个点,则根据问题的性质,我需要向图中添加边。X ,ÿX,ÿx,y(n / 2 )2ññn(n / 2 )2(ñ/2)2(n/2)^2 然后,我想在绘图中添加一些交互式功能。例如,通过单击一个点(顶点),未连接到此单击的顶点的所有其他顶点必须消失以具有更清晰和集中的图。 我试图找到一个适合我的项目的网络可视化程序包,但似乎它们所有人都使用有关边或节点连接的数据,并基于某些特定的布局算法提供了一个网络。我的数据不一样。我有节点的坐标,我想在它们之间建立一些边缘。在我的数据中,节点具有自己的固定位置,并且不得四处移动。 最后,我将包缩小到ggvis和ggplot2。ggvis除了具有故意设计来生成交互式图外,它还是新的和新鲜的。但是我发现它ggplot2+Shiny也可以产生交互式图。(这是正确的吗?)此外,我发现ggplot2的功能比ggvis:更多样化,更成熟:例如ggplot2具有缩放功能,而ggvis没有缩放功能。更重要的是,随着ggvis发展和变化,我不想花太多时间在一年左右的技术上过时或出现故障的工作上。我认为如果我基于进行编码,就是这种情况ggvis。 现在,您可以评估一下我的选择(ggplot2+shiny),并就可能做我想做的事情向我提出建议吗? 因为我不知道所提到的任何软件包,所以我已经开始ggplot2从Wickham的书中学习,我喜欢它!但是我害怕花几周的时间才能发现,即使是在借助的协助下,这个惊人的方案也无法完成我想做的事情Shiny。 PS:我想将最终代码放在github上,以便可能的用户下载并运行它。因此,我不需要制作Web应用程序,也不需要任何网站或将交互式地图在线。我只需要有一个可以在Rstudio内部运行的交互式绘图。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.