统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


5
大规模文本分类
我想对我的文本数据进行分类。我300 classes每节课有200份培训文档(所以60000 documents in total),这很可能导致非常高的维度数据(我们可能正在寻找超过100万个维度)。 我想在管道中执行以下步骤(只是为了让您了解我的要求): 将每个文档转换为特征向量(tf-idf或vector space model) Feature selection(Mutual Information最好是基于其他标准的) 训练分类(SVM,Naive Bayes,Logistic Regression或Random Forest) 基于训练的分类器模型预测看不见的数据。 所以问题是,我应该使用哪些工具/框架来处理此类高维数据?我知道通常的可疑对象(R,WEKA ...),但据我所知(可能是错误的),可能没有一个可以处理如此大的数据。我还有其他现成的工具吗? 如果必须并行处理,是否应该使用Apache Mahout?看起来它可能还没有提供我需要的功能。 在此先感谢所有。 更新:我环顾了这个网站,R邮件列表和一般的互联网。在我看来,在我的情况下可能出现以下问题: (1)使用R(特别是tm软件包)对数据进行预处理可能不切实际,因为这tm会非常慢。 (2)由于我将需要使用一组R包(预处理,稀疏矩阵,分类器等),因此包之间的互操作性可能会成为问题,并且在将数据从一种格式转换为另一种格式时,可能会产生额外的开销。例如,如果我使用tm(或外部工具,例如WEKA)进行预处理,则需要找出一种方法来将该数据转换为R中的HPC库可以读取的形式。同样,对我来说还不清楚分类程序包是否将直接获取HPC库提供的数据。 我在正确的轨道上吗?更重要的是,我有道理吗?

5
实际使用哪些健壮的相关方法?
我计划进行一次仿真研究,在其中比较几种具有不同分布(偏斜,离群值等)的鲁棒相关技术的性能。对于稳健,我的意思是对a)偏斜分布,b)离群值和c)重尾稳健的理想情况。 除了将Pearson相关性作为基准外,我还想包括以下更可靠的措施: 斯皮尔曼的ρρ\rho 折弯百分比(Wilcox,1994,[1]) 最小体积椭圆形,最小协方差行列式(cov.mve/ cov.mcd与cor=TRUE选项) 温莎相关 当然,还有更多选择(特别是如果您还包括强大的回归技术),但是我想将自己局限于使用最多/很有希望的方法。 现在,我有三个问题(可以只回答一个问题): 我可以/应该包括其他健壮的相关方法吗? 您的领域实际上 使用了 哪些强大的相关技术?(谈到心理研究:除了Spearman的,我从未在技术论文之外见过任何健壮的关联技术。自举技术越来越受欢迎,但到目前为止,其他健壮的统计数据或多或少不存在)。ρρ\rho 您是否已经知道多种相关技术的系统比较? 也可以随意评论上面给出的方法列表。 [1] Wilcox,RR(1994)。百分比弯曲相关系数。心理疗法,59,601-616。

2
GLMNET的重要性不一
我正在研究使用套索作为选择特征并将预测模型与二值目标拟合的方法。以下是我正在尝试使用正则化逻辑回归的方法的一些代码。 我的问题是我得到一组“重要”变量,但是我能够对这些变量进行排序以估计每个变量的相对重要性吗?为此,可以通过绝对值对系数进行标准化(我知道它们通过coef函数以原始可变比例显示)?如果是这样,如何进行(使用x和y的标准偏差)标准化回归系数。 样本代码: library(glmnet) #data comes from #http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic) datasetTest <- read.csv('C:/Documents and Settings/E997608/Desktop/wdbc.data.txt',head=FALSE) #appears to use the first level as the target success datasetTest$V2<-as.factor(ifelse(as.character(datasetTest$V2)=="M","0","1")) #cross validation to find optimal lambda #using the lasso because alpha=1 cv.result<-cv.glmnet( x=as.matrix(dataset[,3:ncol(datasetTest)]), y=datasetTest[,2], family="binomial", nfolds=10, type.measure="deviance", alpha=1 ) #values of lambda used histogram(cv.result$lambda) #plot of …

4
当我们通常使用无信息或主观先验时,贝叶斯框架在解释方面如何更好?
人们经常认为贝叶斯框架在解释(相对于频繁主义者)方面具有很大的优势,因为贝叶斯框架在给定数据而不是频繁主义者框架中的p (x | θ )的情况下计算参数的概率。到目前为止,一切都很好。p (θ | x )p(θ|X)p(\theta|x)p (x | θ )p(X|θ)p(x|\theta) 但是,整个方程式基于: p (θ | x )= p (x | θ )。p (θ )p (x )p(θ|X)=p(X|θ)。p(θ)p(X)p(\theta|x) = {p(x|\theta) . p(\theta) \over p(x)} 在我看来有点可疑,原因有两个: 在许多论文中,通常使用无信息的先验(均匀分布),然后仅使用,因此贝叶斯算法与常客得到的结果相同-那么贝叶斯框架如何更好地解释,当贝叶斯后验概率和常客概率是相同的分布时?它只是产生相同的结果。p (θ | x )= p (x | θ )p(θ|X)=p(X|θ)p(\theta|x) = p(x|\theta) 当使用信息先验时,您会得到不同的结果,但是贝叶斯方法受主观先验的影响,因此整个也具有主观色彩。p (θ | …

1
混合效应模型估计的标准误差应如何计算?
特别是,如何计算线性混合效应模型中固定效应的标准误差(从常识上来说)? 我被认为是典型的估计(,例如Laird和Ware [1982]中提出的估计,将得出SE为的大小被低估了,因为估计的方差成分被视为真实值。Var(β^)=(X′VX)−1Var(β^)=(X′VX)−1{\rm Var}(\hat\beta)=(X'VX)^{-1} 我已经注意到,由R包中的lme和summary函数产生的SE nlme不仅仅等于上述方差-协方差矩阵对角线的平方根。如何计算? 我还给人的印象是,贝叶斯方法使用反伽马先验来估计方差分量。在正确的设置下,这些结果是否与相同lme?


2
深度学习与决策树和提升方法
我正在寻找可以比较和讨论(经验或理论上)的论文或文章: Boosting和决策树算法(例如Random Forests或AdaBoost和GentleBoost)应用于决策树。 与 深度学习方法,例如受限玻尔兹曼机,分层时间记忆,卷积神经网络等。 更具体地说,有人知道在速度,准确性或收敛性方面讨论或比较这两种机器学习方法的文章吗?另外,我正在寻找能够解释或总结第二个模块中的模型或方法之间差异(例如优缺点)的文本。 直接解决这种比较的任何指针或答案将不胜感激。



3
计算R中的百分位等级[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 3年前关闭。 如何将新变量添加到数据框架中,该变量将是变量之一的百分等级?我可以在Excel中轻松完成此操作,但我真的很想在R中执行此操作。 谢谢
18 r  quantiles 


5
用于多层次结构方程建模的R包?
我想测试一个多阶段路径模型(例如,A预测B,B预测C,C预测D),其中所有变量都是嵌套在组中的单个观察值。到目前为止,我已经通过R中的多个独特的多级分析来做到这一点。 我更喜欢使用像SEM这样的技术,该技术可以让我同时测试多个路径(A-> B-> C-> D),并且仍然可以正确处理2级(组中的个人)。 我了解MPLUS可以解决这个问题。我可以使用R包吗?

4
在线性回归中更改零假设
我有一些高度相关的数据。如果我运行线性回归,则会得到一条斜率接近1(= 0.93)的回归线。我想做的是测试此斜率是否与1.0明显不同。我的期望不是。换句话说,我想将线性回归的零假设从零的斜率更改为一的斜率。这是明智的做法吗?我也非常感谢您可以在回答中包含一些R代码,以便我可以实现此方法(或您建议的更好的方法!)。谢谢。

1
Bonferroni还是Tukey?什么时候比较数量变大?
使用SPSS(第三版)阅读Field的发现统计信息我对ANOVA中的事后测试感到有些震惊。对于那些想要控制I型错误率的人,他建议使用Bonferroni或Tukey并说(第374页): 当比较次数较少时,Bonferroni具有更大的功能,而在测试大量均值时,Tukey的功能更为强大。 少量和大量均值之间的界限应该在哪里?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.