统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

4
使用R进行尺寸缩减的t-SNE vs PCA有什么问题?
我有一个336x256浮点数的矩阵(336个细菌基因组(列)x 256个标准化四核苷酸频率(行),例如,每列总计1)。 使用主成分分析运行分析时,我得到很好的结果。首先,我根据数据计算kmeans聚类,然后运行PCA并基于2D和3D中的初始kmeans聚类为数据点着色: library(tsne) library(rgl) library(FactoMineR) library(vegan) # read input data mydata <-t(read.csv("freq.out", header = T, stringsAsFactors = F, sep = "\t", row.names = 1)) # Kmeans Cluster with 5 centers and iterations =10000 km <- kmeans(mydata,5,10000) # run principle component analysis pc<-prcomp(mydata) # plot dots plot(pc$x[,1], pc$x[,2],col=km$cluster,pch=16) # plot …
27 r  pca  tsne 

17
如何用一句话描述统计?
当我第一次开始学习统计学时,诸如t检验,ANOVA,卡方和线性回归之类的程序似乎都是截然不同的生物。但是现在我意识到这些过程或多或少都在做同一件事。同样,诸如方差,残差,标准误差和均值之类的值也或多或少地衡量了同一件事。 因此,我认为所有这些过程和值以及实际上所有的统计信息都可以用一个简单的句子来描述: 期望值是多少,该值附近有什么变化? 期望这个词可以用以下任何一个词代替:假设的,预测的或中心的。 其他人如何用一句话描述统计数据?
27 definition 

4
实验设计中的陷阱:避免死实验
我无数次地引用了此报价: 在实验结束后咨询统计学家通常只是要求他进行验尸检查。他也许可以说实验是怎么死的。- 罗纳德·费舍尔(1938) 在我看来,这似乎有些冒昧。我所发现的唯一描述没有良好设计的实验是如何失败的例子就是缺乏控制或控制不力。例如,控制肥料施用但无法控制施用所需环境的实验。也许只有我一个人,但是快速浏览Wikipedia中有关Fisher的设计原理的部分似乎可以覆盖大多数基础知识。 作为统计学家,您多久会看到与实验相关的数据问题设计?它们是否总是与费舍尔提到的少数因素有关,还是与我们进行非统计培训的科学家应注意的其他严重陷阱有关?




2
如何构建中位数之间差异的95%置信区间?
我的问题是:平行组随机试验的主要结局分布偏右。我不想假设正常,而是使用基于法线的95%CI(即使用1.96 X SE)。 我很乐意将集中趋势的度量表示为中位数,但是我的问题是,如何构建两组之间中位数差异的95%CI。 首先想到的是引导程序(用替换进行重采样,确定两组的中位数,并从另一组中减去一个,重复1000次,并使用偏差校正的95%CI)。这是正确的方法吗?还有其他建议吗?

5
什么会导致PCA恶化分类器的结果?
我有一个要进行交叉验证的分类器,还有一百个要进行正向选择以查找特征的最佳组合的特征。我还将这与PCA进行的相同实验进行了比较,在该实验中,我采用了潜在特征,应用了SVD,将原始信号转换到新的坐标空间,并在前向选择过程中使用了前特征。ķķk 我的直觉是PCA会改善结果,因为信号比原始功能更具“信息性”。我对PCA的幼稚理解是否会使我陷入麻烦?有人能提出PCA在某些情况下可以改善结果,而在另一些情况下却会恶化结果的一些常见原因吗?

7
相关性等于关联吗?
我的统计学教授声称,“相关性”一词严格适用于变量之间的线性关系,而“关联性”一词则广泛适用于任何类型的关系。换句话说,他声称术语“非线性相关”是矛盾的。 从我在Wikipedia上有关“ 相关性和依赖性 ”的文章中可以理解的这一点来看,Pearson相关系数描述了两个变量之间关系的“线性”程度。这表明术语“相关”实际上确实仅适用于线性关系。 另一方面,谷歌快速搜索“ 非线性相关性 ”会发现许多使用该术语的已发表论文。 我的教授是正确的,还是“关联”只是“关联”的同义词?


2
在多层次模型中,估计与不估计随机效应相关参数的实际含义是什么?
在多层次模型中,估计与不估计随机效应相关参数的实际和解释相关的含义是什么?提出此问题的实际原因是,在R中的lmer框架中,当在参数之间的相关性模型中进行估算时,没有通过MCMC技术估算p值的已实现方法。 例如,看这个例子(下面引用的部分),M2与M3的实际含义是什么。显然,在一种情况下不会估计P5,而在另一种情况下会估计。 问题 出于实际原因(希望通过MCMC技术获得p值),即使P5基本不为零,也可能希望在随机效应之间没有相关性的情况下拟合模型。如果执行此操作,然后通过MCMC技术估算p值,结果是否可以解释?(我知道@Ben Bolker之前曾提到过,“虽然从统计学上讲,将显着性测试与MCMC相结合有点不连贯,尽管我理解这样做的冲动(更容易获得置信区间)”,所以,如果这样做会使您睡得更好在晚上假装我说出置信区间。) 如果一个人无法估计P5,是否等于断言它为0? 如果P5确实非零,那么P1-P4的估计值会受到什么影响? 如果P5确实非零,那么P1-P4的误差估计会受到什么影响? 如果P5确实非零,那么以何种方式无法包含P5的模型解释有缺陷? 借用@Mike Lawrence的答案(比我更了解的人可以随意用完整的模型表示法替换它,我并不完全相信我可以以合理的忠诚度做到这一点): M2 :( V1 ~ (1|V2) + V3 + (0+V3|V2)估计P1-P4) M3 :( V1 ~ (1+V3|V2) + V3估计P1-P5) 可以估计的参数: P1:全局拦截 P2:V2的随机效应截距(即,对于V2的每个级别,该级别的截距与全局截距的偏差) P3:对V3的效果(斜率)的单个全局估计 P4:V2的每个级别内的V3效果(更具体地说,给定级别内的V3效果偏离V3的整体效果的程度),同时使跨级别的截距偏差和V3效果偏差之间的相关性为零V2。 P5:跨V2级别的截距偏差和V3偏差之间的相关性 从足够大和广泛的模拟以及使用lmer的R中附带的代码中得出的答案是可以接受的。

4
当主要目标是仅估计少量成分时,PCA或FA的最小样本量?
如果我有一个包含观察值和p个变量(维度)的数据集,并且通常n很小(n = 12 − 16),并且p的范围可能从很小(p = 4 − 10)到更大(p = 30 − 50)。nnnpppnnnn=12−16n=12−16n=12-16pppp=4−10p=4−10p = 4-10p=30−50p=30−50p= 30-50 我记得曾听说过应该大于p才能进行主成分分析(PCA)或因子分析(FA),但似乎在我的数据中可能并非如此。请注意,出于我的目的,我对PC2之后的任何主要组件都不感兴趣。nnnppp 问题: 当可以使用PCA时,最小样本量的经验法则是什么? 即使或n &lt; p,也可以使用前几台PC 吗?n=pn=pn=pn&lt;pn&lt;pn<p 有什么参考吗? 您的主要目标是使用PC1还是可能使用PC2,这有关系吗: 简单地以图形方式,或 作为综合变量,然后用于回归分析?

3
是什么导致发布的p值在p <.05处不连续?
在最近的一篇论文中,Masicampo和Lalande(ML)收集了许多不同研究中发表的大量p值。他们观察到p值直方图在标准临界值5%处出现了奇怪的跳跃。 Wasserman教授的博客上有一个关于ML现象的精彩讨论: http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/ 在他的博客上,您将找到直方图: 由于5%水平是惯例而不是自然法则,是什么导致已发布p值的经验分布的这种行为? 选择偏差,正好在规范临界水平之上的p值的系统“调整”,还是什么?


4
在R中生成视觉上吸引人的密度热图
虽然我知道在R中有一系列用于生成热图的函数,但问题是我无法生成视觉上吸引人的图。例如,以下图像是我要避免的热图的很好示例。第一个明显缺乏细节,而另一个(基于相同的观点)太详细而无法使用。这两个图都是由spatstat R包中的density()函数生成的。 如何获得更多的“流量”?我的目标是获得更多商用SpatialKey(屏幕截图)软件能够产生的外观。 有什么提示,算法,程序包或代码行可以带我朝这个方向前进吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.