统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


6
基于t-SNE的输出进行聚类
我有一个应用程序,在寻找嘈杂的数据集之前,可以方便地将一个嘈杂的数据集聚类。我首先研究了PCA,但是要达到90%的可变性需要大约30个组件,因此仅在几台PC上进行群集将丢弃很多信息。 然后,我尝试了t-SNE(第一次),这给了我一个二维的奇怪形状,非常适合通过k均值聚类。而且,在数据上运行随机森林并以集群分配作为结果表明,就问题原始情况而言,就组成原始数据的变量而言,集群具有相当合理的解释。 但是,如果我要报告这些集群,该如何描述它们?主成分上的K均值聚类揭示了根据组成数据集中方差X%的派生变量彼此相邻的个体。关于t-SNE集群可以做出什么等效的表述? 可能会产生以下效果: t-SNE揭示了潜在的高维流形中的近似连续性,因此在高维空间的低维表示上的聚类最大化了连续个体不会在同一聚类中的“可能性” 有人能提出比这更好的宣传吗?

9
数学家希望获得等同于质量统计程度的知识
我知道人们喜欢关闭重复项,因此我不要求参考来开始学习统计信息(如此处)。 我拥有数学博士学位,但从未学过统计学。顶尖的BS统计学位获得等效知识的最短途径是什么,当我达到这一水平时如何衡量。 如果一本书的清单就足够了(假设我做练习可以说),那就太好了。是的,我希望解决问题是学习它的一个隐含部分,但我想尽可能快地实现快速跟踪。除非这是统计学专业人士通常会学到的内容,否则我不会寻求严格的治疗。

7
统计中的“大问题”是什么?
数学有其著名的“ 千年问题”(从历史上讲是希尔伯特的23题),这些问题有助于塑造这个领域的方向。 但是,我不知道黎曼假设和P对NP的统计量是多少。 那么,统计中最重要的开放性问题是什么? 编辑添加: 作为我所寻找答案的一般精神(如果不是很具体)的一个示例,我在David Donoho的“ 21世纪数学挑战”会议上找到了灵感来自“希尔伯特23”的演讲:高维度数据分析:维度的诅咒和祝福 因此,一个潜在的答案可能涉及大数据及其重要性,高维数据所面临的统计挑战的类型,以及需要开发的方法或需要回答的问题才能帮助解决问题。
77 history 



3
特征选择和交叉验证
我最近在这个站点(@ Aniko,@ Dikran Marsupial,@ Erik)和其他地方阅读了很多有关交叉验证时出现过拟合问题的信息-(Smialowski等人2010 Bioinformatics,Hastie,统计学习元素)。建议是,在使用交叉验证(或其他模型估计方法,例如自举)的模型性能估计之外执行的任何监督特征选择(使用与类标签的相关性)都可能导致过度拟合。 这对我来说似乎并不直观-当然,如果选择一个功能集,然后使用交叉验证仅使用选定的功能评估模型,那么您将获得对这些功能的广义模型性能的无偏估计(假设所研究的样本具有代表性)人口)? 通过此过程,当然不能要求一个最佳功能集,但可以将未看到的数据上所选功能集的性能报告为有效吗? 我接受基于整个数据集选择功能可能会导致测试集和训练集之间的数据泄漏。但是,如果在初始选择之后功能部件集是静态的,并且没有进行其他调整,那么报告交叉验证的性能指标是否有效? 就我而言,我有56个要素和259个案例,因此#cases> #features。这些特征来自传感器数据。 抱歉,我的问题似乎是派生的,但这似乎是需要澄清的重要点。 编辑: 在上面详细描述的数据集上通过交叉验证实现特征选择(由于下面的答案),我可以确认在此数据集中交叉验证之前选择特征引入了重要意义偏压。与2类配方相比,这种偏倚/过度拟合对于3类配方而言最大。我认为我使用逐步回归进行特征选择的事实加剧了这种过度拟合的现象。为了进行比较,在另一个但相关的数据集上,我将交叉验证之前执行的顺序正向特征选择例程与我先前在CV中使用特征选择所获得的结果进行了比较。两种方法之间的结果没有显着差异。这可能意味着逐步回归比顺序FS更容易过度拟合,或者可能是此数据集的怪癖。


1
帮助我了解支持向量机
我了解支持向量机旨在将输入集分为几个不同类的基础知识,但是我不了解其中的一些细节。首先,我对Slack变量的使用有些困惑。他们的目的是什么? 我正在做一个分类问题,在该问题中,我从放在鞋垫上的传感器捕获了压力读数。在记录压力数据的同时,受试者将坐,站和走几分钟。我想训练一个分类器,以便能够确定一个人是坐着,站着还是走着,并能够对将来的任何测试数据进行分类。我需要尝试哪种分类器?对我来说,从捕获的数据中训练分类器的最佳方法是什么?我有1000个坐,站和行走条目(总计3x1000 = 3000),并且它们都具有以下特征向量形式。(来自传感器1的压力,来自传感器2的压力,来自传感器3的压力,来自传感器4的压力)

6
在机器学习中执行交叉验证时为“最终”模型选择特征
我对功能选择和机器学习有些困惑,我想知道您是否可以帮助我。我有一个微阵列数据集,该数据集分为两组并具有1000多个特征。我的目标是获得签名中的少量基因(我的特征)(10-20个),从理论上讲,我可以将其应用于其他数据集以对这些样本进行最佳分类。由于我没有那么多样本(<100),因此我没有使用测试和训练集,而是使用了留一法交叉验证来确定稳健性。我读过,应该对样本的每一部分进行特征选择,即 选择一个样本作为测试集 在其余样本上执行特征选择 使用所选功能将机器学习算法应用于剩余样本 测试测试集是否正确分类 转到1。 如果这样做,您每次可能会获得不同的基因,那么如何获得“最终”最优基因分类器呢?即第6步是什么。 我的意思是最理想的是任何进一步研究都应使用的基因集合。例如,假设我有一个癌症/正常数据集,我想找到将根据SVM对肿瘤类型进行分类的前10个基因。我想知道可以在进一步实验中使用的基因集和SVM参数,以查看其是否可以用作诊断测试。


5
请解释等待的悖论
几年前,我设计了一种辐射探测器,该探测器通过测量事件之间的间隔而不是对事件进行计数来工作。我的假设是,在测量非连续样本时,平均而言,我将测量实际间隔的一半。但是,当我用校准过的信号源测试电路时,读数的因数太高了两个,这意味着我一直在测量整个间隔。 在关于概率和统计的一本旧书中,我找到了关于“等待的悖论”的部分。它提供了一个示例,其中公交车每15分钟到达公交车站,一名乘客随机到达,它表示乘客平均等待整整15分钟。我一直无法理解示例提供的数学知识,并继续寻找解释。如果有人能解释为什么会这样,以便乘客等待整个间隔,我会睡得更好。

3
套索为什么提供变量选择?
我一直在阅读《统计学习的元素》,我想知道为什么套索不能提供变量选择,而岭回归却不提供。 两种方法都将残差平方和最小化,并对参数的可能值具有约束。对于套索,约束是,而对于山脊,约束是,对于某些。ββ\beta| | β | | 2 ≤ 吨吨||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt 我已经看过这本书中的菱形与椭圆形图片,对于套索为什么会碰到约束区域的角点,我有一些直觉,这意味着系数之一设置为零。但是,我的直觉很弱,我没有被说服。它应该很容易看到,但是我不知道为什么这是真的。 因此,我想我正在寻找数学上的证明,或者是对为什么残留平方和的轮廓可能会击中约束区域的角的直观解释 (而这种情况不太可能发生,约束是)。| | β | | 2||β||1||β||1||\beta||_1||β||2||β||2||\beta||_2


3
诊断逻辑回归?
对于线性回归,我们可以检查诊断图(残差图,普通QQ图等),以检查是否违反了线性回归的假设。 对于逻辑回归,我很难找到解释如何诊断逻辑回归模型合适的资源。挖掘一些GLM的课程笔记,它只是指出检查残差对进行Logistic回归拟合的诊断没有帮助。 环顾互联网,似乎还有各种“诊断”程序,例如检查模型偏差和执行卡方检验,但其他消息来源指出这是不合适的,您应该执行Hosmer-Lemeshow拟合优度测试。然后,我发现其他来源指出该测试可能高度依赖于实际的分组和截止值(可能不可靠)。 那么如何诊断逻辑回归拟合呢?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.