统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

6
如何在ROC AUC和F1分数之间进行选择?
我最近完成了一场Kaggle比赛,根据比赛要求使用了roc auc得分。在进行此项目之前,我通常使用f1分数作为衡量模型性能的指标。展望未来,我想知道如何在这两个指标之间进行选择?什么时候使用,它们各自的优缺点是什么? 顺便说一句,我在这里阅读了这篇文章AUC和F1评分之间有什么区别?,但没有告诉我何时使用。 在此先感谢您的帮助!

3
R Caret和NA
我非常喜欢插入符号的参数调整能力和统一的界面,但是我观察到,即使应用的“裸”模型允许使用NA,它始终需要完整的数据集(即没有NA)。这很麻烦,因为应该使用费力的插补方法,而这些方法一开始并不需要。一个人如何逃避归因并仍然使用插入符号优势?



2
使用置信区间时,我们是否应该应对多个比较调整?
假设我们有一个多重比较的场景,例如成对统计的事后推断,或者像多重回归,我们总共进行了mmm比较。还要假设,我们希望使用置信区间支持这些倍数的推理。 1.我们是否对配置项应用了多个比较调整?也就是说,正如多重比较强制的重新定义αα\alpha来无论是家庭明智的错误率(FWER)或假发现率(FDR),确实的含义信心(或信誉1,或不确定性,或预测或推断...选择您的间隔)是否会因多次比较而发生类似的变化?我意识到这里的否定答案将解决我剩下的问题。 2.是否存在从假设检验到区间估计的多个比较调整程序的直接转换?例如,将调整集中于改变CI-levelCI-level\text{CI-level}术语中的置信区间:CIθ=(θ^±t(1−CI-level)/2σ^θ)CIθ=(θ^±t(1−CI-level)/2σ^θ)\text{CI}_{\theta} = (\hat{\theta} \pm t_{(1-\text{CI-level)/2}}\hat{\sigma}_{\theta})? 3.我们将如何处理CI的升压或降压控制程序?从假设检验方法到推理的一些家庭式错误率调整是“静态的”,因为对每个单独的推断进行了完全相同的调整。例如,通过更改以下项的拒绝标准来进行Bonferroni调整: 拒绝如果p≤α2p≤α2p\le \frac{\alpha}{2}至: 拒绝如果p≤α2mp≤α2mp\le \frac{\frac{\alpha}{2}}{m}, 但是Holm-Bonferroni的升压调整不是“静态”的,而是通过以下方式进行的: 首先将ppp最小到最大排序,然后 拒绝如果p≤1−(1−α2)1m+1−ip≤1−(1−α2)1m+1−ip\le 1 - (1- \frac{\alpha}{2})^{\frac{1}{m+1-i}},(其中,iii索引的顺序ppp-值),直到 我们无法拒绝无效假设,并且自动无法拒绝所有后续的无效假设。 因为CI不会发生拒绝/拒绝失败(更正式的说法,请参见下面的参考文献),这是否意味着逐步过程不会转换(即包括所有FDR方法)?在此我要说明的是,我并不是在问如何将CI转换为假设检验(以下引用的“视觉假设检验”文献的代表提到了这个不重要的问题)。 4. 括号中我在1中提到的其他间隔是什么? 1天哪,我当然希望我不会在这里使用这个词来惹恼那些甜美,甜美的贝叶斯风格。:) 参考文献 Afshartous,D.和Preston,R.(2010)。相依数据的置信区间:将具有统计意义的非重叠等同。计算统计与数据分析,54(10):2296-2305。 卡明,G。(2009)。肉眼推论:读取独立置信区间的重叠。医学统计学,28(2):205-220。 缅因州的佩顿,MH的Greenstone和北卡罗来纳州的Schenker(2003)。重叠置信区间或标准误差区间:就统计学意义而言,它们是什么意思?昆虫科学学报,3(34):1-6。 Tryon,WW和Lewis,C.(2008)。建立统计等价性的推论置信区间方法,用于校正Tryon(2001)的折减系数。心理方法,13(3):272–277。

2
零假设下线性回归中的分布是什么?为什么当时其模式不为零?
在原假设下,线性单变量多元回归中的确定系数或R平方的分布是什么?R2R2R^2H0:β=0H0:β=0H_0:\beta=0 它如何取决于预测变量数量和样本数量?此分布方式是否有封闭形式的表达式?kkkn&gt;kn&gt;kn>k 特别是,我有一种感觉,对于简单回归(具有一个预测变量),此分布的众数为零,但对于多重回归,其众数为非零正值。如果确实是这样,是否对这种“相变”有直观的解释?xxx 更新资料 如下@Alecos所示,当和时,分布确实在零处达到峰值,而当时,分布则不在零处。我觉得应该对这种相变有一个几何的看法。考虑OLS的几何视图:是的向量,在此处定义一个维子空间。OLS等于将投影到该子空间上,并且是和其投影之间的角度的平方余弦。k=2k=2k=2k=3k=3k=3k&gt;3k&gt;3k>3yy\mathbf yRnRn\mathbb R^nXX\mathbf Xkkkyy\mathbf yR2R2R^2ÿyy\mathbf yy^y^\hat{\mathbf y} 现在,从@Alecos的答案可以得出结论,如果所有向量都是随机的,则对于和,该角度的概率分布将在处达到峰值,但在对于。为什么?!90∘90∘90^\circk=2k=2k=2k=3k=3k=3&lt;90∘&lt;90∘<90^\circk&gt;3k&gt;3k>3 更新2:我接受@Alecos的回答,但仍然感觉我在这里缺少一些重要的见解。如果有人对这种现象提出任何其他(无论是几何还是非几何)观点,使它变得“显而易见”,我将很乐意提供悬赏。

7
分布假设检验-如果您不能“接受”原假设,那么这样做有什么意义呢?
各种假设检验,例如 GOF检验,Kolmogorov-Smirnov,Anderson-Darling等,都遵循以下基本格式:χ2χ2\chi^{2} H0H0H_0:数据遵循给定的分布。 H1H1H_1:数据不遵循给定的分布。 通常,人们会评估这样的说法,即某些给定数据遵循某种给定分布,并且如果有人拒绝,则该数据在某个级别不适用于该给定分布。 αH0H0H_0αα\alpha 但是,如果我们不拒绝怎么办?我一直被教导不能接受“,因此,基本上,我们没有证据表明拒绝“。也就是说,没有证据表明我们拒绝数据遵循给定的分布。H 0 H 0H0H0H_0H0H0H_0H0H0H_0 因此,我的问题是,如果我们不能断定数据是否遵循给定的分布,那么进行此类测试的意义何在?

2
为什么Python的scikit-learn LDA无法正常工作,它如何通过SVD计算LDA?
我使用来自scikit-learn机器学习库(Python)的线性判别分析(LDA)进行降维,并对结果有些好奇。我现在想知道LDA scikit-learn正在做什么,以便使结果看起来不同于例如手动方法或R中完成的LDA。如果有人可以在这里给我一些见解,那将是非常不错的。 基本上最令人担忧的是,该图scikit-plot显示了两个变量之间的相关性,其中应该有一个相关性0。 为了进行测试,我使用了虹膜数据集,前两个线性判别式如下所示: IMG-1。通过scikit-learn进行LDA 这基本上与我在scikit-learn 文档中找到的结果一致。 现在,我逐步进行了LDA,并得到了不同的预测。我尝试了不同的方法,以了解发生了什么事情: IMG-2。基于原始数据的LDA(无中心,无标准化) 如果我先对数据进行标准化(z分数归一化;单位方差),这将是分步方法。我只用均值中心进行了相同的操作,这应该导致相同的相对投影图像(并且确实如此)。 IMG-3。均值居中或标准化后的逐步LDA IMG-4。R中的LDA(默认设置) 我将数据居中的IMG-3中的LDA(这将是首选方法)看起来也与我在R中执行LDA的人在帖子中找到的LDA完全相同 参考代码 我不想将所有代码粘贴到这里,但是我将其作为IPython笔记本上传到这里,该笔记本分为我用于LDA投影的几个步骤(请参见下文)。 步骤1:计算d维平均向量mi=1ni∑x∈Dinxkmi=1ni∑x∈Dinxk\mathbf m_i = \frac{1}{n_i} \sum\limits_{\mathbf x \in D_i}^n \; \mathbf x_k 步骤2:计算散点矩阵 2.1类内散布矩阵由以下等式计算:SWSWS_W SW=∑i=1cSi=∑i=1c∑x∈Din(x−mi)(x−mi)TSW=∑i=1cSi=∑i=1c∑x∈Din(x−mi)(x−mi)TS_W = \sum\limits_{i=1}^{c} S_i = \sum\limits_{i=1}^{c} \sum\limits_{\mathbf x \in D_i}^n (\mathbf x - \mathbf m_i)\;(\mathbf x - \mathbf m_i)^T 2.2类间散布矩阵由以下公式计算: 其中是整体平均值。SBSBS_B SB=∑i=1cni(mi−m)(mi−m)TSB=∑i=1cni(mi−m)(mi−m)TS_B …

1
贝叶斯和EM之间的关系
我在某处读到,变分贝叶斯方法是EM算法的概括。确实,算法的迭代部分非常相似。为了测试EM算法是否是Variational Bayes的特殊版本,我尝试了以下方法: YYY是数据,是潜在变量的集合,是参数。在变分贝叶斯中,我们可以做一个近似,使得。当 s为简单,易于处理的分布。XXXΘΘ\ThetaP(X,Θ|Y)≈QX(X)QΘ(Θ)P(X,Θ|Y)≈QX(X)QΘ(Θ)P(X,\Theta|Y) \approx Q_X(X)Q_\Theta(\Theta)QQQ 由于EM算法找到了MAP点估计值,因此我认为,如果我使用Delta函数,则变分贝叶斯可以收敛到EM:。是通常在EM中完成的参数的第一个估计。Q1Θ(Θ)=δΘ1(Θ)QΘ1(Θ)=δΘ1(Θ)Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)Θ1Θ1\Theta_1 当给出,,其最小化的KL发散由公式发现 上面的公式简化为,此步骤等效于Expectation步骤EM算法!Q1Θ(Θ)=δΘ1(Θ)QΘ1(Θ)=δΘ1(Θ)Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)Q1X(X)QX1(X)Q^1_X(X)Q1X(X)=exp(EδΘ1[lnP(X,Y,Θ)])∫exp(EδΘ1[lnP(X,Y,Θ)])dXQX1(X)=exp⁡(EδΘ1[ln⁡P(X,Y,Θ)])∫exp⁡(EδΘ1[ln⁡P(X,Y,Θ)])dXQ^1_X(X)=\frac{\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])}{\int\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])dX}Q1X(X)=P(X|Θ1,Y)QX1(X)=P(X|Θ1,Y)Q^1_X(X)=P(X|\Theta^1,Y) 但是我不能将“最大化”步骤作为此步骤的延续。在下一步中,我们需要计算,根据变分贝叶斯迭代规则,这是:Q2Θ(Θ)QΘ2(Θ)Q^2_\Theta(\Theta) Q2Θ(Θ)=exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])∫exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])dΘQΘ2(Θ)=exp⁡(EP(X|Θ1,Y)[ln⁡P(X,Y,Θ)])∫exp⁡(EP(X|Θ1,Y)[ln⁡P(X,Y,Θ)])dΘQ^2_\Theta(\Theta)=\frac{\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])}{\int\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])d\Theta} VB和EM算法是否真的以这种方式连接?我们如何得出EM作为变分贝叶斯的特例,我的方法是正确的吗?

1
svm中的一对多和一对多?
一对一和一对一SVM分类器有什么区别? “一对多”是指一个分类器对新图像的所有类型/类别进行分类,而一对多是指新图像的每种类型/类别用不同的分类器进行分类(每个类别均由特殊分类器处理)吗? 例如,如果将新图像分类为圆形,矩形,三角形等。

5
为什么这些陈述在逻辑上不符合95%CI的逻辑?
我一直在阅读Hoekstra等人在2014年发表的有关“对置信区间进行鲁棒性误解”的论文,该论文是从Wagenmakers网站上下载的。 在倒数第二页上,出现以下图像。 根据作者的说法,False是所有这些陈述的正确答案。我不太确定为什么这些陈述是错误的,据我所知,本文的其余部分并未试图解释这一点。 我相信1-2和4是不正确的,因为当真实均值具有一个未知的确定值时,它们会断言真实均值的可能值。这是一个令人信服的区别吗? 关于3,我理解一个人无意对原假设不正确的可能性做出断言,尽管我不确定原因。 同样,6也不能成立,因为这意味着真正的平均值在各个实验之间都在变化。 我完全不了解的那个是5。为什么那是错误的?如果我有一个过程在95%的时间内生成的CI包含真实均值,为什么我不说我有95%的置信度,即总体价值在0.1到0.4之间?是因为我们可能对刚刚获取的样本有一些特殊信息,使我们认为这很可能是不包含真实均值的5%之一?例如,置信区间中包括0.13,并且由于某些原因,在某些特定的研究范围内,0.13未被认为是合理的值,例如,因为该值将与先前的理论相抵触。 无论如何,信心在这种情况下意味着什么?

4
SVM中内核的区别?
有人可以告诉我SVM中内核之间的区别: 线性的 多项式 高斯(RBF) 乙状结肠 因为众所周知,内核用于将输入空间映射到高维特征空间。在该特征空间中,我们找到了线性可分界线。 什么时候使用它们(在什么条件下),为什么?


2
判别分析的三种版本:差异及其使用方法
谁能解释差异并给出具体示例如何使用这三种分析? LDA-线性判别分析 FDA-Fisher的判别分析 QDA-二次判别分析 我到处搜索,但找不到具有真实值的真实示例来查看如何使用这些分析和计算数据,只有大量公式,如果没有任何真实示例就很难理解。我试图理解,很难区分哪些方程式/公式属于LDA,哪些属于FDA。 例如,假设有这样的数据: x1 x2 class 1 2 a 1 3 a 2 3 a 3 3 a 1 0 b 2 1 b 2 2 b 并说一些测试数据: x1 x2 2 4 3 5 3 6 那么,如何通过这三种方法使用此类数据?最好看看如何手动计算所有内容,而不是使用一些数学软件包来计算幕后的所有内容。 PS我只找到了本教程:http : //people.revoledu.com/kardi/tutorial/LDA/LDA.html#LDA。它显示了如何使用LDA。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.