统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

5
我可以信任非正态分布DV的ANOVA结果吗?
我用重复测量方差分析分析了一个实验。方差分析是3x2x2x2x3,其中2个对象间因子,3个以内(N = 189)。错误率是因变量。错误率分布的偏斜为3.64,峰度为15.75。偏斜和峰度是90%的错误率表示为0的结果。在这里阅读一些以前的有关正常性测试的线程会使我有些困惑。我认为,如果您拥有的数据不是正态分布的,则尽可能对它进行最佳转换,但是似乎很多人认为使用ANOVA或T检验分析非正态数据是可以接受的。我可以相信方差分析的结果吗? (仅供参考,将来我打算使用二项分布的混合模型在R中分析此类数据)

2
马尔可夫过程仅取决于先前的状态
我只想请某人确认我的理解或是否缺少任何东西。 Markov流程的定义是,下一步仅取决于当前状态,而没有过去的状态。因此,假设我们的状态空间为a,b,c,d,并且从a-> b-> c-> d开始。这意味着向d的过渡只能取决于我们在c中。 但是,确实可以使模型变得更复杂并且可以“克服”此限制吗?换句话说,如果您的状态空间现在是aa,ab,ac,ad,ba,bb,bc,bd,ca,cb,cc,cd,da,db,dc,dd,则意味着您的新状态空间变为先前状态与当前状态的组合,那么上述转换将是* a-> ab-> bc-> cd,因此到cd的转换(在先前模型中与d等效)现在取决于状态,如果建模不同,则为先前状态(以下将其称为子状态)。 我是否正确,可以使它“取决于先前的状态(子状态)”(我从技术上讲,由于新的子状态不再是真实状态,因此它在新模型中不存在)通过扩展来维持markov属性像我一样的状态空间?因此,实际上可以创建一个可依赖于任何数量的先前子状态的马尔可夫过程。

1
使用Benjamini-Hochberg,p值或q值进行多重假设检验校正?
给定从独立测试生成的p值列表(按升序排列),可以使用Benjamini-Hochberg过程进行多次测试校正。对于每个p值,Benjamini-Hochberg过程使您可以计算每个p值的错误发现率(FDR)。也就是说,在p值排序的列表中的每个“位置”,它将告诉您其中有多少比例可能是对原假设的错误拒绝。 我的问题是,这些FDR值是被称为“ q值 ”,还是被称为“ 校正后的p值 ”,或者完全称为其他值? EDIT 2010-07-12:我想更全面地描述我们正在使用的更正程序。首先,我们按未校正的原始p值对测试结果进行递增排序。然后,我们遍历列表,使用BH校正计算出我一直解释为“如果我们要拒绝此假设以及列表中所有测试的零假设的FDR期望值”,则alpha等于观察到的,各个迭代的未校正p值。然后,我们一直称其为“ q值”,以保留先前的校正值(迭代i-1的FDR)或当前值(i的最大值)的最大值,以保持单调性。 以下是一些代表此过程的Python代码: def calc_benjamini_hochberg_corrections(p_values, num_total_tests): """ Calculates the Benjamini-Hochberg correction for multiple hypothesis testing from a list of p-values *sorted in ascending order*. See http://en.wikipedia.org/wiki/False_discovery_rate#Independent_tests for more detail on the theory behind the correction. **NOTE:** This is a generator, not a function. …

6
图论-分析和可视化
我不确定主题是否会引起CrossValidated兴趣。你会告诉我的。 我必须研究一个图(从图论)。我有一定数量的点相连。我有一张桌子,上面有所有的点,每个点都依赖于这些点。(我也有另一个表的含义) 我的问题是: 是否有一个好的软件(或R包)可以轻松学习? 有显示图的简单方法吗?

3
多重删失数据的协方差矩阵的无偏估计
环境样品的化学分析通常低于报告限值或各种检测/定量限值。后者通常可以与其他变量的值成比例地变化。例如,可能需要稀释一种化合物的高浓度样品进行分析,从而导致该样品中同时分析的所有其他化合物的检测限按比例膨胀。再举一个例子,有时化合物的存在会改变测试对其他化合物的响应(“基质干扰”)。当实验室检测到这种情况时,它将相应地提高其报告限值。 我正在寻找一种实用的方法来估算此类数据集的整个方差-协方差矩阵,尤其是当许多化合物经历了超过50%的检查时,这种情况经常发生。传统的分布模型是(真实)浓度的对数呈多态正态分布,这在实践中似乎很合适,因此针对这种情况的解决方案将很有用。 (“实用”是指一种方法,该方法可以在至少一个普遍可用的软件环境(例如R,Python,SAS等)中可靠地进行编码,并且其执行速度足以支持迭代的重新计算(例如多次插补),且这种情况相当稳定[这就是为什么我不愿探索BUGS实现的原因,尽管通常欢迎使用贝叶斯解决方案]。 预先非常感谢您对此事的想法。

6
五点李克特项目的分组差异
接下来是这个问题:假设您想测试一下李克特(Likert)项目的5点(例如,对生活的满意度:不满意)对两组(例如,男性和女性)的集中趋势的差异。我认为t检验在大多数情况下都足够准确,但是对组均值之间的差异进行自举检验通常可以提供更准确的置信区间估计。您将使用什么统计检验?

9
如何确定ping响应时间上该数据代表哪种分布?
我已经采样了一个真实的过程,即网络ping时间。“往返时间”以毫秒为单位。结果绘制在直方图中: Ping时间具有最小值,但尾巴较长。 我想知道这是什么统计分布,以及如何估算其参数。 即使该分布不是正态分布,我仍然可以显示我要实现的目标。 正态分布使用以下功能: 有两个参数 μ(平均值) σ 2 (方差) 参数估计 估算两个参数的公式为: 将这些公式应用于Excel中的数据,我得到: μ= 10.9558(平均值) σ 2 = 67.4578(方差) 使用这些参数,我可以在采样数据上方绘制“ 正态 ”分布: 显然,这不是正态分布。正态分布具有无限的顶部和底部尾部,并且是对称的。这种分布是不对称的。 我将采用什么原则?我将采用哪种流程图来确定这是哪种分布? 假设分布没有负尾巴,而有长正尾巴:什么分布与之匹配? 是否有与您所观察到的分布相匹配的参考? 紧追其后,此分布的公式是什么,以及估算其参数的公式是什么? 我想要获得分布,以便获得“平均”值以及“价差”: 我实际上是在软件中绘制直方图,我想覆盖理论分布: 注意:从math.stackexchange.com交叉发布 更新:160,000个样本 一个月又一个月,以及不计其数的抽样会议,都给出了相同的分布。有必须是一个数学表达式。 哈维建议将数据放在对数刻度上。这是对数刻度上的概率密度: 标签:抽样,统计,参数估计,正态分布 这不是答案,而是问题的附录。这是分配桶。我认为,喜欢冒险的人可能希望将其粘贴到Excel(或您知道的任何程序)中,并可以发现其分布。 值已标准化 Time Value 53.5 1.86885613545469E-5 54.5 0.00396197500716395 55.5 0.0299702228922418 56.5 0.0506460012708222 57.5 0.0625879919763777 58.5 0.069683415770654 …

1
常用统计检验为线性模型
(更新:我对此进行了更深入的研究,并将结果发布在此处) 命名统计测试的列表非常庞大。许多常见检验依赖于简单线性模型的推论,例如,单样本t检验只是y =β+ε,它是针对零模型y =μ+ε进行检验的,即β=μ,其中μ为零值-通常为μ= 0。 我发现这对教学目的比死记硬背地学习命名模型,何时使用它们以及它们的假设好像它们之间没有任何关系相比更具启发性。这种方法促进并不能增进理解。但是,我找不到一个很好的资源来收集这些信息。我对基本模型之间的等效性感兴趣,而不是对它们的推断方法感兴趣。尽管据我所知,所有这些线性模型的似然比检验得出的结果与“经典”推论相同。 下面是我已经了解迄今为止等价,忽略误差项ε∼N(0,σ2)ε∼N(0,σ2)\varepsilon \sim \mathcal N(0, \sigma^2),并假设所有零假设是的效果由于缺少: 单样本t检验: y=β0H0:β0=0y=β0H0:β0=0y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0。 配对样本t检验: y2−y1=β0H0:β0=0y2−y1=β0H0:β0=0y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 这与成对差异的一样本t检验相同。 两样本t检验: y=β1∗xi+β0H0:β1=0y=β1∗xi+β0H0:β1=0y = \beta_1 * x_i + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0 其中x是指标(0或1)。 Pearson相关: y=β1∗x+β0H0:β1=0y=β1∗x+β0H0:β1=0y = \beta_1 * x …

3
回归误差项如何与解释变量相关联?
此第一句维基页权利要求书,“在计量经济学,当说明变量与误差项相关发生内生性问题。1 ” 我的问题是,这怎么可能发生?是否不选择回归beta以使误差项与设计矩阵的列空间正交?
22 regression 


9
如何确定神经网络预测的置信度?
为了说明我的问题,例如,假设我有一个训练集,其中输入具有一定程度的噪声,但输出却没有噪声。 # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] 如果无噪声(不是实际的梯度),那么这里的输出就是输入数组的梯度。 训练网络后,对于给定的输入,输出应类似于以下内容。 # Expected Output [1.01, 1.96, 2.00, 3.06] : 95% confidence interval of [0.97, 1.03] [2.03, 4.11, 3.89, 3.51] : 95% …

3
高度不平衡数据的分类/评估指标
我处理欺诈检测(类似信用评分)问题。因此,欺诈性观察与非欺诈性观察之间存在高度不平衡的关系。 http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html很好地概述了不同的分类指标。Precision and Recall或kappa两者似乎都是不错的选择: 证明此类分类器结果的一种方法是将它们与基准分类器进行比较,并表明它们确实比随机机会预测好。 据我了解,kappa由于考虑了随机机会,因此这可能是稍微更好的选择。从科恩用简单的英语写的kappa中,我了解到这kappa涉及信息获取的概念: [...] 80%的观测精度令人印象深刻,预期精度为75%,而预期精度为50%[...] 因此,我的问题是: 假设kappa是更适合此问题的分类指标是正确的吗? 简单地使用可以kappa防止不平衡对分类算法的负面影响吗?是否仍需要重新(向下/向上)采样或基于成本的学习(请参阅http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf)?


2
所有机器学习算法是否都线性地分离数据?
我是编程和机器学习的狂热者。仅仅几个月前,我开始学习机器学习编程。像许多没有定量科学背景的人一样,我也通过修补广泛使用的ML软件包(插入符号R)中的算法和数据集,开始学习ML。 前一段时间,我读了一个博客,其中作者谈论了ML中线性回归的用法。如果我没记错的话,他谈到了最终所有机器学习如何甚至在线性或非线性问题上都使用某种“线性回归”(不确定他是否使用了这个精确术语)。那个时候我不明白他的意思。 我对将机器学习用于非线性数据的理解是使用非线性算法来分离数据。 这是我的想法 假设要对线性数据进行分类,我们使用线性方程,对于非线性数据,我们使用非线性方程说y = s i n (x )ÿ= m x + cÿ=米X+Cy=mx+cÿ= š 我Ñ (X )ÿ=s一世ñ(X)y=sin(x) 该图像是从支持向量机的sikit学习网站上拍摄的。在SVM中,我们将不同的内核用于ML。因此,我最初的想法是线性内核使用线性函数分离数据,而RBF内核使用非线性函数分离数据。 但是后来我看到了这个博客,作者在其中谈论了神经网络。 为了对左子图中的非线性问题进行分类,神经网络以如下方式转换数据:最后,我们可以对右子图中的转换数据使用简单的线性分离 我的问题是,最终所有机器学习算法是否都使用线性分离进行分类(线性/非线性数据集)?

6
可能性-为什么要成倍增长?
我正在研究最大似然估计,并且我读到似然函数是每个变量的概率的乘积。为什么是产品?为什么不算总和?我一直在尝试在Google上进行搜索,但找不到任何有意义的答案。 https://zh.wikipedia.org/wiki/最大可能性

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.