统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


1
使用R中的tsoutliers包检测时间序列中的离群值(LS / AO / TC)。如何用公式格式表示离群值?
评论: 首先,我要非常感谢新的tsoutliers软件包的作者,该软件包实现了Chen和Liu的时间序列离群值检测,该软件包于1993年在《美国统计协会杂志》上的开源软件。[R[RR 程序包在时间序列数据中迭代检测5种不同类型的离群值: 附加异常值(AO) 创新离群值(IO) 电平转换(LS) 临时变更(TC) 季节性水平变动(SLS) 更妙的是,此程序包从预测程序包实现了auto.arima,因此可以无缝检测异常值。软件包还可以生成漂亮的图,以更好地了解时间序列数据。 以下是我的问题: 我尝试使用此程序包运行一些示例,但效果很好。加法离群值和电平移位很直观。但是,在处理临时更改离群值和创新离群值方面,我有两个问题,我无法理解。 临时更改异常值示例: 考虑以下示例: library(tsoutliers) library(expsmooth) library(fma) outlier.chicken <- tsoutliers::tso(chicken,types = c("AO","LS","TC"),maxit.iloop=10) outlier.chicken plot(outlier.chicken) 该程序正确地检测到以下位置的电平变化和临时变化。 Outliers: type ind time coefhat tstat 1 LS 12 1935 37.14 3.153 2 TC 20 1943 36.38 3.350 以下是情节和我的问题。 如何以等式格式写入临时更改?(电平移位可以很容易地写为二进制变量,在1935 / Obs 12之前的任何时候为0,在1935年之后和之后的任何时候为1。) 包装手册和本文中的临时更改公式为: L (B …

11
平均绝对偏差与标准偏差
在Greer(1983)的教科书“ O水平的新综合数学”中,我看到了计算出的平均偏差,如下所示: 总结单个值与平均值之间的绝对差。然后得到其平均值。在本章中,使用术语“ 平均偏差”。 但是我最近看到了一些使用术语标准差的引用,这就是它们的作用: 计算单个值与平均值之间的差的平方。然后得到他们的平均值,最后得到答案的根源。 我对一组通用数据尝试了这两种方法,它们的答案也不同。我不是统计学家。试图教我的孩子们偏差时,我感到困惑。 简而言之,术语“ 标准差”和“ 平均差 ”是否相同?还是我的旧教科书错误?

8
随机走在立方体的边缘
一只蚂蚁被放置在立方体的一角,无法移动。蜘蛛从对角开始,可以沿立方体的边缘沿任何方向以相等概率移动。平均而言,蜘蛛需要到达蚂蚁多少步?(x,y,z)(x,y,z)(x,y,z)1/31/31/3 (这不是家庭作业,这是一个面试问题。)

1
逻辑回归:方差卡方检验与系数的显着性(R中的anova()vs summary())
我有一个8个变量的逻辑GLM模型。我在R中进行了卡方检验,anova(glm.model,test='Chisq')当在测试的顶部进行排序时,其中两个变量可预测,而在底部的排序中则没有那么多。在summary(glm.model)表明它们的系数不显着(高p值)。在这种情况下,变量似乎并不重要。 我想问问哪个是变量显着性更好的检验-模型摘要中的系数显着性或来自的卡方检验anova()。还有-什么时候一个比另一个更好? 我想这是一个广泛的问题,但是任何有关考虑因素的建议将不胜感激。

3
如何证明径向基函数是一个内核?
如何证明径向基函数是一个内核?据我了解,为了证明这一点,我们必须证明以下任何一项:k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) 对于任何一组向量矩阵 =是正半定的。x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_nK(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n)(k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} 可以表示映射例如 =。ΦΦ\Phik(x,y)k(x,y)k(x, y)⟨Φ(x),Φ(y)⟩⟨Φ(x),Φ(y)⟩\langle\Phi(x), \Phi(y)\rangle 有什么帮助吗?
35 svm  kernel-trick 

3
线性回归中的显着矛盾:系数的显着t检验与总体F统计量的不显着
我正在4个类别变量(每个有4个级别)和一个数值输出之间拟合多元线性回归模型。我的数据集有43个观测值。 回归为每个斜率系数提供了检验的以下:。因此,第4个预测变量的系数在置信度下很重要。pppttt.15,.67,.27,.02.15,.67,.27,.02.15, .67, .27, .02α=.05α=.05\alpha = .05 另一方面,从我所有斜率系数都为零的零假设的整体检验中,回归给出了值。对于我的数据集,此值为。pppFFFppp.11.11.11 我的问题:我应该如何解释这些结果?其中ppp我应该使用值,为什么?在α = 0.05的置信度下,第4个变量的系数是否与000显着不同?α=.05α=.05\alpha = .05 我已经看到了相关的问题,FFF和ttt的回归统计,但有相反的情况:高ttt -test ppp -值和低FFF -test ppp -值。老实说,我不太了解为什么除了t检验外还需要FFF检验,以了解线性回归系数是否显着不同于零。ttt

5
免费的数据集,用于非常高的尺寸分类[关闭]
有超过1000个要素(或样本点(如果包含曲线))可免费用于分类的数据集是什么? 已经有一个关于免费数据集的社区Wiki: 查找免费可用的数据样本 但是在这里,最好有一个更集中的列表,可以更方便地使用它,我还建议以下规则: 每个数据集一个帖子 没有链接到数据集 每个数据集必须与 一个名称(弄清楚它的含义)和一个指向数据集的链接(可以使用包名称来命名R数据集) 特征数(假设为p),数据集的大小(假设为n)和标签/类的数量(假设为k) 根据您的经验(将使用的算法写成文字)或文献(在最后一种情况下,链接本文)得出典型的错误率



4
Gamma随机变量的一般和
我已经读到具有相同比例参数的Gamma随机变量的总和是另一个Gamma随机变量。我还看过Moschopoulos撰写的论文,该论文描述了一种对一般Gamma随机变量集求和的方法。我曾尝试实施Moschopoulos的方法,但尚未成功。 一般的Gamma随机变量集的总和是什么样的?为了使这个问题具体,它看起来像什么: Gamma(3,1)+Gamma(4,2)+Gamma(5,1)Gamma(3,1)+Gamma(4,2)+Gamma(5,1)\text{Gamma}(3,1) + \text{Gamma}(4,2) + \text{Gamma}(5,1) 如果上述参数不是特别有用,请建议其他参数。


5
如果我的线性回归数据包含多个混合线性关系,该怎么办?
假设我正在研究水仙花对各种土壤条件的反应。我收集了有关土壤pH值与水仙花成熟高度的数据。我期望线性关系,所以我开始进行线性回归。 但是,当我开始研究时,并没有意识到该种群实际上含有两种水仙花,每种水仙花对土壤pH的反应都非常不同。因此,该图包含两个不同的线性关系: 当然,我可以盯着它并手动将其分离。但我想知道是否有更严格的方法。 问题: 是否有统计检验来确定一个数据集适合单行还是N行? 如何运行线性回归以拟合N条线?换句话说,如何解开混合数据? 我可以想到一些组合方法,但它们在计算上似乎很昂贵。 说明: 在数据收集时,尚不存在两种变体。未观察到,未记录和未记录每种水仙花的变化。 无法恢复此信息。自收集数据以来,水仙花已经死亡。 我的印象是,该问题类似于应用集群算法,因为您几乎需要在开始之前就知道集群的数量。我相信,使用任何数据集,增加行数将减少总均方根误差。在极端情况下,您可以将数据集分为任意对,并在每对之间画一条线。(例如,如果您有1000个数据点,则可以将它们分成500对任意对,并在每对之间画一条线。)拟合将是精确的,并且rms误差将恰好为零。但这不是我们想要的。我们想要“正确”的行数。

3
模型的Akaike信息标准(AIC)得分是什么意思?
我在这里看到了一些关于外行的含义的问题,但是对于我来说,这些对于我来说太过外行了。我试图从数学上理解AIC分数的含义。 但是同时,我也不想得到一个严格的证据,使我看不到更重要的观点。例如,如果这是微积分,那么我将对无穷小感到满意,而如果这是概率论,那么如果没有度量理论,我将感到满意。 我的尝试 通过在此处阅读以及我自己的一些表示法糖AICm,DAICm,D\text{AIC}_{m,D}是数据集D上模型的AIC准则,如下所示: AIC m ,D = 2 k m − 2 ln (L m ,D) 其中k m为模型m的参数个数,L m ,D是模型m在数据集D上的最大似然函数值。mmmDDDAICm,D=2km−2ln(Lm,D)AICm,D=2km−2ln⁡(Lm,D) \text{AIC}_{m,D} = 2k_m - 2 \ln(L_{m,D}) kmkmk_mmmmLm,DLm,DL_{m,D}mmmDDD 这是我对上述含义的理解: m=arg maxθPr(D|θ)m=arg maxθPr(D|θ) m = \underset{\theta}{\text{arg max}\,} \Pr(D|\theta) 这条路: kmkmk_m是的参数数。mmm Lm,D=Pr(D|m)=L(m|D)Lm,D=Pr(D|m)=L(m|D)L_{m,D} = \Pr(D|m) = \mathcal{L}(m|D)。 现在让我们重写AIC: AICm,D===2km−2ln(Lm,D)2km−2ln(Pr(D|m))2km−2loge(Pr(D|m))AICm,D=2km−2ln⁡(Lm,D)=2km−2ln⁡(Pr(D|m))=2km−2loge⁡(Pr(D|m))\begin{split} \text{AIC}_{m,D} =& 2k_m - …

2
带嵌套的混合效果模型
我从以下组织的实验中收集了数据: 两个站点,每个站点有30棵树。每个部位治疗15例,对照15例。从每棵树中,我们采样了三根茎和三根根,因此每棵树有6个1级样品,由两个因子水平(根,茎)之一表示。然后,从这些茎/根样本中,我们通过解剖样本中的不同组织来获取两个样本,这由组织类型(组织类型A,组织类型B)的两个因子水平之一表示。这些样本作为连续变量进行测量。观测总数为720;2个地点* 30棵树*(三个茎样本+三个根样本)*(一个组织A样本+一个组织B样本)。数据看起来像这样... ï..Site Tree Treatment Organ Sample Tissue Total_Length 1 L LT1 T R 1 Phloem 30 2 L LT1 T R 1 Xylem 28 3 L LT1 T R 2 Phloem 46 4 L LT1 T R 2 Xylem 38 5 L LT1 T R 3 Phloem 103 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.