统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
如何在GAM中包含一个互动词?
以下代码评估两个时间序列之间的相似性: set.seed(10) RandData <- rnorm(8760*2) America <- rep(c('NewYork','Miami'),each=8760) Date = seq(from=as.POSIXct("1991-01-01 00:00"), to=as.POSIXct("1991-12-31 23:00"), length=8760) DatNew <- data.frame(Loc = America, Doy = as.numeric(format(Date,format = "%j")), Tod = as.numeric(format(Date,format = "%H")), Temp = RandData, DecTime = rep(seq(1, length(RandData)/2) / (length(RandData)/2), 2)) require(mgcv) mod1 <- gam(Temp ~ Loc + s(Doy) + s(Doy,by …



4
数理统计和统计之间有什么区别?
数理统计与统计有什么区别? 我读过这个: 统计是对数据的收集,组织,分析和解释的研究。它涉及所有方面,包括根据调查和实验设计进行数据收集计划。 与此: 数理统计是从数学的角度对统计进行的研究,它使用概率论以及其他数学分支,例如线性代数和分析。 那么它们之间的区别是什么?我可以理解收集的过程可能不是数学的,但是我想组织,分析和解释是我遗漏的东西吗?

1
谁发明了k折交叉验证?
我正在寻找对引入k折交叉验证的论文的参考(而不仅仅是该主题的良好学术参考)。也许时间模糊不清,无法明确地确定第一篇论文,因此使用该想法的任何早期论文都将引起关注。 我最早知道的是 PA Lachenbruch和MR Mickey,“判别分析中的错误率估计”,Technometrics,第1卷。10号 1968年2月,第1卷,第1-12页。 和 A. Luntz和V. Brailovsky,“关于在识别的统计程序中获得的字符的估计(俄语),” Techicheskaya Kibernetica,第1卷。1969年3月3日。 但据我所知,它们仅涵盖留一法交叉验证(我的技术俄语不是全部; o)。

3
两个时间序列之间的相关性
计算两个大小完全相同的时间序列之间的相关性的最简单方法/方法是什么?我认为乘以和(ÿ [ 吨] - μ Ý),并加入了乘法。因此,如果这个数字是正数,我们可以说这两个系列是相关的吗?我可以想到一些示例,其中另一个线性增长的时间序列线性地彼此不相关,但是上面的计算表明它们是相关的。(x[t]−μx)(x[t]−μx)(x[t]-\mu_x)(y[t]−μy)(y[t]−μy)(y[t] - \mu_y) 有什么想法吗?

3
当结果为分数(两个计数之比)时,如何在R中进行逻辑回归?
我正在审阅具有以下生物学实验的论文。使用装置将细胞暴露于变化量的流体剪切应力。当对细胞施加更大的剪切应力时,更多的细胞开始从基底上脱离。在每个剪切应力水平下,他们都对保持附着的细胞进行计数,并且由于他们知道开始时附着的细胞总数,因此他们可以计算分数附着(或分离)。 如果您绘制粘附分数与剪切应力的关系图,则结果将为逻辑曲线。从理论上讲,每个单元都是一个观察值,但是显然有成千上万个单元,因此,如果以通常的方式建立数据集(每一行都是一个观察值),那么数据集将是巨大的。 因此,自然地,我的问题(如标题中所述)现在应该有意义。我们如何使用分数结果作为DV进行逻辑回归?是否可以在glm中完成一些自动转换? 同样,如果可能存在3个或更多(分数)度量,那么对于多项式逻辑回归该怎么做?

4
这是测试自杀人数数据中季节性影响的适当方法吗?
我有17年(1995年至2011年)的死亡证明数据与美国某州的自杀死亡有关。关于自杀和自杀的个月数/季节,有很多神话,其中很多是自相矛盾的,我的文献中经过审查,我对所使用的方法或结果的把握并不清楚。 因此,我着手确定是否可以确定我的数据集中在任何给定月份内自杀的可能性或高或低。我所有的分析都在R中完成。 数据中的自杀总数为13,909。 如果您以自杀次数最少的年份为例,它们发生在309/365天(85%)。如果您查看自杀次数最多的年份,则发生在339/365天(93%)。 因此,每年都有相当多的日子没有自杀。但是,如果将这17年的总和汇总起来,那么一年中的每一天(包括2月29日)都会有自杀事件(尽管平均值为38时只有5次)。 (在我看来)仅将一年中每一天的自杀总数加起来并不表示明显的季节性。 按月汇总,每月平均自杀范围为: (m = 65,sd = 7.4,至m = 72,sd = 11.1) 我的第一种方法是按年份汇总所有年份的数据集,并在计算出原假设的预期概率后得出卡氏检验,即按月计算的自杀人数没有系统差异。我考虑了天数(并针对taking年调整了2月),计算了每个月的概率。 卡方结果表明按月没有明显变化: # So does the sample match expected values? chisq.test(monthDat$suicideCounts, p=monthlyProb) # Yes, X-squared = 12.7048, df = 11, p-value = 0.3131 下图显示了每月的总数。水平红线分别位于2月,30天和31天月份的期望值。与卡方检验一致,对于预期计数,没有一个月份在95%置信区间之外。 我以为我已经做完了,直到我开始研究时间序列数据。正如我想象的那样,我首先使用stlstats包中的函数进行非参数的季节性分解方法。 为了创建时间序列数据,我从汇总的每月数据开始: suicideByMonthTs <- ts(suicideByMonth$monthlySuicideCount, start=c(1995, 1), end=c(2011, 12), frequency=12) …

4
您对这些分析技术是否有全球视野?
我目前正在一个项目上,就像我们所有人一样,我基本上需要了解输出与输入。这里的特殊性是一次将数据提供给我,因此我想在每次收到新的时更新分析。我相信这被称为“在线”处理,而不是“批处理”,在批处理中,您拥有所需的所有数据,并同时使用所有数据进行计算。x (y ,x )(y ,x )yyyxxx(y,x)(y,x)(y,x)(y,x)(y,x)(y,x) 因此,我四处寻找想法,最后得出的结论是,世界分为三个部分: 第一部分是统计和计量经济学领域。人们在那里进行OLS,GLS,仪器变量,ARIMA,测试,差异差异,PCA等。该焊盘主要由线性决定,并且仅进行“批处理”。 第二部分是机器学习和诸如人工智能,有监督和无监督学习,神经网络和SVM之类的词汇的孤岛。“批处理”和“在线”处理都在这里完成。 第三部分是我刚刚发现的整个大陆,似乎大部分由电气工程师组成。在那里,人们经常在他们的工具中添加“过滤器”一词,他们发明了很棒的东西,例如Widrow-Hoff算法,递归最小二乘,Wiener过滤器,Kalman过滤器,以及可能还没有发现的其他东西。显然,他们主要进行“在线”处理,因为它可以更好地满足他们的需求。 所以我的问题是,您是否对这一切抱有全球视野?我的印象是,世界上这三个部分彼此之间的交谈不多。我错了吗?有一个统一的大理论来理解与吗?您是否知道可以为该理论奠定基础的任何资源?XYYYXXX 我不确定这个问题是否真的有意义,但是在所有这些理论之间我有点迷茫。我想象对“我应该使用这个还是那个?”这个问题的答案。将是“这取决于您要做什么(以及您的数据)”。但是,我觉得这三个世界试图回答同一问题(?),因此应该有可能对这一切有更高的了解,并深刻理解每种技术的特殊性。y=f(x)y=f(x)y=f(x)


3
健全性检查:p值可以走多低?
我正在使用ranksum检验来比较两个样本的中位数(),发现它们与显着不同。我应该对这么小的值感到怀疑还是应该将其归因于与非常大的样本相关的高统计能力?有任何可疑的低值之类的东西吗?n = 120000ñ=120000n=120000p = 1.12E-207pppppp


3
在解释变量的回归系数时,其顺序是否重要?
起初我以为顺序无关紧要,但是后来我了解了用于计算多个回归系数的gram-schmidt正交化过程,现在我有了第二个想法。 根据gram-schmidt过程,在其他变量中索引解释性变量的时间越晚,其残差矢量越小,这是因为从中减去了先前变量的残差矢量。结果,说明变量的回归系数也较小。 如果这是真的,那么该变量的残差矢量如果被更早地索引,则将更大,因为将从中减去的残差矢量会更少。这意味着回归系数也将更大。 好的,所以我被要求澄清我的问题。因此,我从文本中发布了屏幕截图,这让我一开始很困惑。好的,去。 我的理解是,至少有两个选择来计算回归系数。第一个选项在下面的屏幕截图中表示为(3.6)。 这是第二个选项(我不得不使用多个屏幕截图)。 除非我误读了某些内容(这肯定是可能的),否则在第二种选择中顺序似乎很重要。第一种选择有关系吗?为什么或者为什么不?还是我的参照系太混乱了,甚至不是一个有效的问题?另外,这是否与I型平方和vs II型平方和相关? 在此先多谢,我很困惑!

2
对于R中的重复测量方差分析,为什么lme和aov返回不同的结果?
我正在尝试从使用ez软件包过渡到lme重复测量方差分析(因为我希望能够在上使用自定义对比lme)。 遵循此博客文章的建议,我能够同时使用和设置相同的模型aov(ez当需要时也是如此)lme。然而,尽管在给出的例子中那个帖子的˚F -值不完美之间同意aov和lme(我检查,他们这样做),这是不是我的数据的情况。尽管F值相似,但它们并不相同。 aov返回1.3399的f值,lme返回1.36264。我愿意接受aov结果为“正确” 的结果,因为这也是SPSS返回的结果(这对我的字段/主管很重要)。 问题: 如果有人能解释为什么存在这种差异以及如何使用我lme来提供可靠的结果,那就太好了。(如果它给出“正确的”结果,我也愿意使用lmer而不是lme用于这种类型的东西。但是,到目前为止,我还没有使用它。) 解决此问题后,我想进行对比分析。尤其是我对合并因子的前两个级别(即c("MP", "MT"))并将其与因子的第三个级别(即)进行对比的兴趣"AC"。此外,测试因子的第三级与第四级(即"AC"vs "DA")。 数据: tau.base <- structure(list(id = structure(c(1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L, 16L, 17L, 18L, 19L, 20L, 21L, 22L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, …

4
威布尔分布的EM最大似然估计
注意: 我发布的是我的一位前学生的问题,由于技术原因,他自己无法发布。 给定来自pdf的Weibull分布的iid样本, 那里是有用的缺失变量表示 ,因此可以使用关联的EM(期望最大化)算法来查找的MLE ,而不是直接使用数值优化?x1,…,xnx1,…,xñx_1,\ldots,x_nFķ(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 fk(x)=∫Zgk(x,z)dzfk(x)=∫Zgk(x,z)dzf_k(x) = \int_\mathcal{Z} g_k(x,z)\,\text{d}zkkk

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.