统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
R中的glm如何处理'NA'值
我有一个数据表T1,其中包含近一千个变量(V1)和大约2亿个数据点。数据稀疏,大多数条目均为NA。每个数据点都有唯一的ID和日期对,以区别于另一个。 我有另一个表T2,其中包含一组单独的变量(V2)。该表还具有ID和日期对,用于唯一标识T2中的条目。 我们怀疑T1中的数据可用于预测T2中的变量值。 为了证明这一点,我想在R中应用'glm'模型,并检查我们是否真的可以在T2中找到一些依赖于T1中变量的变量。 对于T2中的每个变量,我开始提取T1中具有相同ID和日期对的所有数据,这导致某些测试变量的数据点小得多,约50K。 我现在使用glm面临的问题如下。 在某些情况下,它向我显示错误“找不到适合”和警告“ glm.fit:算法未收敛”。我不确定为什么会显示它? 如何在glm中处理NA?是否先删除所有涉及“ NA”的记录,然后进行拟合? 首先删除所有NA,然后调用“ glm”是一个好策略吗?我担心这可能会大大减少数据点,因为它们中的大多数都是NA。 使用哪种方法来计算系数。我找不到任何讨论输出计算方式的网站,论文或书籍。 我测试了带有和不带有“ NA”的glm,并找到了不同的答案,这表明在拟合数据时要考虑NA: 范例1: > tmpData x1 x2 x3 Y 1 1 1 1 3 2 1 0 4 5 3 1 2 3 6 4 0 3 1 4 Call: glm(formula = as.formula(paste(dep, " ~ ", paste(xn, …

2
分类预测因子在逻辑回归中的意义
我在解释逻辑回归时无法解释类别变量的z值。在下面的示例中,我有3个类别的分类变量,根据z值,CLASS2可能是相关的,而其他则不相关。 但是现在这是什么意思呢? 我可以将其他班级合并成一个班级吗? 整个变量可能不是一个好的预测指标? 这仅是一个示例,此处的实际z值并非来自实际问题,我对其解释有困难。 Estimate Std. Error z value Pr(>|z|) CLASS0 6.069e-02 1.564e-01 0.388 0.6979 CLASS1 1.734e-01 2.630e-01 0.659 0.5098 CLASS2 1.597e+00 6.354e-01 2.514 0.0119 *


3
中心极限定理需要大样本量的分布示例
有些书国字号30的样本规模以上是必要的中心极限定理给出很好的近似X¯X¯\bar{X}。 我知道这还不够所有发行版。 我希望看到一些分布示例,即使样本量很大(也许为100或1000,或更大),样本均值的分布仍然相当偏斜。 我知道我以前见过这样的例子,但是我不记得在哪里,也找不到它们。

1
我如何找到统计表中未给出的值?
人们通常使用程序来获取p值,但有时出于某种原因(可能出于某种原因)可能需要从一组表中获取临界值。 给定具有有限数量的显着性水平和有限数量的自由度的统计表,我如何在其他显着性水平或自由度下获得近似临界值(例如使用,卡方或表) ?tŤtFFF 也就是说,如何在表中的值之间找到“值”?

5
如何显示交叉(配对)实验的误差线
以下场景已成为调查者(I),审阅者/编辑者(R,与CRAN不相关)和我(M)这三者中的最常见问题解答,是情节创建者。我们可以假设(R)是典型的医学大老板评论者,他只知道每个图都必须有误差条,否则是错误的。当涉及到统计审查员时,问题就不那么重要了。 情境 在典型的药理交叉研究中,测试了两种药物A和B对葡萄糖水平的影响。每位患者均按随机顺序进行两次测试,并且假定没有残留。主要终点是葡萄糖(BA)之间的差异,我们假设配对t检验就足够了。 (I)想要显示两种情况下的绝对葡萄糖水平的图。他担心(R)对误差条的需求,并要求在条形图中出现标准误差。让我们不要在这里开始条形图战争。 (I):那不是真的。条形重叠,并且我们有p = 0.03?那不是我在高中学到的。 (M):我们在这里有一个配对的设计。要求的误差线完全不相关,计数的是配对差异的SE / CI,图中未显示。如果我可以选择,并且没有太多数据,那么我希望使用以下图表 新增1:这是几个响应中提到的平行坐标图 (M):这些线显示了配对,并且大多数线都向上,这是正确的印象,因为斜率才是最重要的(好吧,这是绝对的,尽管如此)。 (I):那张照片令人困惑。没有人理解它,并且没有错误条(R在潜伏)。 (M):我们还可以添加另一个图,以显示差异的相关置信区间。距零线的距离给人以效果大小的印象。 (I):没人做 (R):它浪费了珍贵的树木 (男):(作为一个好德国人):是的,在树上指点了。但是,当我们进行多种处理和多种对比时,我还是会使用它(并且永远不会将其发布)。 有什么建议吗?如果要创建绘图,R代码在下面。 # Graphics for Crossover experiments library(ggplot2) library(plyr) theme_set(theme_bw()+theme(panel.margin=grid::unit(0,"lines"))) n = 20 effect = 5 set.seed(4711) glu0 = rnorm(n,120,30) glu1 = glu0 + rnorm(n,effect,7) dt = data.frame(patient = rep(paste0("P",10:(9+n))), treatment = rep(c("A","B"), each=n),glucose …

2
哪些诊断程序可以验证特定GLM系列的使用?
这似乎很基础,但是我总是在这一点上陷入困​​境…… 我处理的大多数数据都是非常规的,并且大多数分析都是基于GLM结构的。对于当前的分析,我有一个响应变量,即“步行速度”(米/分钟)。我很容易确定自己无法使用OLS,但是在确定哪个家庭(伽玛,威布尔等)合适的时候,我存在很大的不确定性! 我使用Stata并查看诸如残差和异方差,残差与拟合值之类的诊断信息。 我知道计数数据可以采用比率(例如发生率)的形式,并且使用了伽玛(类似于过度分散的离散负二项式模型),但是只是想用“吸烟枪”说是的,您就对了家庭。看看标准化残差与拟合值是唯一,最好的方法吗?我也想使用混合模型来说明数据中的某些层次结构,但首先需要弄清哪种家庭最能描述我的响应变量。 任何帮助表示赞赏。Stata语言特别感谢!


3
数据挖掘中关联规则和决策树之间的实际区别是什么?
对这两种技术之间的实际区别是否有一个非常简单的描述? 两者似乎都用于有监督的学习(尽管关联规则也可以处理无监督的学习)。 两者都可以用于预测 我发现最接近“良好”描述的是Statsoft教科书。他们说关联规则用于: ...检测大型数据集中分类变量的特定值之间的关系或关联。 虽然决策树分类器被描述为用于: ...根据案例或对象在一个或多个预测变量上的度量来预测类别因变量类别中的成员资格。 但是,在R Data Mining上,他们给出了与目标字段一起使用的关联规则的示例。 因此,两者都可以用来预测组成员身份,这是决策树可以处理非分类输入数据而关联规则不能处理的关键区别吗?还是有更根本的东西?一个站点(sqlserverdatamining.com)说,主要区别在于: 决策树规则基于信息获取,而关联规则基于流行度和/或置信度。 因此(可能回答了我自己的问题)是否意味着纯粹根据关联规则在数据集中出现的频率(以及它们为“真”的频率)进行评估,而决策树实际上正在尝试最小化方差? 如果有人知道一个好的描述,他们愿意指出我的观点,那就太好了。

1
是否进行统计检验以比较两个大小为1和3的样本?
对于一个生态项目,我的实验室小组将醋添加到4个装有等量池塘水的水箱,1个无伊乐藻的对照(一种水生植物)和3个各含相同伊乐藻的处理液中。添加醋的目的是降低pH。假设是装有伊乐藻的水箱会更快地回到其正常pH值。确实是这样。我们每天测量每个水箱的pH值大约两个星期。最终所有的水箱都恢复到其自然pH值,但是对于装有伊乐藻的水箱,这花费的时间要短得多。 当我们告诉教授我们的实验设计时,他说没有可以对数据进行统计学检验以将对照与治疗进行比较的统计检验。那是因为对照没有重复项(我们只使用了一个对照槽),所以无法计算方差,因此无法比较对照和处理的样本均值。所以我的问题是,这是真的吗?我绝对明白他的意思。例如,如果您仅举一男一女的身高,就无法得出有关他们各自人口的结论。但是我们做了3种治疗,差异很小。假设控制中的方差相似是合理的吗? 更新: 感谢您的出色回答。我们从湿地中获得了更多的水和伊乐藻,并决定我们将再次使用较小的水箱进行实验,但是这次使用了5个对照和5种处理方法。我们将把它与原始数据结合起来,但是水箱的起始pH值足够不同,以至于认为新实验是从与原始实验相同的种群中采样似乎无效。 我们考虑添加不同数量的伊乐藻,并尝试将pH修复的速度(以直到pH恢复至其原始值所需的时间来衡量)与伊乐藻的数量相关联,但我们认为这是不必要的。我们的目的仅是表明伊乐藻具有积极的作用,而并非针对pH对不同数量的伊乐藻的确切反应建立某种预测模型。确定最佳的伊乐藻数量,但这可能只是可以存活的最大数量。由于增加大量社区时会发生各种复杂的变化,因此尝试对数据拟合回归曲线不会特别有意义。电极死亡,分解,新生物开始占主导地位,依此类推。

2
在热量/轮廓图中最有效地使用颜色
在介绍时频EEG发现时,通常使用热量/轮廓图。经常选择的配色方案(以及我喜欢和使用的配色方案)是“喷射”配色方案(例如,参见google图像搜索时频EEG)。我想知道是否有更好的配色方案来显示这些图,和/或显示这些图的指南。 例如,来自R基础库 #Volcano x <- 10*(1:nrow(volcano)) y <- 10*(1:ncol(volcano)) image(x, y, volcano, col = terrain.colors(100), axes = FALSE) # With Jet colours jet.colors <- colorRampPalette(c("midnightblue","blue", "cyan","green1", "yellow","orange","red", "darkred"), space="Lab") image(x, y, volcano, col = jet.colors(100), axes = FALSE)

1
lmer()可以将样条曲线用作随机效果吗?
假设我们正在研究随时间推移一些计数数据的随机效应模型,并且我们希望控制某些趋势。通常,您会执行以下操作: lmer(counts ~ dependent_variable + (1+t+I(t^2)|ID), family="poisson") 为包括二次形状t。是否可以使用一些更复杂的平滑技术(如LOESS平滑器或样条线)来建立这种关系的模型?

2
如果似然性原则与频繁出现的可能性发生冲突,那么我们是否丢弃其中之一?
在最近发表在这里的评论中,有一位评论者指向拉里·瓦瑟曼(Larry Wasserman)的博客,他指出(没有任何消息来源),频繁推断与似然原理相冲突。 似然原理简单地说,产生相似似然函数的实验应产生相似的推论。 这个问题分为两部分: 频繁推断的哪些部分,风格或派别特别违反似然性原则? 如果发生冲突,我们是否必须丢弃其中一个?如果是这样,那是哪一个?我会为就事论事表明,如果我们要丢弃的东西那么我们应该抛弃频率论者推断其冲突的部分,因为黑客和罗亚尔使我确信,可能性的原则是不言自明的。

3
解释“混合模型”的三种形式
有一个区别让我迷上了混合模型,我想知道我是否可以对此有所了解。假设您有一个计数数据的混合模型。有一个您要用作固定效果的变量(A)和另一个时间(T)变量,按“站点”变量分组。 据我了解: glmer(counts ~ A + T, data=data, family="Poisson") 是固定效果模型。 glmer(counts ~ (A + T | Site), data=data, family="Poisson") 是随机效应模型。 我的问题是,当您遇到以下情况时: glmer(counts ~ A + T + (T | Site), data=data, family="Poisson")什么是T?这是随机效应吗?固定效果?将T放在两个地方实际上完成了什么? 什么时候仅应在模型公式的“随机效应”部分中显示?

5
减少高维数据以进行可视化的方法
我正在进行2D物理模拟,并在几个时间点上及时收集数据。这些离散点沿着垂直线,在轴向上有多条线。这使得数据集有效地为4D。 例如,假设我在(X,Y)坐标处具有收集点: (0,0),(1,0),(2,0) (0,1),(1,1),(2,1) (0,2),(1,2),(2,2) 并且在每个点上我都收集,其中P是压力,T是温度,U ,V是速度的X分量和Y分量。在模拟的每次迭代中,将为所有9个收集点存储这些变量。因此,我所有的数据在空间的每个离散点上都是连续的。{ P,Ť,U,V}{P,Ť,ü,V}\{P,T,U,V\}PPPŤŤTü,Vü,VU,V 例如,单个点的数据如下所示: 我有兴趣在所有时间显示所有点的压力以显示垂直和轴向波。如果要沿着一条直线(垂直或轴向)执行此操作,则可以使用带有轴(Y,时间,压力)的瀑布图。但是,如果我有3条垂直线和3条轴向线,那将是6个瀑布图,以完整地了解两个方向上的波动。空间坐标是离散变量,而场(在本例中为“压力”)和时间是连续的。 Ť ≈ 0.000125Ť≈0.000125t\approx0.000125 有没有一种方法可以一次显示所有内容?通常可以添加颜色以使“第四”维可见,但是还有另一种可能的方法吗?我计划尽可能多地绘制它,以查看是否有任何内容可以揭示其他人没有的信息,因此请提出任何想法。 如果模拟是3D并且我有5D结果数据集怎么办?这会改变可能的可视化方法吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.