统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

6
分解类别变量具有多个级别的原则方法?
有哪些技术可用于将多个类别折叠(或合并)成几个类别,以便在统计模型中将它们用作输入(预测变量)? 考虑像大学生专业这样的变量(由本科生选择的学科)。它是无序的和绝对的,但它可能具有许多不同的层次。假设我想在回归模型中使用major作为预测变量。 按原样使用这些级别进行建模会导致各种问题,因为存在的问题太多了。使用它们会丢弃很多统计精度,并且结果难以解释。我们很少对特定专业感兴趣-我们更可能对广泛的专业类别(子组)感兴趣。但是,并不总是很清楚如何将这些级别划分为这些更高级别的类别,或者甚至要使用多少个更高级别的类别。 对于典型数据,我很乐意使用因子分析,矩阵分解或离散的潜在建模技术。但是专业是互斥的类别,因此我不愿意在任何事情上利用它们的协方差。 此外,我自己并不关心主要类别。我关心产生与我的回归结果相关的更高层次的类别。在二元结果的情况下,对我而言,这建议使用诸如线性判别分析(LDA)之类的方法来生成可最大化判别性能的高级类别。但是LDA是一种受限制的技术,感觉像是肮脏的数据正在挖给我。而且,任何连续的解决方案都将难以解释。 同时,在这种情况下,基于协方差的东西(如多重对应分析(MCA))在我看来是令人怀疑的,因为互斥的虚拟变量之间存在内在的依赖关系-它们更适合用于研究多个类别变量,而不是研究多个类别变量相同的变量。 编辑:要清楚,这是关于折叠类别(不选择它们),并且类别是预测变量或自变量。事后看来,这个问题似乎是“正规化所有事物并让上帝整理出它们的合适时机”。很高兴看到这个问题对很多人都感兴趣!



11
脑筋急转弯:如何使用具有pr(head)= p的偏向硬币以相等的概率生成7个整数?
这是我在Glassdoor上发现的一个问题:如何使用具有的硬币以相等的概率生成7个整数Pr(Head)=p∈(0,1)Pr(Head)=p∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1)? 基本上,您有一个硬币,可能是公平的,也可能是不公平的,这是唯一的随机数生成过程,因此想出一个随机数生成器,它输出从1到7的整数,其中获得每个整数的概率是1/7。 数据生成过程的效率至关重要。

3
平均绝对误差或均方根误差?
为什么要使用均方根误差(RMSE)而不是均方根绝对误差(MAE)? 你好 我一直在研究在计算中产生的误差-我最初将误差计算为均方根标准化平方误差。 仔细观察,我发现平方误差的效果比较小的误差赋予更大的权重,将误差估计偏向奇异的异常值。回想起来,这是显而易见的。 所以我的问题是-在什么情况下,均方根误差比平均绝对误差更适合度量误差?后者对我来说似乎更合适,或者我缺少什么? 为了说明这一点,我在下面附加了一个示例: 散点图显示了两个具有良好相关性的变量, 右边的两个直方图使用标准化的RMSE(顶部)和MAE(底部)绘制了Y(观察到的)和Y(预测的)之间的误差。 该数据没有明显的异常值,MAE的误差低于RMSE。除了使用MAE之外,是否有任何一种合理的方法来使用一种误差度量来代替另一种误差度量?
58 least-squares  mean  rms  mae 

2
如何在ggplot2中更改图例的标题?[关闭]
我在ggplot2中绘制了一个图表,以汇总来自2 x 4 x 3单元格数据集的数据。我已经能够使用制作2级变量的面板,并使用facet_grid(. ~ Age)来设置x和y轴aes(x=4leveledVariable, y=DV)。aes(group=3leveledvariable, lty=3leveledvariable)到目前为止,我以前一直在制作情节。这给了我一个由2级变量覆盖的可视化效果,X轴代表4级变量,并且在面板上为3级变量绘制了不同的线。但是3级变量的键以3级变量的名称作为标题,我希望它成为一个具有字符空间的标题。如何重命名图例的标题? 我尝试过的东西似乎不起作用(abp我的ggplot2对象在哪里): abp <- abp + opts(legend.title="Town Name") abp <- abp + scale_fill_continuous("Town Name") abp <- abp + opts(group="Town Name") abp <- abp + opts(legend.title="Town Name") 示例数据: ex.data <- data.frame(DV=rnorm(2*4*3), V2=rep(1:2,each=4*3), V4=rep(1:4,each=3), V3=1:3)

1
了解ROC曲线
我在理解ROC曲线时遇到问题。 如果我从训练集的每个唯一子集构建不同的模型并使用它来产生概率,ROC曲线下的面积是否有任何优势/改善?例如,如果具有值{ 一个,一,一,一,b ,b ,b ,b },和我建立模型阿通过使用一个从第一-第四值ÿ的和8-9值ÿ和构建使用剩余火车数据的模型B。最后,产生概率。任何想法/意见将不胜感激。yyy{a,a,a,a,b,b,b,b}{a,a,a,a,b,b,b,b}\{a, a, a, a, b, b, b, b\}AAAaaayyyyyyBBB 这是用于我的问题的更好解释的r代码: Y = factor(0,0,0,0,1,1,1,1) X = matirx(rnorm(16,8,2)) ind = c(1,4,8,9) ind2 = -ind mod_A = rpart(Y[ind]~X[ind,]) mod_B = rpart(Y[-ind]~X[-ind,]) mod_full = rpart(Y~X) pred = numeric(8) pred_combine[ind] = predict(mod_A,type='prob') pred_combine[-ind] = predict(mod_B,type='prob') pred_full = predict(mod_full, type='prob') 所以我的问题是,的ROC曲线下面积pred_combineVS …
57 r  roc 


1
为什么建议对计数数据使用平方根变换?
当您拥有计数数据时,通常建议取平方根。(有关简历一些例子,看看@ HarveyMotulsky的答案在这里,或@ whuber的答案在这里。)另外,装修与分布泊松响应变量广义线性模型时,日志是规范链接。这有点像对响应数据进行对数转换(尽管更准确地说,是对控制响应分布的参数进行对数转换)。因此,这两者之间存在某种张力。 λλ\lambda 您如何调和这种(明显的)差异? 为什么平方根比对数好?

13
连续10个头是否增加了下一次折腾成为尾巴的机会?
我假设以下情况是正确的:假设硬币是公平的,则抛硬币时连续获得10个正面,这并不会增加下一个抛硬币成为尾巴的机会,无论周围扔了多少概率和/或统计术语(打扰) 假设情况是这样,我的问题是:我该如何说服某人呢? 他们很聪明,受过良好教育,但似乎决心不考虑我在这个问题上的正确性。


7
在小样本中矩方法可以击败最大似然性的示例?
最大似然估计器(MLE)渐近有效。我们看到实际的结果是,即使在小样本量下,它们通常也比矩量法(MoM)估计(当它们不同时)要好 在这里,“优于”是指在两者均无偏的情况下通常具有较小的方差,并且更一般地,通常具有较小的均方误差(MSE)。 问题出现了,但是: 在小样本中,MoM是否能击败MLE(例如MSE)? (在这种情况下,不是奇数/简并的情况-即考虑到ML存在的条件/渐近有效保持) 接下来的问题将是“小可以多大?” -也就是说,如果有示例,是否仍然有一些示例在相对较大的样本量(甚至所有有限的样本量)下仍然有效? [我可以找到一个有偏估计器的示例,它可以在有限样本中击败ML,但它不是MoM。] 追溯性地添加注释:我在这里的重点主要是单变量情况(这实际上是我潜在的好奇心来自何处)。我不想排除多变量情况,但我也不想特别涉入James-Stein估计的扩展讨论。

4
在模型中添加二次项而不是线性项是否有意义?
我有一个(混合)模型,其中我的一个预测变量应该与该预测变量呈二次相关关系(由于实验操作)。因此,我只想将二次项添加到模型中。有两件事使我无法这样做: 我想我读过一些话,在拟合高阶多项式时,应始终包含低阶多项式。我忘了在哪里找到它,在我看过的文献中(例如Faraway,2002; Fox,2002),我找不到很好的解释。 当我同时添加线性和二次项时,两者都是有意义的。当我仅添加其中一个时,它们并不重要。但是,预测变量和数据之间的线性关系无法解释。 我的问题的上下文具体是使用的混合模型lme4,但是我想获得可以解释为什么是这样的答案,或者为什么不包括高阶多项式而不是低阶多项式的原因。 如有必要,我可以提供数据。

5
应将多少数量加到x上,以避免取零的对数?
我已经分析了我的数据。现在,我想在记录所有变量后查看分析。许多变量包含许多零。因此,我添加少量以避免对数为零。 到目前为止,我确实没有任何理由就添加了10 ^ -10,只是因为我觉得建议添加一个很小的数量以最小化我任意选择的数量的影响。但是某些变量大多包含零,因此在记录时大多数为-23.02。我的变量的范围是1.33-8819.21,零频率也有很大变化。因此,我个人选择的“少量”对变量的影响非常不同。现在很明显,10 ^ -10是完全不可接受的选择,因为所有变量中的大多数方差都来自这个任意的“小数量”。 我想知道什么是更正确的方法。 也许最好从每个变量的单独分布中得出数量?是否有关于“小数量”应该有多大的准则? 我的分析大部分是简单的Cox模型,每个变量和年龄/性别为IV。变量是各种血脂的浓度,通常具有相当大的变异系数。 编辑:添加变量的最小非零值似乎对我的数据很实用。但是也许有一个通用的解决方案? 编辑2:由于零仅表示浓度低于检测极限,也许将它们设置为(检测极限)/ 2是合适的吗?

17
机器学习食谱/参考卡/备忘单?
我发现诸如《概率统计手册》和《 R数据挖掘参考卡》等资源非常有用。它们显然可以很好地用作参考,但也可以帮助我整理我对某个主题的想法并获得帮助。 问:是否存在类似这些资源的机器学习方法? 我正在想象一个针对每种ML方法的参考卡,其中包括: 一般性质 该方法行之有效 当方法效果不佳时 该方法从哪个方法推广到哪个其他方法。是否已被大部分取代? 关于该方法的开创性论文 与方法相关的未解决问题 计算强度 我敢肯定,只需阅读一些教科书,就可以找到所有这些东西。将它们放在几页上真的很方便。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.