统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

4
分类概率阈值
我有一个关于分类的问题。令f为一个分类器,在给定一些数据D的情况下输出一组概率。通常,人们会说:好吧,如果P(c | D)> 0.5,我们将分配一个类1,否则将分配一个0(将其设为二进制)分类)。 我的问题是,如果我发现,如果我将概率也大于1,即0.2,则分类器的性能会更好。在进行分类时使用此新阈值是否合法? 我将解释在数据发出较小信号的情况下降低分类界限的必要性;但对于分类问题仍然很重要。 我意识到这是一种实现方法,但是如果这不是正确的想法,那将是什么数据转换,它们以类似的方式强调各个特征,因此阈值可以保持在0.5?



2
应该如何解释不同样本量的均值比较?
以网站上的书评为例。10,000人对A本书进行了评分,平均评分为4.25,方差。同样,书籍B由100个人进行评分,并且的评分为4.5 。σ=0.5σ=0.5\sigma = 0.5σ=0.25σ=0.25\sigma = 0.25 现在,由于图书A的样本量很大,“均值稳定”到4.25。现在,对于100个人来说,如果更多的人阅读B书,则平均评分可能会降至4或4.25。 一个人应该如何解释不同样本的均值比较?一个人可以/应该得出的最佳结论是什么? 例如-我们真的可以说Book B比Book A好吗?

1
Bootstrap与Jackknife
引导法和折刀法都可以用来估计估计值的偏差和标准误差,并且两种重采样方法的机制也没有很大的不同:一次替换采样与一次不进行观察。但是,折刀在研究和实践中不像自举法那样受欢迎。 使用引导程序而不使用折刀刀有明显的优势吗?

6
亚马逊的“平均评分”会误导吗?
如果我理解正确,则图书评分为1-5的等级就是李克特分数。也就是说,对我来说3不一定代表其他人3。这是有序规模的IMO。一个不应该真正地平均序数标度,但绝对可以采用众数,中位数和百分位数。 那么,既然大部分人口比上述统计数据都了解经济手段,那么弯曲规则就可以吗?尽管研究界强烈谴责采用基于李克特量表的数据的平均值,但与大众一起这样做(实际上)是可以的吗?在这种情况下,以平均值为起点是否会产生误导? 像亚马逊这样的公司似乎不太可能迷失于基本统计数据,但是如果不是这样的话,我在这里会缺少什么呢?我们是否可以说序数标度是序数的便利近似值以证明采用均值是合理的?有什么理由?

4
为什么X和XY随机变量之间的相关系数趋于0.7
摘自道格拉斯·奥特曼(Douglas Altman)在第285页上写的《医学研究实用统计》: ...对于任意两个X和Y,X将与XY相关。确实,即使X和Y是随机数的样本,我们也希望X和XY的相关性为0.7 我在R中尝试过这种情况,似乎是这样的: x <- rnorm(1000000, 10, 2) y <- rnorm(1000000, 10, 2) cor(x, x-y) xu <- sample(1:100, size = 1000000, replace = T) yu <- sample(1:100, size = 1000000, replace = T) cor(xu, xu-yu) 这是为什么?这背后的理论是什么?


2
随机效应模型,固定效应模型和边际模型之间有什么区别?
我正在尝试扩展我的统计知识。我来自物理科学背景,采用“基于配方”的方法进行统计测试,我们说它是连续的,是否呈正态分布-OLS回归。 在阅读中,我遇到了以下术语:随机效应模型,固定效应模型,边际模型。我的问题是: 简单来说,它们是什么? 它们之间有什么区别? 他们有同义词吗? 传统测试(例如OLS回归,ANOVA和ANCOVA)在哪里分类? 只是尝试决定自学的下一步。

6
记住敏感性,特异性,准确性,准确性和召回率之间差异的最佳方法是什么?
尽管已经看过502847894789次这些术语,但我一生都无法记住灵敏度,特异性,精度,准确性和召回率之间的差异。它们是非常简单的概念,但是名称对我来说是非常不直观的,因此我一直使它们彼此混淆。什么是考虑这些概念的好方法,以便使名称开始有意义? 换句话说,为什么为这些概念选择了这些名称,而不是其他一些名称?



4
相关系数= 0.2是否表示“只有五分之一的人”存在关联?
迪恩·伯内特( Dean Burnett )在《白痴的大脑:神经科学家解释你的头到底在做什么》一书中 身高和智力之间的关系通常被引用为约,这意味着身高和智力似乎只待相关1中5人。0.20.20.21个11555 对我来说,这听起来是错误的:我更了解相关性,就像我们试图预测一个量度(此处为智力)时所得到的(缺乏)错误一样,如果我们唯一了解的那个人是另一个量度(此处为身高)。如果相关系数为或− 1,则我们的预测中不会出错,如果相关系数为0.8,则误差更大。因此,相关性将适用于任何一个,而不是仅仅1中的5人。1个11− 1−1-10.80.80.81个11555 我已经看过这个问题,但是我的数学能力不足以理解答案。这个关于线性关系强度的答案似乎符合我的理解,但我不确定。

4
在t检验中根据t值手动计算P值
我有一个31个值的样本数据集。我使用R进行了两尾t检验,以检验真实均值是否等于10: t.test(x=data, mu=10, conf.level=0.95) 输出: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 23.26907 sample estimates: mean of x 21.22944 现在,我正在尝试手动执行相同的操作: t.value = (mean(data) - 10) / (sd(data) / sqrt(length(data))) p.value = dt(t.value, df=length(lengths-1)) 使用此方法计算的t值与t检验R函数的输出相同。但是,p值为3.025803e-12。 …

3
递归与递归神经网络:哪个对NLP更好?
有递归神经网络和递归神经网络。两者通常用相同的缩写词表示:RNN。根据Wikipedia的说法,递归NN实际上是递归NN,但我并不真正理解这种解释。 而且,我似乎没有发现哪个(对于示例而言)对自然语言处理更好。事实是,尽管Socher在其教程中将递归NN用于NLP ,但我找不到递归神经网络的良好实现,并且当我在Google中进行搜索时,大多数答案都与递归NN有关。 除此之外,还有其他DNN更适合NLP还是取决于NLP任务?信仰网还是堆叠式自动编码器?(我似乎没有在NLP中为ConvNets找到任何特定的util,并且大多数实现都考虑到了机器视觉)。 最后,我真的更喜欢C ++(如果支持GPU,则更好)或Scala(如果支持Spark,则更好)的DNN实现,而不是Python或Matlab / Octave。 我已经尝试过Deeplearning4j,但是它正在不断开发中,文档有些过时了,我似乎无法使其正常工作。太糟糕了,因为它具有类似于“黑匣子”的处理方式,非常类似于scikit-learn或Weka,这正是我真正想要的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.