统计和大数据 binomial

4

这是我得到的一个简单的统计问题。我不太确定我是否理解。 X =考试中获得的分数（多项选择和正确答案是1分）。X二项式分布吗？教授的答案是：是的，因为只有正确或错误的答案。我的答案：不，因为每个问题都有不同的“成功概率” p。据我所知，二项式分布只是一系列的伯努利实验，每个实验都有一个简单的结果（成功或失败），并且具有给定的成功概率p（并且所有关于p都是“相同的”）。例如，将（普通）硬币翻转100次，这就是100次Bernoulli实验，所有实验都具有p = 0.5。但是这里的问题有不同的p对吗？

31 self-study binomial

4

Logistic回归-错误项及其分布

关于逻辑回归中是否存在错误项（及其假设分布），我在不同地方读到：没有错误项误差项具有二项式分布（根据响应变量的分布）错误项具有逻辑分布有人可以澄清一下吗？

31 logistic binomial bernoulli-distribution logistic-distribution

2

什么是准二项式分布（在GLM中）？

我希望有人能够提供关于准二项式分布及其作用的直观概述。我对这些要点特别感兴趣：准二项式与二项式分布有何不同。当响应变量是一个比例（示例值包括0.23、0.11、0.78、0.98）时，准二项式模型将在R中运行，而二项式模型则不会。当TRUE / FALSE响应变量过度分散时，为什么要使用准二项式模型。

30 r generalized-linear-model binomial overdispersion quasi-likelihood

1

二项式分布函数何时高于/低于其极限泊松分布函数？

令表示二项分布函数（DF），其参数和在： \ begin {equation} B（n，p，r）= \ sum_ {i = 0} ^ r \ binom {n} {i} p ^ i（1-p）^ {ni}，\ end {equation } 和让F（\ NU，R）表示泊松DF与参数A \在\ mathbb R 2 +在评价中的R \ \ {0,1,2，\ ldots \} ： \开始{方程} F（一，r）= e ^ {-a} \ sum_ {i = 0} ^ r \ frac …

30 binomial poisson-distribution convergence probability-inequalities

6

二项式置信区间估计-为什么不对称？

我已经使用以下r代码来估计二项式比例的置信区间，因为我知道在设计着眼于人群疾病检测的接收器工作特性曲线设计时，它可以替代“功效计算”。 n为150，我们相信这种疾病在人群中的流行率为25％。我已经计算出75％的敏感性和90％的特异性的值（因为这似乎是人们所做的）。 binom.test(c(29,9), p=0.75, alternative=c("t"), conf.level=0.95) binom.test(c(100, 12), p=0.90, alternative=c("t"), conf.level=0.95) 我还访问了该站点： http://statpages.org/confint.html 这是一个计算二项式置信区间的Java页面，并且给出相同的答案。无论如何，经过漫长的设置之后，我想问一下为什么置信区间不是对称的，例如灵敏度是 95 percent confidence interval: 0.5975876 0.8855583 sample estimate probability: 0.7631579 抱歉，如果这是一个愚蠢的问题，但我看起来似乎到处都暗示它们将是对称的，而我的一位同事似乎也认为它们也会如此。

30 confidence-interval binomial

1

从lmer模型计算效果的可重复性

我刚刚碰到了这篇论文，该论文描述了如何通过混合效应建模来计算测量的可重复性（又称可靠性，又称类内相关性）。R代码为： #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

6

二项式和Beta分布之间的关系

我不是程序员而是统计学家，所以我希望这个问题不要太幼稚。它发生在随机执行的采样程序执行中。如果我对程序状态进行N = 10个随机时间采样，则可以看到函数Foo在例如这些采样中的I = 3上执行。我对这能告诉我有关Foo执行的实际时间F的时间感兴趣。我知道我是二项分布的，均值F * N。我也知道，给定I和N，F遵循beta分布。实际上，我已经通过程序验证了这两个分布之间的关系，即 cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1 问题是我对这种关系没有直觉。我无法“想象”它为什么起作用。编辑：所有答案都是具有挑战性的，尤其是@whuber，我仍然需要了解，但整理订单统计数据非常有帮助。尽管如此，我已经意识到我应该问一个更基本的问题：给定I和N，F的分布是什么？每个人都指出它是Beta，我知道。我终于从维基百科（先前的共轭）中弄清楚了Beta(I+1, N-I+1)。使用程序进行探索之后，这似乎是正确的答案。所以，我想知道我是否错。而且，我仍然对上面显示的两个CDF之间的关系，为什么它们求和为1，以及它们甚至与我真正想知道的事情有什么关系感到困惑。

27 binomial beta-binomial beta-distribution

4

二项式，负二项式和Poisson回归之间的差异

我正在寻找有关二项式，负二项式和泊松回归之间差异的信息，以及这些回归最适合哪种情况。我是否可以在SPSS中执行任何测试，以告诉我这些回归中哪一个最适合我的情况？另外，由于没有在回归部分可以看到的选项，因此如何在SPSS中运行泊松或负二项式？如果您有任何有用的链接，我将非常感谢。

26 spss references binomial poisson-distribution negative-binomial

2

为什么连续性校正（例如，对二项式分布的正态近似）起作用？

我希望更好地了解如何得出对正态近似的二项式分布的连续性校正。用什么方法决定我们应该加1/2（为什么不加另一个数字？）。任何解释（或建议的读数的链路，比其它此，将被理解的）。

24 binomial asymptotics

4

在R中确定两个样本比例二项式检验（以及一些奇怪的p值）

我正在尝试解决以下问题：玩家A在25场比赛中赢得17场比赛，而玩家B在20场比赛中赢得8场比赛-两种比率之间是否有显着差异？在R中想到的事情如下： > prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, df = 1, p-value = 0.06034 alternative hypothesis: two.sided 95 percent confidence interval: -0.002016956 0.562016956 sample estimates: prop 1 prop 2 0.68 0.40 因此，该测试表明，在95％的置信水平下，差异并不显着。因为我们知道那prop.test()仅是使用近似值，所以我想通过使用精确的二项式检验使事情更精确-并且我同时采用了两种方法： > …

23 r hypothesis-testing statistical-significance binomial proportion

3

负二项分布与二项分布

负二项式分布和二项式分布有什么区别？我尝试在线阅读，发现当数据点离散时使用负二项式分布，但是我认为即使二项分布也可以用于离散数据点。

22 categorical-data data-mining binomial negative-binomial

1

生成相关的二项式随机变量

我想知道遵循线性变换方法是否可能生成相关的随机二项式变量？下面，我尝试了一些简单的R语言，它产生了一些相关性。但是我想知道是否有原则性的方法可以做到这一点？ X1 = rbinom(1e4, 6, .5) ; X2 = rbinom(1e4, 6, .5) ; X3 = rbinom(1e4, 6, .5) ; a = .5 Y1 = X1 + (a*X2) ; Y2 = X2 + (a*X3) ## Y1 and Y2 are supposed to be correlated cor(Y1, Y2)

21 r correlation binomial random-generation bernoulli-distribution

4

如何将新向量投影到PCA空间上？

执行主成分分析（PCA）之后，我想将一个新向量投影到PCA空间上（即在PCA坐标系中找到其坐标）。我已经使用R计算了R语言的PCA prcomp。现在，我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

二项式回归和逻辑回归之间有什么区别？

我一直认为逻辑回归只是二项式回归的一种特殊情况，其中链接函数是逻辑函数（而不是概率函数）。但是，通过阅读我遇到的另一个问题的答案，听起来我可能会感到困惑，并且逻辑回归和具有逻辑联系的二项式回归之间存在差异。有什么不同？

20 regression logistic binomial

4

边缘情况下精度和召回率的正确值是多少？

精度定义为： p = true positives / (true positives + false positives) 对不对，作为true positives和false positives做法0，精度接近1？召回相同的问题： r = true positives / (true positives + false negatives) 我目前正在实施统计测试，需要计算这些值，有时分母为0，我想知道在这种情况下应返回哪个值。 PS：请原谅，不恰当的标签，我想用recall，precision和limit，但我不能创造新的标签呢。

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

Questions tagged «binomial»