统计和大数据 bernoulli-distribution

2

考虑一个带有参数（成功概率）的伯努利随机变量。似然函数和Fisher信息（矩阵）为：X∈{0,1}X∈{0,1}X\in\{0,1\}θθ\theta1×11×11 \times 1 L1(θ;X)I1(θ)=p(X|θ)=θX(1−θ)1−X=detI1(θ)=1θ(1−θ)L1(θ;X)=p(X|θ)=θX(1−θ)1−XI1(θ)=detI1(θ)=1θ(1−θ) \begin{align} \mathcal{L}_1(\theta;X) &= p(\left.X\right|\theta) = \theta^{X}(1-\theta)^{1-X} \\ \mathcal{I}_1(\theta) &= \det \mathcal{I}_1(\theta) = \frac{1}{\theta(1-\theta)} \end{align} 现在考虑带有两个参数的“过度参数化”版本：成功概率θ1θ1\theta_1和失败概率θ0θ0\theta_0。（请注意θ1+θ0=1θ1+θ0=1\theta_1+\theta_0=1，并且此约束表示参数之一是多余的。）在这种情况下，似然函数和Fisher信息矩阵（FIM）为： L2(θ1,θ0;X)I2(θ1,θ0)detI2(θ)=p(X|θ1,θ0)=θX1θ1−X0=(1θ1001θ0)=1θ1θ0=1θ1(1−θ1)L2(θ1,θ0;X)=p(X|θ1,θ0)=θ1Xθ01−XI2(θ1,θ0)=(1θ1001θ0)detI2(θ)=1θ1θ0=1θ1(1−θ1) \begin{align} \mathcal{L}_2(\theta_1,\theta_0;X) &= p(\left.X\right|\theta_1,\theta_0) = \theta_1^{X}\theta_0^{1-X} \\ \mathcal{I}_2(\theta_1,\theta_0) &= \left( \begin{matrix} \frac{1}{\theta_1} & 0 \\ 0 & \frac{1}{\theta_0} \end{matrix} \right) \\ \det \mathcal{I}_2(\theta) &= \frac{1}{\theta_1 \theta_0} = \frac{1}{\theta_1 (1-\theta_1)} \end{align} …

10 bernoulli-distribution parameterization fisher-information determinant

1

检查硬币是否公平

一位朋友问我以下问题。我不能帮她，但我希望有人可以向我解释。我找不到类似的示例。感谢您的帮助和解释。问：100次抛硬币实验的结果记录为0 =“ Tail”和1 =“ Head”。输出x是0的字符串，长度为100的1。计算x中得到1-0-0的次数，它是20（例如：如果x =（001001110100），1-0-0发生2次）。您认为这是一个公平的硬币吗？

9 probability inference bernoulli-distribution

1

哪种深度学习模型可以对不互斥的类别进行分类

示例：我的职位描述中有一句话：“英国Java高级工程师”。我想使用深度学习模型将其预测为2类：English 和IT jobs。如果我使用传统的分类模型，则只能预测softmax最后一层具有功能的标签。因此，我可以使用2个模型神经网络来预测两个类别的“是” /“否”，但是如果我们有更多类别，那就太贵了。那么，我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别？ “编辑”：使用传统方法使用3个标签，它将由[1,0,0]编码，但在我的情况下，它将由[1,1,0]或[1,1,1]编码示例：如果我们有3个标签，并且所有这些标签都适合一个句子。因此，如果softmax函数的输出为[0.45，0.35，0.2]，我们应该将其分类为3个标签或2个标签，或者可以是一个？我们这样做的主要问题是：分类为1个，2个或3个标签的最佳阈值是多少？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

4

如何解释考克斯风险模型的生存曲线？

您如何从考克斯比例风险模型解释生存曲线？在这个玩具示例中，假设我们对数据age变量有一个cox比例风险模型kidney，并生成了生存曲线。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() 例如，在时间，哪个说法是正确的？还是两者都不对？200200200 陈述1：我们将剩下20％的主题（例如，如果我们有人，那么到200天时，我们应该剩下200个左右）， 100010001000200200200200200200 陈述2：对于一个给定的人，他/她有200 20%20%20\%机会在200天生存200200200。我的尝试：我不认为这两个陈述是相同的（如果我错了，请纠正我），因为我们没有iid假设（所有人的生存时间不是独立地来自一个分布）。在这里我的问题类似于逻辑回归，每个人的危险率取决于该人的。βTxβTx\beta^Tx

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

3

模拟概率

谁能告诉我如何模拟Bernoulli(ab)Bernoulli(ab)\mathrm{Bernoulli}\left({a\over b}\right)，其中，a,b∈Na,b∈Na,b\in \mathbb{N}，使用抛硬币（如多次，你需要）与P(H）= pP(H)=pP(H)=p？我当时在考虑使用拒绝采样，但无法确定。

9 probability simulation bernoulli-distribution rejection-sampling

3

Rademacher随机变量的乘积和

令是独立随机变量，其值分别为或，概率分别为0.5。考虑和。我希望将概率上限。我现在的最佳界限是，其中c是一个通用常数。这是通过应用简单的Chernoff 边界对概率Pr（| x_1 + \ dots + x_n | <\ sqrt {t}）和Pr（| y_1 + \ dots y_n | <\ sqrt {t}）进行下限来实现的。我能希望得到比这个界限更好的东西吗？首先，我至少可以得到x1…xa,y1…ybx1…xa,y1…ybx_1 \ldots x_a,y_1 \ldots y_b+1+1+1−1−1-1S=∑i,jxi×yjS=∑i,jxi×yjS = \sum_{i,j} x_i\times y_jP(|S|>t)P(|S|>t)P(|S| > t)2e−ctmax(a,b)2e−ctmax(a,b)2e^{-\frac{ct}{\max(a,b)}}cccPr(|x1+⋯+xn|<t√)Pr(|x1+⋯+xn|<t)Pr(|x_1 + \dots + x_n|<\sqrt{t})Pr(|y1+⋯+yn|<t√)Pr(|y1+⋯+yn|<t)Pr(|y_1 + \dots + y_n|<\sqrt{t})e−ctab√e−ctabe^{-c\frac{t}{\sqrt{ab}}}。如果我可以得到次高斯的尾巴，那可能是最好的，但是我们可以期望吗（我不这样认为，但也不能想到一个论点）？

9 probability random-variable bernoulli-distribution

Questions tagged «bernoulli-distribution»