Questions tagged «probability»

概率提供了特定事件可能发生的定量描述。

7
统计谬误的名称是什么,以前的硬币抛售的结果会影响有关后续硬币抛售的信念?
众所周知,如果掷硬币时正面和反面都有相等的机会落地,那么如果您多次抛硬币,一半的时间会正面,一半的时间会反面。 在与朋友讨论这个问题时,他们说,如果您将硬币抛掷1000次,并说头100次抛硬币落在正面,那么抛尾的机会就增加了(逻辑是,如果硬币没有偏斜,那么当您将其翻转1000次时,您将大约拥有500个头和500个尾巴,因此必须更有可能出现尾巴)。 我知道这是一个谬论,因为过去的结果不会影响未来的结果。那个谬论有名字吗?另外,对于为什么这是谬误,有更好的解释吗?

7
统计概念可以解释为什么随着翻转次数的增加,您翻转头部和尾部的次数变少的可能性为何?
我正在通过阅读几本书并编写一些代码来学习概率和统计数据,并且在模拟硬币翻转时,我发现有些东西使我感到有些惊讶,这与个人的天真直觉有些相反。如果您翻转公平的硬币次首脑尾巴朝着收敛为1的比例增加,正如你所期望的。但在另一方面,由于nnnnnnnnn增加,您似乎不太可能翻转正好相同的头数,而不会翻转尾数,从而获得正好为 1 的比率。 例如(我程序的一些输出) For 100 flips, it took 27 experiments until we got an exact match (50 HEADS, 50 TAILS) For 500 flips, it took 27 experiments until we got an exact match (250 HEADS, 250 TAILS) For 1000 flips, it took 11 experiments until we got an exact …

3
“独立观察”是什么意思?
我试图理解独立观察的假设意味着什么。一些定义是: “只有当两个事件才是独立的。” (统计术语词典)P(一个∩ b )= P(一)* P(b )P(a∩b)=P(a)∗P(b)P(a \cap b) = P(a) * P(b) “一个事件的发生不会改变另一个事件的可能性”(维基百科)。 “对一个观察值进行采样不会影响对第二个观察值的选择”(David M. Lane)。 经常出现的依赖观察的一个例子是学生嵌套在教师中,如下所示。假设教师影响学生,但学生彼此不影响。 那么,这些数据如何违反这些定义?[学生= 1]的采样[等级= 7]不会影响下一个要采样的等级的概率分布。(或者是?如果是,那么观察1对下一个观察有何预测?) 如果我不进行测量 gender , 为什么观测结果是独立的teacher_id?它们不是以相同的方式影响观察结果吗? teacher_id student_id grade 1 1 7 1 2 7 1 3 6 2 4 8 2 5 8 2 6 9

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

8
在没有假设的情况下P值的丰度
我正在流行病学。我不是统计学家,但尽管经常遇到困难,但我还是尝试自己进行分析。大约2年前,我做了第一次分析。从描述表到回归分析,P值被包括在我的分析中的所有地方(我只是做了其他研究人员所做的事情)。渐渐地,在我公寓里工作的统计学家说服我跳过所有(!)p值,除非我真正有一个假设。 问题在于,p值在医学研究出版物中很丰富。通常在太多行上都包含p值;平均值,中位数或其他通常带有p值的描述性数据(学生t检验,卡方等)。 我最近向期刊提交了一篇论文,但我拒绝(礼貌地)在我的“基准”描述性表中添加p值。该文件最终被拒绝。 例如,请参见下图;这是一本受人尊敬的内科杂志上最新发表的文章的描述性表格: 统计人员大部分(如果不是总是)参与这些手稿的审阅。因此,像我这样的外行人希望在没有假设的情况下找不到任何p值。但是它们很丰富,但是对于我来说,其原因仍然难以捉摸。我发现很难相信这是无知。 我意识到这是一个临界的统计问题。但我正在寻找这种现象背后的原因。

8
寻找一本完整的概率统计书
我从来没有机会从数学系访问统计课程。我正在寻找一本完整的自给自足的概率论和统计书。完整的意思是它包含所有证明,而不仅仅是陈述结果。自给自足是指不需要阅读另一本书就能理解这本书。当然,它可能需要大学水平(数学系学生)的微积分和线性代数。 我看过多本书,但我不喜欢其中的任何一本书。 DeGroot和Schervish(2011)概率与统计(第4版)皮尔森 这还不够完整。它只是说明了很多东西而没有推导。除此之外,我喜欢它。 瓦瑟曼(Wasserman)(2004年),《所有统计资料:统计推断简明课程》。 一点都不喜欢。几乎没有解释。 David Williams的“ Weighing the Odds”比DeGroot更为正式,似乎是完整且自给自足的。但是,我发现样式很奇怪。他还发明了似乎只有他才能使用的新术语。DeGroot中解释的所有内容也在那里得到了更好的解释。 如果您知道一本很棒的德语书,那也和我是德语一样好。

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
回归中p值的含义
当我在某些软件包(例如Mathematica)中执行线性回归时,我得到与模型中各个参数关联的p值。例如,产生结果的线性回归的结果将具有与a关联的p值,以及与b关联的p值。ax+bax+bax+baaabbb 这些p值对这些参数分别意味着什么? 有没有一种通用方法可以为任何回归模型计算参数? 是否可以将与每个参数关联的p值组合为整个模型的p值? 为了使这个问题本质上保持数学性质,我仅在概率方面寻求对p值的解释。

3
负概率/概率振幅是否在量子力学之外具有应用?
量子力学将概率论广义化为负/虚数,主要用于解释干涉图,波/粒子对偶性以及诸如此类的怪异事物。但是,可以将其更抽象地视为贝叶斯概率的非可交换性(引自Terrence Tao)。我对这些事情很好奇,尽管绝不是专家。量子力学之外还有其他应用吗?只是好奇。

4
在Scrabble中不从一包字母中提取单词的可能性
假设您有一个带有nnn磁贴的袋子,每个磁贴上都有一个字母。有nAnAn_A以字母“A”,瓷砖nBnBn_B与“B”,等等,和n∗n∗n_*通配符”砖(我们有n=nA+nB+…+nZ+n∗n=nA+nB+…+nZ+n∗n = n_A + n_B + \ldots + n_Z + n_*)。假设您有一本单词数量有限的字典。您可以从袋子中挑选kkk块瓷砖,而无需更换。给定所选的kkk图块,您如何计算(或估计)从字典中形成零个单词的概率? 对于不熟悉Scrabble(TM)的用户,可以使用通配符来匹配任何字母。因此,单词[ BOOT ]可以用图块“ B”,“ *”,“ O”,“ T”“拼写”。 为了对问题的规模有一些了解,kkk很小,例如7,nnn大约为100,并且字典包含大约100,000个大小为kkk或更小的单词。 编辑: “形成单词”是指长度不超过的单词kkk。因此,如果单词[ A ]在字典中,那么即使从包中画出一个“ A”,也可以“形成一个单词”。如果可以假设字典中存在长度为1的单词,则可以大大简化通配符的问题。如果有的话,通配符的任何抽签会自动匹配长度为1个字的单词,因此,人们可以专注于没有通配符的情况。因此,问题的较滑形式在词典中没有1个字母的单词。 另外,我应该明确指出从书包中提取字母的顺序并不重要。人们不必按单词的“正确”顺序绘制字母。

4
概率符号
在许多书籍和论文中常用的符号和在含义上有什么区别?P(z;d,w)P(z;d,w)P(z;d,w)P(z|d,w)P(z|d,w)P(z|d,w)


7
两个骰子卷-顺序相同的数字
我目前正在Coursera上学习统计推理课程。在一项作业中,出现以下问题。 | Suppose you rolled the fair die twice. What is the probability of rolling the same number two times in a row? 1: 2/6 2: 1/36 3: 0 4: 1/6 Selection: 2 | You're close...I can feel it! Try it again. | Since we don't care what the outcome …

1
统计,线性代数和机器学习中的经典符号是什么?这些符号之间有什么联系?
当我们阅读一本书时,理解符号在理解内容方面起着非常重要的作用。不幸的是,对于模型和优化问题的公式化,不同的社区有不同的符号约定。有人可以在这里总结一些配方符号并提供可能的原因吗? 我在这里举一个例子:在线性代数文学中,经典著作是Strang 对线性代数的介绍。本书中最常用的符号是 Ax=bAx=b A x=b 其中是系数矩阵,是要求解的变量,是等式右侧的向量。该理由书选择这个符号是线性代数的主要目标是解决线性系统和弄清楚什么是矢量。给定这样的公式,OLS优化问题是x b xAAAxxxbbbxxx minimizex ∥Ax−b∥2minimizex ‖Ax−b‖2 \underset{x}{\text{minimize}}~~ \|A x-b\|^2 在统计学或机器学习素养(摘自《统计学学习的要素》一书中)中,人们使用不同的表示法来表示同一件事: Xβ=yXβ=yX \beta= y 其中XXX是数据矩阵,ββ\beta是要学习的学习系数或权重,yyy是响应。人们之所以使用它,是因为统计或机器学习社区中的人们是数据驱动的,因此数据和响应对他们来说是最有趣的事情,他们使用XXX和yyy来表示。 现在我们可以看到所有可能的混淆:第一个方程式中的AAA与第二个方程式中的X相同XXX。在第二个方程中,XXX不需要解决。同样针对以下术语:AAA是线性代数中的系数矩阵,但它是统计中的数据。ββ\beta也称为“系数”。 另外,我提到Xβ=yXβ=yX \beta=y并不是人们在机器学习中广泛使用的确切名称,人们使用半矢量化版本来汇总所有数据点。如 min∑iL(yi,f(xi))min∑iL(yi,f(xi)) \min \sum_i \text{L}(y_i,f(x_i)) 我认为这样做的原因是,当谈论随机梯度下降和其他不同的损失函数时,它是很好的。同样,对于线性回归以外的其他问题,简洁的矩阵符号也消失了。 逻辑回归的矩阵符号 任何人都可以对不同文献的符号进行更多的总结吗?我希望这个问题的明智答案可以为阅读不同文学作品的人们提供良好的参考。 请不要受到我的示例 Ax=bAx=bA x=b和Xβ=yXβ=yX \beta=y。还有很多。如 为什么会有两种不同的逻辑损失表述/符号?

6
我是由1300年出生的某个人继承而来的可能性有多大?
换句话说,基于以下内容,p是多少? 为了使这成为数学问题,而不是人类学或社会科学问题,并简化该问题,假定在整个人口中选择同伴的概率相同,除了兄弟姐妹和第一代表亲从未交配,并且总是从同一个中选择同伴代。 n1n1n_1初始人口 ggg数代。 ccc每对夫妇的平均子女数。(如果需要答案,请假设每对夫妇的子女数完全相同。) zzz没有孩子并且不被视为伴侣的人口百分比。 n 2 zn2n2n_2人口。(应该给出或,(我认为)可以计算出另一个。)n2n2n_2zzz ppp最终一代中某人成为初始一代中特定人的后代的概率。 这些变量当然可以更改,省略或添加。为了简单起见,我假设和不会随时间变化。我意识到这将得到一个非常粗略的估计,但这是一个起点。ccczzz 第2部分(建议进一步研究): 您如何认为未以全局一致的概率选择伴侣?实际上,伴侣更有可能具有相同的地理区域,社会经济背景,种族和宗教背景。如果不研究此问题的实际概率,这些因素的变量将如何发挥作用?这有多重要?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.