Questions tagged «distributions»

分布是概率或频率的数学描述。

7
如何基于任意离散分布生成数字?
如何基于任意离散分布生成数字? 例如,我有一组要生成的数字。假设它们从1-3标记如下。 1:4%,2:50%,3:46% 基本上,百分比是它们将出现在随机数生成器的输出中的概率。我有一个伪随机数生成器,它将在间隔[0,1]中生成均匀分布。有什么办法吗? 我可以拥有多少个元素没有限制,但是%总计为100%。

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
R中是否有用于离散均匀分布的默认函数?
R中的大多数标准发行版都有一系列命令-pdf / pmf,cdf / cmf,分位数,随机偏差(例如dnorm,pnorm,qnorm,rnorm)。 我知道使用一些标准命令来为离散均匀分布再现这些函数很容易,但是我是否已经意识到我不知道的用于内置建模R中离散均匀分布的首选函数家族?

6
用外行的话来说,模型和分布之间有什么区别?
维基百科上定义的答案(定义)对于那些不熟悉高等数学/统计学的人来说可能有点神秘。 用数学术语来说,统计模型通常被认为是一对(),其中是可能的观测值的集合,即样本空间,而是概率分布的集合在。小号P小号小号,PS,PS, \mathcal{P}小号SSPP\mathcal{P}小号SS 在概率和统计中,概率分布将概率分配给随机实验,调查或统计推断程序的可能结果的每个可测量子集。发现样本空间非数字的示例,其中的分布为分类分布。 我是一名高中生,在业余爱好这一领域非常感兴趣,目前正在努力解决a statistical model和a 之间的差异probability distribution 我目前的并且非常基本的理解是: 统计模型是对测得分布进行近似的数学尝试 概率分布是对实验的测量描述,将概率分配给随机事件的每个可能结果 文献中倾向于互换使用“分布”和“模型”一词,或者至少在非常相似的情况下(例如,二项式分布与二项式模型),这种混淆进一步加剧了混乱。 有人可以验证/纠正我的定义,也许可以为这些概念提供更正式的方法(尽管仍然用简单的英语表达)?

2
为什么RSS分布卡方数np?
我想了解为什么在OLS模型下RSS(残差平方和)分布为(是模型中参数的数量,是观测值的数量)。χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn 对于提出这样的基本问题,我深表歉意,但似乎无法在线(或在我的面向应用程序的教科书中)找到答案。

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
Dirichlet分布中的alpha到底是什么?
我对贝叶斯统计非常陌生,遇到了一种校正的相关度量SparCC,该度量在其算法的后端使用Dirichlet流程。我一直在尝试逐步了解算法,以真正理解正在发生的事情,但是我不确定alpha在Dirichlet分布中矢量参数的作用以及如何规范化alpha矢量参数? 该实现Python使用的是NumPy:https : //docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html 文档说: alpha:数组分布的参数(k维为k维样本)。 我的问题: 如何将alphas影响分布?; 如何alphas被标准化?和 当alphas不是整数时会发生什么? import numpy as np import pandas as pd import matplotlib.pyplot as plt # Reproducibility np.random.seed(0) # Integer values for alphas alphas = np.arange(10) # array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) # Dirichlet Distribution dd = np.random.dirichlet(alphas) …


7
分布假设检验-如果您不能“接受”原假设,那么这样做有什么意义呢?
各种假设检验,例如 GOF检验,Kolmogorov-Smirnov,Anderson-Darling等,都遵循以下基本格式:χ2χ2\chi^{2} H0H0H_0:数据遵循给定的分布。 H1H1H_1:数据不遵循给定的分布。 通常,人们会评估这样的说法,即某些给定数据遵循某种给定分布,并且如果有人拒绝,则该数据在某个级别不适用于该给定分布。 αH0H0H_0αα\alpha 但是,如果我们不拒绝怎么办?我一直被教导不能接受“,因此,基本上,我们没有证据表明拒绝“。也就是说,没有证据表明我们拒绝数据遵循给定的分布。H 0 H 0H0H0H_0H0H0H_0H0H0H_0 因此,我的问题是,如果我们不能断定数据是否遵循给定的分布,那么进行此类测试的意义何在?

2
分布是否有名称?
前几天,我遇到了这种密度。有人给这个名字了吗? f(x)=log(1+x−2)/2πf(x)=log⁡(1+x−2)/2πf(x) = \log(1 + x^{-2}) / 2\pi 密度在起点是无限的,并且也有肥尾。我看到它被用作先验分布,在这种情况下,虽然许多观察值也期望很小,但期望也很小。


2
帮助我了解分位数(CDF逆函数)
我正在阅读有关分位数功能的信息,但我不清楚。您能否提供比以下提供的更为直观的​​解释? 由于cdf 是单调递增的函数,因此它具有反函数。让我们用F - 1来表示。如果˚F是的CDF X,然后˚F - 1(α )是的值X α,使得P (X ≤ X α)= α ; 这称为F的α分位数。值F − 1(0.5 )FFFF−1F−1F^{−1}FFFXXXF−1(α)F−1(α)F^{−1}(\alpha)xαxαx_\alphaP(X≤xα)=αP(X≤xα)=αP(X \le x_\alpha) = \alphaαα\alphaFFFF−1(0.5)F−1(0.5)F^{−1}(0.5)是分布的中位数,概率质量的一半在左侧,一半在右侧。值 和˚F - 1(0.75 )是下和上四分位。F−1(0.25)F−1(0.25)F^{−1}(0.25)F−1(0.75)F−1(0.75)F^{−1}(0.75)


3
为什么进行Kolmogorov-Smirnov测试?
在阅读有关2个样本的KS测试时,我确切地了解它在做什么,但我不知道它为什么起作用。 换句话说,我可以按照所有步骤计算经验分布函数,找到两者之间的最大差值,以找到D统计量,计算临界值,将D统计量转换为p值等。 但是,我不知道为什么其中任何一个实际上告诉我有关这两个分布的任何信息。 有人可以很容易地告诉我,我需要跳过一头驴,计算它跑多快,如果速度小于2 km / hr,那么我会拒绝原假设。当然,我可以做您告诉我的事情,但是那与零假设有什么关系? 为什么2个样本的KS测试有效?计算ECDF之间的最大差异与两个分布的差异有何关系? 任何帮助表示赞赏。我不是统计学家,所以如果可能的话,请假设我是个白痴。

3
贝叶斯如何比较分布?
因此,我认为我对频繁出现概率和统计分析的基础知识(以及使用它的严重程度)有很好的了解。在一个频繁论者的世界中,提出这样的问题是有意义的:“此分布是否不同于该分布”,因为假定分布是真实的,客观的且不变的(至少对于给定的情况而言),因此我们可以得出从一个形状像另一个样本的分布中抽取一个样本的可能性有多大。 在贝叶斯世界观中,考虑到我们过去的经验,我们只关心我们期望看到的结果(在这一部分上我仍然有点含糊,但是我理解贝叶斯更新的概念)。如果是这样,贝叶斯怎么能说“这组数据与那组数据不同”? 出于这个问题的目的,我不在乎统计意义或类似意义,而只是在乎如何量化差异。我同样对参数和非参数分布感兴趣。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.