Questions tagged «distributions»

分布是概率或频率的数学描述。



4
与重尾分布相对应的Boxplot吗?
对于近似正态分布的数据,箱形图是快速可视化数据的中值和散布以及任何异常值的好方法。 但是,对于更重尾的分布,很多点显示为离群值,因为离群被定义为不在IQR的固定因子范围内,而对于重尾分布,这种情况当然会更频繁地发生。 那么人们使用什么可视化此类数据呢?还有更适应的东西吗?如果重要的话,我在R上使用ggplot。


1
自举样本均值时是否需要居中?
当阅读有关如何近似估计样本均值的分布时,我遇到了非参数自举方法。显然,可以通过的分布来近似的分布,其中表示样本均值引导程序样本。X¯n−μX¯n−μ\bar{X}_n-\muX¯∗n−X¯nX¯n∗−X¯n\bar{X}_n^*-\bar{X}_nX¯∗nX¯n∗\bar{X}_n^* 然后我的问题是:我需要居中吗?做什么的? 我不能只用近似吗?P(X¯n≤x)P(X¯n≤x)\mathbb{P}\left(\bar{X}_n \leq x\right)P(X¯∗n≤x)P(X¯n∗≤x)\mathbb{P}\left(\bar{X}_n^* \leq x\right)

1
导出负熵。被卡住
因此,这个问题有些牵连,但我一直在努力使之尽可能简单。 目标:长话短说,负向性的派生不涉及高阶累积量,我正试图了解它是如何产生的。 背景:(我理解所有这些) 我正在自学这本书的“独立组件分析”书。(如果您有一本书-“非多项式函数的熵近似”,则该问题来自第5.6节)。 我们有,它是一个随机变量,我们希望从一些观察中估计出其负熵。的PDF 由。负熵只是一个标准化高斯随机变量的微分熵与的微分熵之间的差。此处的微分熵由给出,使得:x p x(ζ )x 高xxxxxxpx(ζ)px(ζ)p_x(\zeta)xxxHHH H(x)=−∫∞−∞px(ζ)log(px(ζ))dζH(x)=−∫−∞∞px(ζ)log(px(ζ))dζ H(x) = -\int_{-\infty}^{\infty} p_x(\zeta) \: log(p_x(\zeta)) \: d\zeta 因此,负熵由 J(x)=H(v)−H(x)J(x)=H(v)−H(x)J(x) = H(v) - H(x) 其中是标准化的高斯rv,PDF由ϕ (ζ )给出。vvvϕ(ζ)ϕ(ζ)\phi(\zeta) 现在,作为这种新方法的一部分,我的书得出了的PDF的估算值,其估算公式为:xxx px(ζ)=ϕ(ζ)[1+∑iciFi(ζ)]px(ζ)=ϕ(ζ)[1+∑iciFi(ζ)] p_x(\zeta) = \phi(\zeta) [1 + \sum_{i} c_i \; F^{i}(\zeta)] (其中。顺便说,我是不是一个电源,但索引代替)。ci=E{Fi(x)}ci=E{Fi(x)}c_i = \mathbb{E}\{F^i(x)\}iii 现在,我“接受”这个新的PDF公式,并在第二天询问。这不是我的主要问题。不过,他现在所做的是将的PDF版本重新插入负熵方程,最后得到:xxx J(x)≈12∑iE{Fi(x)}2J(x)≈12∑iE{Fi(x)}2 J(x) \approx \frac{1}{2}\sum_i\mathbb{E} \{F^i(x)\}^2 请记住,sigma(在此以及在本帖子的其余部分)只是在索引周围循环。例如,如果我们只有两个函数,则信号将在i = …

5
估计百分比作为回归中的因变量
我将38项考试中学生的排名百分比作为我研究中的因变量。排名百分比由(学生的等级/考试中的学生人数)计算得出。这个因变量具有几乎均匀的分布,我想估计一些变量对因变量的影响。 我使用哪种回归方法?

2
如何测试数据样本是否符合伽玛分布族?
我有一个从连续随机变量X生成的数据样本。从我使用R绘制的直方图中,我想也许X的分布服从一定的Gamma分布。但是我不知道这种伽马分布的确切参数。 我的问题是如何测试X的分布是否属于Gamma分布族?拟合检验有一些好处,例如Kolmogorov-Smirnov检验,Anderson-Darling检验等,但是使用这些检验的限制之一是应事先知道理论分布的参数。谁能告诉我如何解决这个问题?

3
需要帮助通过直方图确定分布
我具有某个信号的已记录振幅最大值的样本总数。人口约为1500万样本。我生成了人口的直方图,但无法用这种直方图猜测分布。 EDIT1:带有原始样本值的文件在这里:原始数据 任何人都可以使用以下直方图来帮助估计分布:

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。


1
测试两个独立样本是否存在相同的偏斜?
哪些检验可用于检验两个独立样本的零假设,即它们来自具有相同偏斜的总体?有一个经典的1样本测试来检查偏斜是否等于一个固定数字(该测试涉及第6个采样矩!);有2个样本测试的直接翻译吗? 是否存在不涉及大量数据的技术?(我期待以'bootstrap it'的形式回答:已知Bootstrap技术适合于此问题吗?)

1
为什么ecdf使用阶跃函数而不是线性插值?
经验CDF函数通常由阶跃函数估算。是否有理由这样做而不是使用线性插值?阶跃函数是否具有使我们更喜欢它的任何有趣的理论特性? 这是两个的示例: ecdf2 <- function (x) { x <- sort(x) n <- length(x) if (n < 1) stop("'x' must have 1 or more non-missing values") vals <- unique(x) rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered") class(rval) <- …
13 r  distributions  ecdf 

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

2
关节正态性是正常随机变量总和是否正常的必要条件吗?
在我对相关问题的回答之后的评论中,用户ssdecontrol和Glen_b询问和联合正态性对于断言的正态性是否必要?当然,关节正常就足够了。在那里没有解决这个补充问题,也许值得单独考虑。Y X + YXXXYYYX+YX+YX+Y 由于联合常态意味着边际常态,我问 难道存在正常的随机变量和,使得 是一个正常的随机变量,但和是不是 共同正常的随机变量?Y X + Y X YXXXYYYX+YX+YX+YXXXYYY 如果不要求和具有正态分布,则很容易找到这样的正态随机变量。可以在我以前的答案中找到一个示例(上面提供了链接)。我认为,上面突出显示的问题的答案是“是”,并已发布(我认为是)示例作为对此问题的答案。ÿXXXYYY

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.