Questions tagged «pdf»

连续随机变量的概率密度函数(PDF)给出了每个可能值的相对概率。将此标签也用于离散概率质量函数(PMF)。

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
高矩形矩阵对随机变量的线性变换
假设我们有一个随机向量,它是从概率密度函数为的分布中得出的。如果我们用一个完整的矩阵对其进行线性变换,得到,则的密度由X⃗ ∈RnX→∈Rn\vec{X} \in \mathbb{R}^nfX⃗ (x⃗ )fX→(x→)f_\vec{X}(\vec{x})n×nn×nn \times nAAAY⃗ =AX⃗ Y→=AX→\vec{Y} = A\vec{X}Y⃗ Y→\vec{Y}fY⃗ (y⃗ )=1|detA|fX⃗ (A−1y⃗ ).fY→(y→)=1|detA|fX→(A−1y→). f_{\vec{Y}}(\vec{y}) = \frac{1}{\left|\det A\right|}f_{\vec{X}}(A^{-1}\vec{y}). 现在说我们变换X⃗ X→\vec{X}代替由m×nm×nm \times n矩阵BBB,与m>nm>nm > n,给人Z⃗ =BX⃗ Z→=BX→\vec{Z} = B\vec{X}。显然,Z∈RmZ∈RmZ \in \mathbb{R}^m,但是它“存在于” nnn维子空间G⊂RmG⊂RmG \subset \mathbb{R}^m。已知Z⃗ Z→\vec{Z}位于G中,它的条件密度是GGG多少? 我的第一个本能是使用B的伪逆BBB。如果B=USVTB=USVTB = U S V^T是奇异值分解BBB,然后B+=VS+UTB+=VS+UTB^+ = V S^+ U^T是伪逆,其中S+S+S^+通过反转对角矩阵的非零项形成SSS。我猜想这会给fZ⃗ (z⃗ )=1∣∣det+S∣∣fX⃗ (B+z⃗ ),fZ→(z→)=1|det+S|fX→(B+z→), …

1
Y的密度=伽玛分布的X的log(X)
这个问题与此帖子密切相关 假设我有一个随机变量,并且我定义ÿ = 日志(X )。我想找到Y的概率密度函数。X〜伽玛(k ,θ )X∼Gamma(k,θ)X \sim \text{Gamma}(k, \theta)ÿ= 日志(X)Y=log⁡(X)Y = \log(X)ÿYY 我原本以为我将只定义累积分布函数X,更改变量,然后将积分的“内部”作为我的密度,就像这样, P(X≤ Ç )P(是≤ 日志c )= ∫C01个θķ1个Γ (k )Xk − 1Ë− xθdX= ∫日志(c )日志(0 )1个θķ1个Γ (k )经验值(y)k − 1Ë− 经验(y)θ经验值(y)dÿP(X≤c)=∫0c1θk1Γ(k)xk−1e−xθdxP(Y≤log⁡c)=∫log⁡(0)log⁡(c)1θk1Γ(k)exp⁡(y)k−1e−exp⁡(y)θexp⁡(y)dy\begin{align} P(X \le c) & = \int_{0}^{c} \frac{1}{\theta^k} \frac{1}{\Gamma(k)} x^{k- 1} e^{-\frac{x}{\theta}} dx \\ P(Y \le \log c) …

5
如何从二元正态分布数据中获取椭圆区域?
我有看起来像的数据: 我尝试在其上应用正态分布(内核密度估计效果更好,但我不需要这么高的精度),并且效果很好。密度图为椭圆形。 我需要获取该椭圆函数来确定一个点是否位于椭圆区域内。怎么做? 欢迎使用R或Mathematica代码。
12 r  regression  pdf  bivariate 

1
如何使用前k个(经验)矩拟合近似PDF(即密度估计)?
我有一种情况,我能够估计数据集的(第一个)矩,并希望使用它来生成密度函数的估计。ķkk 我已经遇到过Pearson分布,但是意识到它仅依赖于前4个矩(对矩的可能组合有一些限制)。 我还理解,当不使用更多假设时,任何有限的时刻集不足以“固定”特定分布。但是,我仍然希望获得更一般的发行版(Pearson发行版家族除外)。查看其他问题,我找不到这样的分布(请参阅:这里,这里,这里,这里,这里和这里)。 是否可以为任何矩集定义一些(“简单”)广义分布族?(也许是一组可以采用标准正态分布的变换,并对其进行变换,直到所有k个矩集都被确认为止)ķkkķkk (如果我们假设其他矩是否为0,则我不太在乎)k + 1 … ∞k+1…∞k+1\ldots\infty 谢谢。 ps:我很高兴有一个扩展的例子。最好以R代码为例。

5
连续随机变量取固定点的概率
我正在介绍性统计课程中,其中连续随机变量的概率密度函数已定义为。我知道的积分,但是我不能凭直觉来对这一点进行纠正。假设X是随机变量,等于从火车到达时间t开始的分钟数。我如何计算火车从现在开始准确到达5分钟的概率?这个概率如何为零?不可能吗 如果火车确实从现在起5分钟后到达,怎么办呢,如果概率为0,怎么办?一∫一个 ˚F (X )d X = 0P{X∈B}=∫Bf(x)dxP{X∈B}=∫Bf(x)dxP\left\{X\in B\right\}=\int_B f\left(x\right)dx∫aaf(x)dx=0∫aaf(x)dx=0\int\limits_a^af(x)dx=0 谢谢。

1
估计S型曲线笔直部分的斜率
我被赋予了这项任务,并感到沮丧。一位同事让我估算下图的和:Xü p p è [RXüppË[Rx_{upper}X升ø 瓦特Ë řX升ØwË[Rx_{lower} 曲线实际上是累积分布,而x是某种度量。他很想知道当累积函数开始变得笔直并偏离笔直时,x上对应的值是多少。 我知道我们可以使用微分来找到某个点的斜率,但是我不太确定如何确定何时可以将该直线称为直线。任何对某些已经存在的方法/文学的微调将不胜感激。 如果您碰巧知道此类调查的任何相关软件包或示例,我也知道R。 非常感谢。 更新 多亏了Flounderer,我得以进一步扩展工作,建立框架并在这里和那里修改参数。为了学习,这里是我当前的代码和图形输出。 library(ESPRESSO) x <- skew.rnorm(800, 150, 5, 3) x <- sort(x) meanX <- mean(x) sdX <- sd(x) stdX <- (x-meanX)/sdX y <- pnorm(stdX) par(mfrow=c(2,2), mai=c(1,1,0.3,0.3)) hist(x, col="#03718750", border="white", main="") nq <- diff(y)/diff(x) plot.ts(nq, col="#6dc03480") log.nq <- log(nq) low …

1
直观了解协方差,互协方差,自相关/互相关和功率谱密度
我目前正在为我的ECE学士学位学习基础统计学的决赛。 虽然我认为我的数学大部分都处于下降状态,但我缺乏直觉上的理解数字的实际含义。 我知道E [X]是X的所有结果按其概率加权的“加权平均值”。 Var [X]给出与E [X]平方的期望方差,因此告诉我们有关分布“模糊性”的一些信息。 我知道公式的其他属性,但缺乏任何直觉。有人有很好的解释/资源来帮助您吗?


3
如何是所定义时
假设ÿYY是连续随机变量,而XXX是离散变量。 PR (X=x | ÿ= y)=Pr (X= x)Pr (Y= y| X= x)镨(ÿ= y)Pr(X=x|Y=y)=Pr(X=x)Pr(Y=y|X=x)Pr(Y=y) \Pr(X=x|Y=y) = \frac{\Pr(X=x)\Pr(Y=y|X=x)}{\Pr(Y=y)} 众所周知,镨(ÿ=y)= 0Pr(Y=y)=0\Pr(Y=y) = 0因为ÿYY是连续的随机变量。并且据此,我很容易得出结论,概率镨(X= x |ÿ=y)Pr(X=x|Y=y)\Pr(X=x|Y=y)是不确定的。 但是,维基百科在此声称实际上定义如下: PR (X= x | ÿ= y)= Pr (X= x )fÿ| X= x(y)Fÿ(y)Pr(X=x|Y=y)=Pr(X=x)fY|X=x(y)fY(y) \Pr(X=x|Y=y) = \frac{\Pr(X=x) f_{Y|X=x}(y)}{f_Y(y)} 问题:维基百科如何设法确定这种可能性? 我的尝试 这是我的尝试,目的是使Wikipedia在限制方面获得结果: PR (X= x | ÿ= y)= Pr (X= …

1
为什么(对进行审查)
在一个问题集中,我证明了这个“引理”,其结果对我而言并不直观。是审查模型中的标准正态分布。ZZZ 形式上, 和。然后, 因此,截断域上的期望公式与截断点处的密度之间存在某种联系。谁能解释这背后的直觉?Z∗∼Norm(0,σ2)Z∗∼Norm(0,σ2)Z^* \sim Norm(0, \sigma^2)Z=max(Z∗,c)Z=max(Z∗,c)Z = max(Z^*, c)E[Z|Z>c]=∫∞cziϕ(zi)dzi=12π−−√∫∞cziexp(−12z2i)dzi=12π−−√exp(−12c2) (Integration by substitution)=ϕ(c)E[Z|Z>c]=∫c∞ziϕ(zi)dzi=12π∫c∞ziexp(−12zi2)dzi=12πexp(−12c2) (Integration by substitution)=ϕ(c)\begin{align} E[Z|Z>c] &= \int_c^\infty z_i \phi({z_i})\mathrm{d}z_i \\ &= \frac{1}{\sqrt{2\pi}}\int_c^\infty z_i \exp\!\bigg(\frac{-1}{2}z_i^2\bigg)\mathrm{d}z_i \\ &= \frac{1}{\sqrt{2\pi}} \exp\!\bigg(\frac{-1}{2}c^2\bigg) \quad\quad\quad\quad\text{ (Integration by substitution)}\\ &= \phi(c) \end{align}(c)(c)(c)

2
不对称分布的核密度估计
令是从未知(但肯定是非对称的)概率分布中得出的观察结果。{ x1个,… ,xñ}{X1个,…,Xñ}\{x_1,\ldots,x_N\} 我想通过KDE方法找到概率分布: 但是,我尝试使用高斯内核,但是由于它是对称的,因此性能很差。因此,尽管我不了解如何使用它们,但我已经看到一些有关Gamma和Beta内核的工作已经发布。F^(x )= 1ñH∑我= 1ñķ( x − x一世H)F^(X)=1个ñH∑一世=1个ñķ(X-X一世H) \hat{f}(x) = \frac{1}{Nh}\sum_{i=1}^{N} K\bigl(\frac{x-x_i}{h}\bigr) 我的问题是:假设基础分布的支持不在区间,如何处理这种不对称情况?[ 0 ,1 ][0,1个][0,1]

1
条件密度图的解释
我想知道如何正确解释条件密度图。我在下面用R创建的下面插入了两个cdplot。 例如,当变量1为150时大约80%的结果等于1 的概率吗? 暗灰色区域是Result等于1 的条件概率,对吧? 从cdplot文档中: 在给定y的水平(由y的边际分布加权)的情况下,cdplot计算x的条件密度。密度是在y级别上累积得出的。 这种积累如何影响这些图的解释?

1
无限随机几何图中随机行走的机器人的密度
考虑一个无限随机的几何图,其中节点位置遵循密度为的泊松点过程,并且边距比更近。因此,边的长度遵循以下PDF:dρρ\rhoddd F(l )= { 2 ld2升≤ d0升> dF(升)={2升d2升≤d0升>d f(l)= \begin{cases} \frac{2 l}{d^2} \;\quad l \le d \\ 0 \qquad\; l > d \end{cases} 在上图中,考虑半径的圆内以原点为中心的节点。假设在时间,我们在每个提到的节点内放置了一个微型机器人。也就是说,飞机上机器人的密度由下式给出:吨= 0[R[Rrt = 0Ť=0t=0 G(l )= { ρ升≤ [R0升> dG(升)={ρ升≤[R0升>d g(l)= \begin{cases} \rho \quad l \le r \\ 0 \quad\; l > d \end{cases} ,其中是到原点的距离。下图显示了机器人初始放置的示例。升升l 在每个时间步上,机器人都会随机走近一个邻居。 现在,我的问题是:在,机器人的密度函数是多少?时可以计算密度函数吗?t …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.