Questions tagged «random-variable»

随机变量或随机变量是受到偶然变化(即,数学意义上的随机性)影响的值。

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]


6
概率收敛与几乎确定的收敛
我从没真正摸索过这两种收敛方法之间的区别。(或者,实际上,是任何一种不同类型的收敛,但是由于大数的弱定律和强定律,我特别提到了这两种。) 当然,我可以引用每一个的定义,并举例说明它们的不同之处,但是我仍然不太明白。 了解差异的好方法是什么?为什么差异很重要?是否有一个特别令人难忘的例子,区别在于它们?


4
为什么X和XY随机变量之间的相关系数趋于0.7
摘自道格拉斯·奥特曼(Douglas Altman)在第285页上写的《医学研究实用统计》: ...对于任意两个X和Y,X将与XY相关。确实,即使X和Y是随机数的样本,我们也希望X和XY的相关性为0.7 我在R中尝试过这种情况,似乎是这样的: x <- rnorm(1000000, 10, 2) y <- rnorm(1000000, 10, 2) cor(x, x-y) xu <- sample(1:100, size = 1000000, replace = T) yu <- sample(1:100, size = 1000000, replace = T) cor(xu, xu-yu) 这是为什么?这背后的理论是什么?


1
多个随机变量乘积的方差
我们知道两个自变量的答案: Var(XY)=E(X2Y2)−(E(XY))2=Var(X)V 一- [R (ÿ)+ V a r(X)(E(是))2+ V a r(Y)(E(X))2V一种[R(Xÿ)=Ë(X2ÿ2)-(Ë(Xÿ))2=V一种[R(X)V一种[R(ÿ)+V一种[R(X)(Ë(ÿ))2+V一种[R(ÿ)(Ë(X))2 {\rm Var}(XY) = E(X^2Y^2) − (E(XY))^2={\rm Var}(X){\rm Var}(Y)+{\rm Var}(X)(E(Y))^2+{\rm Var}(Y)(E(X))^2 但是,如果我们采用两个以上变量的乘积,就方差和每个变量的期望值而言,答案是什么?V 一- [R( X1个X2⋯ Xñ)V一种[R(X1个X2⋯Xñ){\rm Var}(X_1X_2 \cdots X_n)

9
如何有效地建模伯努利随机变量的总和?
我正在建模一个随机变量(),它是大约15-40k个独立的伯努利随机变量()的总和,每个随机变量具有不同的成功概率()。形式上,其中和\ Pr(X_i = 0)= 1-p_i。YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i 我对快速回答诸如Pr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k)(其中kkk给出)的查询感兴趣。 目前,我使用随机模拟来回答此类查询。我根据每个XiXiX_i的p_i随机绘制它们pipip_i,然后将所有XiXiX_i值求和以获得Y′Y′Y'。我重复此过程数千次,然后返回分数Pr(Y′≤k)Pr(Y′≤k)\Pr(Y'\leq k)。 显然,这并不是完全准确的(尽管随着仿真次数的增加,准确度也会大大提高)。另外,似乎我有足够的有关分布的数据来避免使用模拟。您能想到一种获取确切概率\ Pr(Y \ leq k)的合理方法Pr(Y≤k)Pr(Y≤k)\Pr(Y\leq k)吗? ps 我使用Perl&R。 编辑 在回答之后,我认为可能需要进行一些澄清。我将简短地描述问题的所在。给定的是一个带有周长的圆形基因组,c以及n映射到它的一组范围。例如c=3*10^9和ranges={[100,200],[50,1000],[3*10^9-1,1000],...}。请注意,所有范围都是封闭的(两端都包括在内)。另请注意,我们仅处理整数(整个单位)。 我正在寻找圆上被给定n映射范围掩盖的区域。因此,为了测试x圆上给定的长度范围是否被掩盖,我测试了n范围随机映射的假设。映射的长度范围q&gt;x将完全覆盖给定长度范围的概率x为(q-x)/c。当c大和/或小时,该概率变得非常q小。我感兴趣的是n覆盖的范围数(超出范围)x。这是如何Y形成的。 我测试了原假设与单方面的选择(不足覆盖率)的对比。另请注意,我正在测试多个假设(不同的x长度),请确保对此进行更正。

3
转换变量密度的直观解释?
假设是pdf的随机变量。然后,随机变量具有pdfXXXfX(x)fX(x)f_X(x)Y=X2Y=X2Y=X^2 fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y&lt;0fY(y)={12y(fX(y)+fX(−y))y≥00y&lt;0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} 我了解背后的原因。但我正在尝试寻找一种方法来向不了解微积分的人进行解释。特别是,我试图解释为什么出现在前面。我会刺一下它:1y√1y\frac{1}{\sqrt{y}} 假设具有高斯分布。pdf的几乎所有权重都在值之间,例如和但是对于,它映射到0到9 。因此,在将转换为的pdf中,权重已扩展到更大范围的值。因此,为真正的pdf,必须通过乘数来降低额外的权重XXX−3−3-33.3.3.YYYXXXYYYfY(y)fY(y)f_Y(y)1y√1y\frac{1}{\sqrt{y}} 听上去怎么样? 如果有人能提供更好的解释或链接到文档或教科书中的内容,我将不胜感激。我在几本数学概论/统计入门书籍中找到了这个变量转换示例。但是我从来没有找到一个直观的解释:(

2
一个随机变量的函数的方差
假设我们有随机变量XXX,其方差和均值已知。问题是:对于给定的函数f ,的方差是多少f(X)f(X)f(X)。我知道的唯一通用方法是增量方法,但它仅提供近似值。现在我对f (x )= √感兴趣f(x)=x−−√f(x)=xf(x)=\sqrt{x},但是了解一些通用方法也很高兴。 编辑29.12.2010 我已经使用泰勒级数进行了一些计算,但是我不确定它们是否正确,因此如果有人可以确认它们,我将非常高兴。 首先,我们需要近似E[f(X)]E[f(X)]E[f(X)] E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f′′(μ)(X−μ)2]=f(μ)+12⋅f′′(μ)⋅Var[X]E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f″(μ)(X−μ)2]=f(μ)+12⋅f″(μ)⋅Var[X]E[f(X)] \approx E[f(\mu)+f'(\mu)(X-\mu)+\frac{1}{2}\cdot f''(\mu)(X-\mu)^2]=f(\mu)+\frac{1}{2}\cdot f''(\mu)\cdot Var[X] 现在我们可以近似D2[f(X)]D2[f(X)]D^2 [f(X)] E[(f(X)−E[f(X)])2]≈E[(f(μ)+f′(μ)(X−μ)+12⋅f′′(μ)(X−μ)2−E[f(X)])2]E[(f(X)−E[f(X)])2]≈E[(f(μ)+f′(μ)(X−μ)+12⋅f″(μ)(X−μ)2−E[f(X)])2]E[(f(X)-E[f(X)])^2] \approx E[(f(\mu)+f'(\mu)(X-\mu)+\frac{1}{2}\cdot f''(\mu)(X-\mu)^2 -E[f(X)])^2] 使用的近似我们知道˚F (μ )- ë ˚F (X )≈ - 1E[f(X)]E[f(X)]E[f(X)]f(μ)−Ef(x)≈−12⋅f′′(μ)⋅Var[X]f(μ)−Ef(x)≈−12⋅f″(μ)⋅Var[X]f(\mu)-Ef(x) \approx -\frac{1}{2}\cdot f''(\mu)\cdot Var[X] 使用此,我们得到: D2[f(X)]≈14⋅f′′(μ)2⋅Var[X]2−12⋅f′′(μ)2⋅Var[X]2+f′(μ)2⋅Var[X]+14f′′(μ)2⋅E[(X−μ)4]+12f′(μ)f′′(μ)E[(X−μ)3]D2[f(X)]≈14⋅f″(μ)2⋅Var[X]2−12⋅f″(μ)2⋅Var[X]2+f′(μ)2⋅Var[X]+14f″(μ)2⋅E[(X−μ)4]+12f′(μ)f″(μ)E[(X−μ)3]D^2[f(X)] \approx \frac{1}{4}\cdot f''(\mu)^2\cdot Var[X]^2-\frac{1}{2}\cdot f''(\mu)^2\cdot Var[X]^2 + f'(\mu)^2\cdot Var[X]+\frac{1}{4}f''(\mu)^2\cdot E[(X-\mu)^4] +\frac{1}{2}f'(\mu)f''(\mu)E[(X-\mu)^3] D2[f(X)]≈14⋅f′′(μ)2⋅[D4X−(D2X)2]+f′(μ)⋅D2X+12f′(μ)f′′(μ)D3XD2[f(X)]≈14⋅f″(μ)2⋅[D4X−(D2X)2]+f′(μ)⋅D2X+12f′(μ)f″(μ)D3XD^2 [f(X)] \approx …

1
时间序列上混合效应模型的预测值总和的方差
我有一个混合效果模型(实际上是广义加性混合模型),可以为我提供时间序列的预测。考虑到我缺少数据,我使用corCAR1模型来抵消自相关。数据应该给我带来了总的负担,所以我需要对整个预测间隔求和。但我也应该估算出该总负载下的标准误差。 如果所有预测都是独立的,则可以通过以下方式轻松解决: V a r (E [ X i ] )= S E (E [ X i ] )2V一个[R (Σñ我= 1Ë[ X一世] )= ∑ñ我= 1V一个[R (ê[ X一世] )V一种[R(∑一世=1个ñË[X一世])=∑一世=1个ñV一种[R(Ë[X一世])Var(\sum^{n}_{i=1}E[X_i]) = \sum^{n}_{i=1}Var(E[X_i]) withV一个[R (ê[ X一世] )= SË(E[ X一世] )2V一种[R(Ë[X一世])=小号Ë(Ë[X一世])2Var(E[X_i]) = SE(E[X_i])^2 问题是,预测值来自模型,原始数据具有自相关。整个问题导致以下问题: 我是否可以假设将计算得出的预测的SE解释为该预测的期望值的方差根部,这是正确的吗?我倾向于将预测解释为“平均预测”,因此总结了一系列的均值。 如何在这个问题中包含自相关,或者我可以安全地假设它不会对结果产生太大影响? 这是R中的一个例子。我的真实数据集约有34.000个测量值,因此可伸缩性是一个问题。这就是为什么我在每个月内对自相关建模的原因,否则就无法进行计算了。这不是最正确的解决方案,但是最正确的解决方案却不可行。 set.seed(12) require(mgcv) Data &lt;- data.frame( dates = …

3
如果X和Y不相关,那么X ^ 2和Y也不相关吗?
如果两个随机变量XXX和不相关,我们还可以知道和不相关吗?我的假设是。X 2 YYYYX2X2X^2YYY X,YX,YX, Y不相关意味着,或E[XY]=E[X]E[Y]E[XY]=E[X]E[Y]E[XY]=E[X]E[Y] E[XY]=∫xyfX(x)fY(y)dxdy=∫xfX(x)dx∫yfY(y)dy=E[X]E[Y]E[XY]=∫xyfX(x)fY(y)dxdy=∫xfX(x)dx∫yfY(y)dy=E[X]E[Y] E[XY]=\int xy f_X(x)f_Y(y)dxdy=\int xf_X(x)dx\int yf_Y(y)dy=E[X]E[Y] 这是否也意味着以下内容? E[X2Y]=∫x2yfX(x)fY(y)dxdy=∫x2fX(x)dx∫yfY(y)dy=E[X2]E[Y]E[X2Y]=∫x2yfX(x)fY(y)dxdy=∫x2fX(x)dx∫yfY(y)dy=E[X2]E[Y] E[X^2Y]=\int x^2y f_X(x)f_Y(y)dxdy=\int x^2f_X(x)dx\int yf_Y(y)dy=E[X^2]E[Y]

4
如何测量分布的不均匀性?
我正在尝试提出一个指标,用于衡量我正在运行的实验的分布不均匀性。我有一个随机变量,该变量在大多数情况下应均匀分布,并且我希望能够识别(并且可能测量)数据集示例,其中该变量在一定范围内不均匀分布。 三个数据系列的示例每个都有10个测量值,它们代表我正在测量的事物的发生频率,可能是这样的: a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%] b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%] c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] &lt;-- non-uniform d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%] 我希望能够区分c之类的分布与a和b之类的分布,并测量c与均匀分布的偏差。同样,如果存在度量分布均匀性的标准(标准偏差接近零?),我也许可以用它来区分具有高方差的分布。但是,我的数据可能只有一个或两个异常值,例如上面的c示例,并且不确定是否可以通过这种方式轻松检测到。 …

3
挑逗:从统一的[0,1]分布得出的iid序列的预期长度是单调增加的吗?
这是定量分析师职位的面试问题,在此报告。假设我们从均匀的分布绘制并且绘制为iid,则单调递增分布的预期长度是多少?即,如果当前绘制小于或等于上一个绘制,我们将停止绘制。[0,1][0,1][0,1] 我得到了前几个: \ Pr (\ text {length} = 2)= \ int_0 ^ 1 \ int_ {x_1} ^ 1 \ int_0 ^ {x_2} \ mathrm {d} x_3 \,\ mathrm {d} x_2 \,\ mathrm {d} x_1 = 1/3 \ Pr(\ text {length} = 3)= \ int_0 ^ 1 \ int_ {x_1} ^ …

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 &gt; library(gam) &gt; summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.