Questions tagged «random-variable»

随机变量或随机变量是受到偶然变化(即,数学意义上的随机性)影响的值。

1
对数正态随机变量的相关性
给定和具有相关系数正常随机变量,我如何找到以下对数正态随机变量和之间的相关性?X 2 ρ ý 1 ÿ 2X1X1X_1X2X2X_2ρρ\rhoY1Y1Y_1Y2Y2Y_2 Y1=a1exp(μ1T+T−−√X1)Y1=a1exp⁡(μ1T+TX1)Y_1 = a_1 \exp(\mu_1 T + \sqrt{T}X_1) Y2=a2exp(μ2T+T−−√X2)Y2=a2exp⁡(μ2T+TX2)Y_2 = a_2 \exp(\mu_2 T + \sqrt{T}X_2) 现在,如果X1=σ1Z1X1=σ1Z1X_1 = \sigma_1 Z_1和X2=σ1Z2X2=σ1Z2X_2 = \sigma_1 Z_2,其中Z1Z1Z_1和Z2Z2Z_2是标准法线,则从线性变换属性中,我们得到: Y1=a1exp(μ1T+T−−√σ1Z1)Y1=a1exp⁡(μ1T+Tσ1Z1)Y_1 = a_1 \exp(\mu_1 T + \sqrt{T}\sigma_1 Z_1) Y2=a2exp(μ2T+T−−√σ2(ρZ1+1−ρ2−−−−−√Z2)Y2=a2exp⁡(μ2T+Tσ2(ρZ1+1−ρ2Z2)Y_2 = a_2 \exp(\mu_2 T + \sqrt{T}\sigma_2 (\rho Z_1 + \sqrt{1-\rho^2}Z_2) 现在,如何从此处计算Y1Y1Y_1和Y_2之间的相关性Y2Y2Y_2?


1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 



4
如何生成随机分类数据?
假设我有一个类别变量,该变量可以取值A,B,C和D。如何生成10000个随机数据点并控制每个数据点的频率?例如: A = 10%B = 20%C = 65%D = 5% 有什么想法可以做到这一点吗?

1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

3
为什么,但是呢?
在此AP主页上,作者Peter Flanagan-Hyde在“ 随机变量与代数变量”一文中对代数变量和随机变量进行了区分。 他在某种程度上说 X + X ≠ 2 Xx+x=2xx+x=2xx + x = 2x,但是 X+X≠2XX+X≠2XX + X \neq 2X -实际上,这是文章的副标题。 代数变量和随机变量之间的基本区别是什么?


1
如果总和的中位数或平均值大于加数的总和,那意味着什么?
我正在分析网络延迟的分布。中值上传时间(U)为0.5秒。中值下载(D)时间为2秒。但是,中值总时间(对于每个数据点,T = U + D)为4s。 知道总和的中位数比加数的中位数之和大得多,可以得出什么结论? 出于对统计数据的好奇,如果这个问题用平均数代替中位数,那意味着什么?

1
参数与潜在变量
我以前曾问过这个问题,并且一直在努力确定什么使模型参数以及什么使它成为潜在变量。因此,在本站点上有关该主题的各种主题中,主要区别似乎是: 不会观察到潜在变量,但它们具有相关的概率分布,因为它们是变量,也未观察到参数,也没有与它们相关的分布,据我所知,这些变量是常数,并且具有固定但未知的值,我们正在尝试找。同样,我们可以对参数进行先验表示,以表示我们对这些参数的不确定性,即使只有一个真实值与它们相关联,或者至少是我们所假设的。我希望到目前为止我是对的吗? 现在,我一直在从期刊论文中查看贝叶斯加权线性回归的示例,并且确实在努力理解什么是参数和什么是变量: yi=βTxi+ϵyiyi=βTxi+ϵyi y_i = \beta^T x_i + \epsilon_{y_i} 这里观察到和,但是只有被视为变量,即具有与之关联的分布。ÿ ÿxxxyyyyyy 现在,建模假设为: y∼N(βTxi,σ2/wi)y∼N(βTxi,σ2/wi) y \sim N(\beta^Tx_i, \sigma^2/w_i) 因此,的方差被加权。yyy 和上也有一个先验分布,分别是正态分布和gamma分布。 w ^ββ\betawww 因此,完整的对数可能性由下式给出: logp(y,w,β|x)=ΣlogP(yi|w,β,xi)+logP(β)+ΣlogP(wi)log⁡p(y,w,β|x)=Σlog⁡P(yi|w,β,xi)+log⁡P(β)+Σlog⁡P(wi) \log p(y, w, \beta |x) = \Sigma \log P(y_i|w, \beta, x_i) + \log P(\beta) + \Sigma \log P(w_i) 现在,据我了解,和都是模型参数。但是,在本文中,他们一直将它们称为潜在变量。我的推论是和都是变量的概率分布的一部分,它们都是模型参数。但是,作者将它们视为潜在的随机变量。那是对的吗?如果是这样,模型参数是什么?w ^ β w ^ ÿββ\betawwwββ\betawwwyyy 可以在这里找到该论文(http://www.jting.net/pubs/2007/ting-ICRA2007.pdf)。 本文是Ting等人的《自动离群值检测:贝叶斯方法》。


4
两个随机变量中较小者的无偏估计量
假设和ý 〜Ñ(μ Ý,σ 2 ÿ)X〜ñ(μX,σ2X)X∼N(μx,σx2)X \sim \mathcal{N}(\mu_x, \sigma^2_x)ÿ〜ñ(μÿ,σ2ÿ)Y∼N(μy,σy2)Y \sim \mathcal{N}(\mu_y, \sigma^2_y) 我对。是否存在z的无偏估计量?ž= 分钟(μX,μÿ)z=min(μx,μy)z = \min(\mu_x, \mu_y)žzz \ min(\ bar {x},\ bar {y})的简单估计量有偏差(尽管一致),分钟(x¯,ÿ¯)min(x¯,y¯)\min(\bar{x}, \bar{y})其中X¯x¯\bar{x}和ÿ¯y¯\bar{y}是XXX和Y的样本均值ÿYY。它倾向于下冲žzz。 我想不出z的无偏估计量žzz。是否存在? 谢谢你的帮助。

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.