Questions tagged «mathematical-statistics»

统计的数学理论,涉及形式定义和一般结果。



1
对称分布的中心时刻
我试图证明对称分布的中心矩: 对于奇数是零。因此,例如,第三中心矩我首先尝试显示我不确定从这里去哪里,有什么建议吗?有没有更好的方法来证明这一点?fx(a+x)=fx(a−x)fx(a+x)=fx(a−x){\bf f}_x{\bf (a+x)} = {\bf f}_x{\bf(a-x)}E[(X−u)3]=0.E[(X−u)3]=0.{\bf E[(X-u)^3] = 0}.E [ (X − u)3] = E [X3] - 3 ù ë [X2] + 3ü2E [ X ] -ü3。E[(X−u)3]=E[X3]−3uE[X2]+3u2E[X]−u3.{\bf E[(X-u)^3] = E[X^3] -3uE[X^2] + 3u^2E[X] - u^3}.

2
为什么我的第一台PC解释的方差量如此接近平均成对相关性?
第一主成分和相关矩阵中的平均相关之间是什么关系? 例如,在经验应用中,我观察到平均相关性几乎与第一主成分(第一特征值)的方差与总方差(所有特征值之和)之比相同。 有数学关系吗? 以下是实证结果图表。其中,相关性是在15天滚动窗口中计算的DAX股指成分收益之间的平均相关性,而解释的方差是在15天滚动窗口中计算的第一主成分所解释的方差的份额。 可以用CAPM之类的常见风险因素模型来解释吗?

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


1
使用二阶泰勒级数传播误差
我正在阅读John Rice的文章“数学统计和数据分析”。我们关注随机变量的期望值和方差的近似值。我们能够计算随机变量的期望值和方差,并且我们知道关系。因此,可以使用关于的泰勒级数展开来逼近的期望值和方差。YYYXXXY=g(X)Y=g(X)Y = g(X)YYYgggμXμX\mu_X 在第162页上,他列出了3个方程式。 使用一阶泰勒级数展开式的的期望值。它是:。这在我的问题后面称为。YYYμY≈g(μX)μY≈g(μX)\mu_Y \approx g(\mu_X)E(Y1)E(Y1)E(Y_1) 使用一阶泰勒级数展开式的的方差。它是:。这在我的问题后面称为。YYYσ2Y≈σ2X(g′(μX))2σY2≈σX2(g′(μX))2\sigma_Y^2 \approx \sigma_X^2 (g'(\mu_X))^2Var(Y1)Var(Y1)Var(Y_1) 使用二阶泰勒级数展开式的的期望值。它是。在我的问题中稍后将其称为E(Y_2)。YYYμY≈g(μX)+12σ2Xg′′(μX)μY≈g(μX)+12σX2g″(μX)\mu_Y \approx g(\mu_X) + \frac12 \sigma_X^2 g''(\mu_X)E(Y2)E(Y2)E(Y_2) 请注意,Y有两个不同的表达式,YYY因为我们在泰勒级数展开中使用了两个不同的阶数。等式1和2表示Y1=g(X)≈g(μX)+(X−μX)g′(μX)Y1=g(X)≈g(μX)+(X−μX)g′(μX)Y_1 = g(X) \approx g(\mu_X) + (X-\mu_X)g'(\mu_X)。等式3表示Y2=g(X)≈g(μX)+(X−μX)g′(μX)+12(X−μX)2g′′(μX)Y2=g(X)≈g(μX)+(X−μX)g′(μX)+12(X−μX)2g″(μX)Y_2 = g(X) \approx g(\mu_X) + (X-\mu_X)g'(\mu_X) + \frac12 (X-\mu_X)^2 g''(\mu_X)。 注意,没有具体给出Var(Y_2)的方程Var(Y2)Var(Y2)Var(Y_2)。后来,当作者实际上指的是Y_2的期望值(公式3)时,作者似乎将其用于Y_1的方差Y1Y1Y_1(公式2 )。这似乎暗示Var(Y_2)= Var(Y_1)。Y2Y2Y_2Var(Y2)=Var(Y1)Var(Y2)=Var(Y1)Var(Y_2) = Var(Y_1) 我尝试手动计算,但表达式却变得有些复杂。这是我的工作(我停了下来,因为最终我得到了期望的项): Var(Y2)Var(Y2)Var(Y_2)X3X3X^3Var(Y2)=E[(g(μX)+(X−μX)a+12(X−μX)2b−g(μX)−12σ2Xb)2]=E[((X−μX)a+(12(X−μX)2−12σ2X)b)2]=E[(ca+(12c2−12σ2X)b)2]=E[c2a2+ca(c2−σ2X)b+14(c2−σ2X)2b2]=E[(X2−2XμX+μ2X)a2+(X−μX)a((X2−2XμX+μ2X)−σ2X)b+14((X2−2XμX+μ2X)−σ2X)2b2]Var(Y2)=E[(g(μX)+(X−μX)a+12(X−μX)2b−g(μX)−12σX2b)2]=E[((X−μX)a+(12(X−μX)2−12σX2)b)2]=E[(ca+(12c2−12σX2)b)2]=E[c2a2+ca(c2−σX2)b+14(c2−σX2)2b2]=E[(X2−2XμX+μX2)a2+(X−μX)a((X2−2XμX+μX2)−σX2)b+14((X2−2XμX+μX2)−σX2)2b2] \begin{aligned} Var(Y_2) &= E[( g(\mu_X) + (X-\mu_X)a …

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.