Questions tagged «self-study»

从课本,自学中使用的教科书,课程或测试的例行练习。该社区的政策是为此类问题“提供有用的提示”,而不是完整的答案。


3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


8
时间序列分析中的陷阱
我只是在时间序列分析中开始自我学习。我注意到,存在许多潜在的陷阱,不适用于一般统计数据。因此,基于什么是常见的统计罪过?, 我想问一下: 时间序列分析中常见的陷阱或统计错误是什么? 这旨在作为社区Wiki,每个答案一个概念,请不要重复(或应该)列在“ 什么是常见的统计错误”上的更一般的统计陷阱?

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
迭代期望定律的推广
我最近遇到了这个身份: E[E(Y|X,Z)|X]=E[Y|X]E[E(Y|X,Z)|X]=E[Y|X]E \left[ E \left(Y|X,Z \right) |X \right] =E \left[Y | X \right] 我当然熟悉该规则的简单版本,即E[E(Y|X)]=E(Y)E[E(Y|X)]=E(Y)E \left[ E \left(Y|X \right) \right]=E \left(Y\right) 但我无法为其概括找到理由。 如果有人可以为我指出一个非技术性的参考,或者,甚至有人可以为这一重要结果提供简单的证明,我将不胜感激。

4
以泰勒级数的期望值(尤其是余数)
我的问题涉及试图证明一种广泛使用的方法的合理性,即采用泰勒级数的期望值。假设我们有一个随机变量XXX与正平均μμ\mu和方差σ2σ2\sigma^2。另外,我们有一个函数,例如log(x)log⁡(x)\log(x)。 这样做的泰勒展开logXlog⁡X\log X围绕平均值,我们得到 logX=logμ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξ3X,log⁡X=log⁡μ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξX3, \log X = \log\mu + \frac{X - \mu}{\mu} - \frac12 \frac{(X-\mu)^2}{\mu^2} + \frac13 \frac{(X - \mu)^3}{\xi_X^3}, 其中,按照惯例,ξXξX\xi_X是ST|ξX−μ|&lt;|X−μ||ξX−μ|&lt;|X−μ||\xi_X - \mu| < |X - \mu|。 如果我们的预期,我们将得到一个近似方程,人们通常所说的东西自我明显(见≈≈\approx第一个方程式符号这里): ElogX≈logμ−12σ2μ2Elog⁡X≈log⁡μ−12σ2μ2 \mathbb{E}\log X \approx \log \mu - \frac12 \frac{\sigma^2}{\mu^2} 问:我感兴趣的是如何证明余项的预期值实际上是可以忽略不计,即 E[(X−μ)3ξ3X]=o(σ2)E[(X−μ)3ξX3]=o(σ2) \mathbb{E}\left[\frac{(X - \mu)^3}{\xi_X^3}\right] = o(\sigma^2) (或,换句话说,E[o(X−μ)2]=o(E[(X−μ)2])E[o(X−μ)2]=o(E[(X−μ)2])\mathbb{E}\bigl[o(X-\mu)^2\bigr] = o\bigl(\mathbb{E}\bigl[(X-\mu)^2\bigr]\bigr))。 我试图做的:假定σ2→0σ2→0\sigma^2 \to 0(这反过来,装置X→μX→μX …

5
LDA与Word2Vec
我试图了解潜在Dirichlet分配和word2vec之间的相似度,用于计算单词相似度。 据我了解,LDA将单词映射到潜在主题的概率向量,而word2vec 将单词映射到实数的向量(与逐点互信息的奇异值分解有关,请参阅O. Levy,Y。Goldberg,“神经词嵌入作为隐式矩阵分解”;另请参见word2vec如何工作?)。 我对理论关系(可以被认为是一种概括或另一种变化)和实践(当使用一种而不是另一种)都感兴趣。 有关: 计算文档之间距离的一些标准方法是什么?-DataScience.SE

9
在此图中,
下图中和之间的关系是什么?在我看来,存在负线性关系,但是由于我们有很多异常值,因此该关系非常弱。我对吗?我想学习如何解释散点图。XYYYXXX

5
我的意大利儿子即将上小学的事实是否会改变预期在班上的意大利孩子人数?
这是源于现实生活中的问题,对此我真的感到困惑。 我儿子将在伦敦上小学。由于我们是意大利人,所以我很想知道已经有多少意大利孩子上学了。我在申请时向招生官问了这个问题,她告诉我他们每班平均有2名意大利孩子(共30名)。 现在,我知道我的孩子已被接纳,但我没有其他孩子的其他信息。入学标准基于距离,但是出于这个问题的目的,我相信我们可以假设它基于大量申请人的随机分配。 我儿子的班级有望有多少意大利孩子?会接近2还是3?

6
为什么协方差估计量的分母不应该是n-2而不是n-1?
(无偏)方差估计量的分母为因为有观测值,并且仅估计了一个参数。n−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} 同样,我想知道为什么在估计两个参数时协方差的分母为何不为?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

3
如何取多元正态密度的导数?
假设我具有多元正态N(μ,Σ)N(μ,Σ)N(\mu, \Sigma)密度。我想获得第二(局部的)衍生物WRT μμ\mu。不知道如何取矩阵的导数。 维基说在矩阵中逐个元素地取导数。 我正在使用拉普拉斯逼近 logPN(θ)=logPN−12(θ−θ^)TΣ−1(θ−θ^).log⁡PN(θ)=log⁡PN−12(θ−θ^)TΣ−1(θ−θ^).\log{P}_{N}(\theta)=\log {P}_{N}-\frac{1}{2}{(\theta-\hat{\theta})}^{T}{\Sigma}^{-1}(\theta-\hat{\theta}) \>. 模式是 θ = μ。θ^=μθ^=μ\hat\theta=\mu 我得到Σ−1=−∂2∂θ2logp(θ^|y),Σ−1=−∂2∂θ2log⁡p(θ^|y),{\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\hat{\theta }|y),这究竟是怎么来的呢? 我所做的: logP(θ|y)=−k2log2π−12log|Σ|−12(θ−θ^)TΣ−1(θ−θ^)log⁡P(θ|y)=−k2log⁡2π−12log⁡|Σ|−12(θ−θ^)TΣ−1(θ−θ^)\log P(\theta|y) = -\frac{k}{2} \log 2 \pi - \frac{1}{2} \log \left| \Sigma \right| - \frac{1}{2} {(\theta-\hat \theta)}^{T}{\Sigma}^{-1}(\theta-\hat\theta) 因此,我将导数wrt取到θθ\theta,首先是有转置,其次是矩阵。所以,我被困住了。 注意:如果我的教授遇到此问题,则是指该讲座。

3
模型的Akaike信息标准(AIC)得分是什么意思?
我在这里看到了一些关于外行的含义的问题,但是对于我来说,这些对于我来说太过外行了。我试图从数学上理解AIC分数的含义。 但是同时,我也不想得到一个严格的证据,使我看不到更重要的观点。例如,如果这是微积分,那么我将对无穷小感到满意,而如果这是概率论,那么如果没有度量理论,我将感到满意。 我的尝试 通过在此处阅读以及我自己的一些表示法糖AICm,DAICm,D\text{AIC}_{m,D}是数据集D上模型的AIC准则,如下所示: AIC m ,D = 2 k m − 2 ln (L m ,D) 其中k m为模型m的参数个数,L m ,D是模型m在数据集D上的最大似然函数值。mmmDDDAICm,D=2km−2ln(Lm,D)AICm,D=2km−2ln⁡(Lm,D) \text{AIC}_{m,D} = 2k_m - 2 \ln(L_{m,D}) kmkmk_mmmmLm,DLm,DL_{m,D}mmmDDD 这是我对上述含义的理解: m=arg maxθPr(D|θ)m=arg maxθPr(D|θ) m = \underset{\theta}{\text{arg max}\,} \Pr(D|\theta) 这条路: kmkmk_m是的参数数。mmm Lm,D=Pr(D|m)=L(m|D)Lm,D=Pr(D|m)=L(m|D)L_{m,D} = \Pr(D|m) = \mathcal{L}(m|D)。 现在让我们重写AIC: AICm,D===2km−2ln(Lm,D)2km−2ln(Pr(D|m))2km−2loge(Pr(D|m))AICm,D=2km−2ln⁡(Lm,D)=2km−2ln⁡(Pr(D|m))=2km−2loge⁡(Pr(D|m))\begin{split} \text{AIC}_{m,D} =& 2k_m - …

5
使用CDF查找期望值
首先,我要说这是书本上的作业问题。我花了几个小时寻找如何找到期望值,并确定自己一无所知。 令具有CDF。 找到为的那些值针对的存在。XXXF(x)=1−x−α,x≥1F(x)=1−x−α,x≥1F(x) = 1 - x^{-\alpha}, x\ge1E(X)E(X)E(X)αα\alphaE(X)E(X)E(X) 我什至不知道该如何开始。如何确定存在值?我也不知道如何处理CDF(我假设这意味着累积分布函数)。当您具有频率函数或密度函数时,有一些公式可以找到期望值。维基百科说,可以用概率密度函数来定义的CDF,如下所示:αα\alphaXXXfff F(x)=∫x−∞f(t)dtF(x)=∫−∞xf(t)dtF(x) = \int_{-\infty}^x f(t)\,dt 据我所知。我从这里去哪里? 编辑:我的意思是把。x≥1x≥1x\ge1

4
考试的结果是二项式的吗?
这是我得到的一个简单的统计问题。我不太确定我是否理解。 X =考试中获得的分数(多项选择和正确答案是1分)。X二项式分布吗? 教授的答案是: 是的,因为只有正确或错误的答案。 我的答案: 不,因为每个问题都有不同的“成功概率” p。据我所知,二项式分布只是一系列的伯努利实验,每个实验都有一个简单的结果(成功或失败),并且具有给定的成功概率p(并且所有关于p都是“相同的”)。例如,将(普通)硬币翻转100次,这就是100次Bernoulli实验,所有实验都具有p = 0.5。但是这里的问题有不同的p对吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.