Questions tagged «self-study»

从课本,自学中使用的教科书,课程或测试的例行练习。该社区的政策是为此类问题“提供有用的提示”,而不是完整的答案。

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


4
抽牌后我期望的数字,直到获得ace,2、3等
我在解决以下问题时遇到了一些麻烦。 您可以从标准的52张卡片组中抽牌,而无需替换,直到获得一张A。您从剩余的剩余数中提取,直到得到2。继续进行3.整个甲板用完后,您期望的剩余数字是多少? 让它自然 Ti=first position of card whose value is iTi=first position of card whose value is iT_i = \text{first position of card whose value is }i Ui=last position of card whose value is iUi=last position of card whose value is iU_i = \text{last position of card whose value is …

2
什么是完整的足够的统计数据?
我在理解完整的足够统计信息时遇到了一些麻烦? 令为足够的统计量。T=ΣxiT=ΣxiT=\Sigma x_i 如果且概率为1,则对于某些函数,它是一个完全足够的统计量。E[g(T)]=0E[g(T)]=0E[g(T)]=0ggg 但是,这是什么意思?我看过制服和Bernoulli的示例(第6页http://amath.colorado.edu/courses/4520/2011fall/HandOuts/umvue.pdf),但这不是直观的,我对集成感到困惑。 有人可以简单直观地解释吗?

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
在R中使用Monte Carlo模拟逼近积分
我如何使用MC模拟近似以下积分? ∫1−1∫1−1|x−y|dxdy∫−11∫−11|x−y|dxdy \int_{-1}^{1} \int_{-1}^{1} |x-y| \,\mathrm{d}x \,\mathrm{d}y 谢谢! 编辑(在某些情况下):我试图学习如何使用仿真来逼近积分,并且遇到一些困难时可以做一些练习。 编辑2 + 3:我不知何故感到困惑,以为我需要将积分拆分为单独的部分。因此,我实际上发现了: n <- 15000 x <- runif(n, min=-1, max=1) y <- runif(n, min=-1, max=1) mean(4*abs(x-y))

5
逻辑回归中更好的默认分类
全面披露:这是家庭作业。我提供了指向数据集的链接(http://www.bertelsen.ca/R/logistic-regression.sav) 我的目标是在此数据集中最大程度地预测违约贷款。 到目前为止,我提出的每个模型都预测> 90%的非默认者,但是<40%的默认者使分类效率总体达到80%。那么,我想知道变量之间是否存在交互作用?在逻辑回归中,除了测试每种可能的组合之外,还有没有办法确定潜在的交互作用?或者,一种提高违约者分类效率的方法。 我被困住了,任何建议都会对您选择单词,R代码或SPSS语法有所帮助。 下面的直方图和散点图概述了我的主要变量(二分变量除外) 主要变量的说明: age: Age in years employ: Years with current employer address: Years at current address income: Household income in thousands debtinc: Debt to income ratio (x100) creddebt: Credit card debt in thousands othdebt: Other debt in thousands default: Previously defaulted (dichotomous, yes/no, 0/1) ed: …
12 r  logistic  spss  self-study 

4
是什么导致套索对于特征选择不稳定?
在压缩感知中,有一个定理保证 具有唯一的稀疏解c(有关更多详细信息,请参见附录)。argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc 套索有类似的定理吗?如果有这样一个定理,那么它不仅可以保证套索的稳定性,而且还可以为套索提供更有意义的解释: 套索可以发现稀疏回归系数向量ccc,该向量用于通过y = Xc生成响应y。yyyy=Xcy=Xcy = Xc 我问这个问题有两个原因: 我认为“套索偏爱稀疏解决方案”并不能解决为什么使用套索进行特征选择的问题,因为我们甚至无法分辨选择特征的优势。 我了解到套索因功能选择不稳定而臭名昭著。在实践中,我们必须运行引导程序样本以评估其稳定性。导致这种不稳定的最关键原因是什么? 附录: 给定XN×M=(x1,⋯,xM)XN×M=(x1,⋯,xM)X_{N \times M} = (x_1, \cdots, x_M)。ccc是ΩΩ\Omega稀疏向量(Ω⩽MΩ⩽M\Omega \leqslant M)。过程y=Xcy=Xcy = Xc生成响应yyy。如果XXX具有\ Omega阶的NSP(零空间属性),ΩΩ\Omega并且X的协方差矩阵的XXX特征值都不接近零,则 argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y …

1
后门和前门调整的因果效应
如果要在下面的因果关系图中计算对的因果关系,则可以使用后门调整定理和前门调整定理,即 Y P (y | do(X = x ))= ∑ u P (y | x ,u )P (u )XXXÿYYP(y| 做(X= x ))= ∑üP(y| X,ù)P(你)P(y|do(X=x))=∑uP(y|x,u)P(u)P(y | \textit{do}(X = x)) = \sum_u P(y | x, u) P(u) 和 P(y|do(X=x))=∑zP(z|x)∑x′P(y|x′,z)P(x′).P(y|do(X=x))=∑zP(z|x)∑x′P(y|x′,z)P(x′).P(y | \textit{do}(X = x)) = \sum_z P(z | x) \sum_{x'} P(y|x', z)P(x'). 是否容易证明这两项调整导致对因果关系相同?ÿXXXYYY

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …


4
Bootstrap,蒙特卡洛
作为作业的一部分,我被设置了以下问题: 设计并实施模拟研究,以检查引导程序的性能,以获取单变量数据平均值的95%置信区间。您的实现可以采用R或SAS。 您可能要查看的性能方面是置信区间覆盖率(即,置信区间包含真实均值的几率)和蒙特卡洛变化(即,模拟之间的上下置信限有多少变化)' 有谁知道该怎么做蒙特卡洛变化方面?我似乎什至无法解决算法或其他问题。与蒙特卡洛积分有关吗?谢谢!


3
每门Coursera机器学习课程的正则化线性回归成本函数的推导
几个月前,我通过Coursera上了Andrew Ng的课程“机器学习”,没有关注大多数的数学/派生,而是专注于实现和实用性。从那时起,我开始回头研究一些基础理论,并重新审视了吴教授的一些演讲。我正在阅读他关于“正则化线性回归”的演讲,发现他给出了以下成本函数: Ĵ(θ )= 12 米[ ∑我= 1米(小时θ(x(我))- ÿ(我))2+ λ Σj = 1ñθ2Ĵ]J(θ)=12m[∑i=1m(hθ(x(i))−y(i))2+λ∑j=1nθj2]J(\theta) = \frac{1}{2m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})^2 + \lambda\sum_{j=1}^n\theta^2_j] 然后,他为此成本函数给出了以下梯度: ∂∂θĴĴ(θ )= 1米[ ∑我= 1米(小时θ(x(我))- ÿ(我))x(我)Ĵ- λ θĴ]∂∂θjJ(θ)=1m[∑i=1m(hθ(x(i))−y(i))xj(i)−λθj]\frac{\partial}{\partial \theta_j}J(\theta) = \frac{1}{m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})x^{(i)}_j - \lambda\theta_j] 我对他如何从一个人到另一个人感到困惑。当我尝试进行自己的推导时,结果如下: ∂∂θĴĴ(θ )= 1米[ ∑我= 1米(小时θ(x(我))+ y(我))x(我)Ĵ+ λ θĴ]∂∂θjJ(θ)=1m[∑i=1m(hθ(x(i))+y(i))xj(i)+λθj]\frac{\partial}{\partial \theta_j}J(\theta) = \frac{1}{m}[\sum_{i=1}^m(h_\theta (x^{(i)}) …

2
Iid Gamma变量的总和
令为具有概率密度函数的独立且均匀分布的随机变量的序列; 显示X1,X2,…X1,X2,…X_1,X_2,\ldotsf(x)={12x2e−x0if x>0;otherwise.f(x)={12x2e−xif x>0;0otherwise. f(x) = \left\{ \begin{array}{ll} \frac{1}{2}x^2 e^{-x} & \mbox{if $x>0$};\\ 0 & \mbox{otherwise}.\end{array} \right. limn→∞P[X1+X2+…+Xn≥3(n−n−−√)]≥12limn→∞P[X1+X2+…+Xn≥3(n−n)]≥12\lim_{n\to \infty} P[X_1+X_2+\ldots+X_n\ge 3(n-\sqrt{n})] \ge \frac{1}{2} 我尝试过的 乍一看,我认为应该使用切比雪夫不等式,因为问题是要求显示下限X1+X2+…+XnX1+X2+…+XnX_1+X_2+\ldots +X_n。但是,我想到了极限符号,该符号清楚地表明该问题可能与中央极限定理(CLT)有关 令Sn=X1+X2+…+XnSn=X1+X2+…+XnS_n=X_1+X_2+\ldots +X_n E(Sn)=∑i=0nE(Xi)=3n (since E(Xi)=3)V(Sn)=∑i=0nV(Xi)=3n (since V(Xi)=3 and Xi are i.i.d)E(Sn)=∑i=0nE(Xi)=3n (since E(Xi)=3)V(Sn)=∑i=0nV(Xi)=3n (since V(Xi)=3 and Xi are i.i.d)E(S_n)=\sum_{i=0}^{n} E(X_i)=3n \ (\text{since } E(X_i)=3) …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.