Questions tagged «self-study»

从课本,自学中使用的教科书,课程或测试的例行练习。该社区的政策是为此类问题“提供有用的提示”,而不是完整的答案。


3
如果
题 如果X1,⋯,Xn∼N(μ,1)X1,⋯,Xn∼N(μ,1)X_1,\cdots,X_n \sim \mathcal{N}(\mu, 1)是IID,则计算E(X1∣T)E(X1∣T)\mathbb{E}\left( X_1 \mid T \right),其中T=∑iXiT=∑iXiT = \sum_i X_i。 尝试:请检查以下是否正确。 让我们说,我们采取的这些条件期望使得总和 ∑iE(Xi∣T)=E(∑iXi∣T)=T.∑iE(Xi∣T)=E(∑iXi∣T)=T.\begin{align} \sum_i \mathbb{E}\left( X_i \mid T \right) = \mathbb{E}\left( \sum_i X_i \mid T \right) = T . \end{align} 这意味着每个E(Xi∣T)=TnE(Xi∣T)=Tn\mathbb{E}\left( X_i \mid T \right) = \frac{T}{n}因为X1,…,XnX1,…,XnX_1,\ldots,X_n是IID。 因此,E(X1∣T)=TnE(X1∣T)=Tn\mathbb{E}\left( X_1 \mid T \right) = \frac{T}{n}。这是对的吗?


2
给定两个线性回归模型,哪种模型效果更好?
我在学院上过机器学习课程。在其中一项测验中,有人问了这个问题。 模型1:y=θx+ϵy=θx+ϵ y = \theta x + \epsilon 模型2:y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon 以上哪个模型更适合数据?(假设数据可以使用线性回归建模) 正确的答案(根据教授)是,两个模型的性能都一样好。但是我相信第一个模型会更合适。 这就是我回答背后的原因。第二个模型,其可以被重写为,α = θ + θ 2将不一样的第一模型。α事实上是一个抛物线,因此具有一个最小值(- 0.25在这种情况下)。因此,第一模型中的θ的范围大于第二模型中的α的范围。因此,如果数据是这样的,最适合的有坡度小于- 0.25,所述第二模式将非常差相比于第一个作为执行。但是,如果最佳拟合的斜率大于αx+ϵαx+ϵ \alpha x + \epsilon α=θ+θ2α=θ+θ2\alpha = \theta + \theta^2αα\alpha−0.25−0.25 -0.25 θθ \theta αα \alpha −0.25−0.25-0.25,两个模型的性能相同。−0.25−0.25-0.25 那么第一个比较好,还是两者完全一样?

3
为什么(0,1)上连续和变量的总和要超过1的数量均具有平均值
让我们总结随机变量,流X 我我我d 〜 ù(0 ,1 )Xi∼iidU(0,1)X_i \overset{iid}\sim \mathcal{U}(0,1) ; 令YYY为总数需要超过1的项的数量,即YYY是最小的项,使得 X 1 + X 2 + ⋯ + X Y > 1。X1+X2+⋯+XY>1.X_1 + X_2 + \dots + X_Y > 1. 为什么Y的均值YY等于欧拉常数eee? E(Y )= e = 10 !+11 !+12 !+13 !+…E(Y)=e=10!+11!+12!+13!+…\mathbb{E}(Y) = e = \frac{1}{0!} + \frac{1}{1!} + \frac{1}{2!} + \frac{1}{3!} …

1
经验CDF的置信区间
我有一个随机过程的100个数据点。我将如何围绕的估计值置信区间?分布函数未知且正偏。我的第一个倾向是根据我在本课程中阅读的材料使用引导程序,但是还有其他方法可以做到这一点吗?PR (X> x )镨(X>X)\Pr(X>x)
14 self-study 

4
如何消化统计背景?
首先,我想并不是这个有趣站点的所有活跃成员都是统计学家。否则,以下问题将毫无意义!我当然尊重他们,但是我需要一个更实际而不是概念上的解释。 我首先从Wikipedia定义一个示例point process: 令S为配备有Borelσ代数B(S)的局部紧凑的第二个可数Hausdorff空间。为S上的局部有限计数量度集写为N上的最小σ代数写N,N使得所有点计数都可测量。NN\mathfrak{N}NN\mathcal{N}NN\mathfrak{N} 对我来说,这没有任何意义。我更容易理解工程方面的解释。 评论:大多数时候,由于类似的复杂文本(至少对我而言),我发现Wikipedia的解释毫无用处。根据我的经验,只有两种类型的统计参考书:a)非常简化b)非常复杂! 读这两个书对我完全没有好处! 题: 您有解决此问题的方法吗?或类似的经历? 对于那些认为这篇文章有用的人,还可以检查一下好处:咨询统计学家以向其客户提供参考的参考,这些参考从不同角度讨论了相关主题。

2
解释R中的drop1输出
在R中,drop1命令输出整洁的东西。 这两个命令应该为您提供一些输出: example(step)#-> swiss drop1(lm1, test="F") 我的看起来像这样: > drop1(lm1, test="F") Single term deletions Model: Fertility ~ Agriculture + Examination + Education + Catholic + Infant.Mortality Df Sum of Sq RSS AIC F value Pr(F) <none> 2105.0 190.69 Agriculture 1 307.72 2412.8 195.10 5.9934 0.018727 * Examination 1 53.03 2158.1 189.86 …

1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

2
如何解释泊松GLM结果中的参数估计值[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 5年前关闭。 Call: glm(formula = darters ~ river + pH + temp, family = poisson, data = darterData) Deviance Residuals: Min 1Q Median 3Q Max -3.7422 -1.0257 0.0027 0.7169 3.5347 Coefficients: Estimate Std.Error z value Pr(>|z|) (Intercept) 3.144257 0.218646 14.381 < 2e-16 *** riverWatauga -0.049016 0.051548 -0.951 0.34166 …

4
特征缩放和均值归一化
我正在上学的吴安德(Andrew Ng)的机器学习课程,经过几次尝试都无法正确回答这个问题。请帮助解决此问题,尽管我已经通过了该级别。 假设学生参加了某堂课,并且该班进行了期中考试和期末考试。您已经收集了两次考试的分数数据集,如下所示:m=4m=4m=4 midterm (midterm)^2 final 89 7921 96 72 5184 74 94 8836 87 69 4761 78 您想使用多项式回归来根据学生的期中考试成绩来预测学生的期末考试成绩。具体而言,假设您要拟合以下形式的模型:,其中是中期得分,是(中期得分)^ 2。此外,您计划同时使用特征缩放(除以特征的“最大-最小”或范围)和均值归一化。X 1 X 2hθ(x)=θ0+θ1x1+θ2x2hθ(x)=θ0+θ1x1+θ2x2h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2x1x1x_1x2x2x_2 什么是归一化特征?(提示:中期= 89,最终= 96是培训示例1。)请在下面的文本框中输入答案。如果适用,请在小数点后至少提供两位数字。x(4)2x2(4)x_2^{(4)}

2
参数可估计性问题
令和为四个随机变量,使得,其中是未知参数。还假设,那哪个是真的?Y1,Y2,Y3Y1,Y2,Y3Y_1,Y_2,Y_3Y4Y4Y_4E(Y1)=θ1−θ3; E(Y2)=θ1+θ2−θ3; E(Y3)=θ1−θ3; E(Y4)=θ1−θ2−θ3E(Y1)=θ1−θ3; E(Y2)=θ1+θ2−θ3; E(Y3)=θ1−θ3; E(Y4)=θ1−θ2−θ3E(Y_1)=\theta_1-\theta_3;\space\space E(Y_2)=\theta_1+\theta_2-\theta_3;\space\space E(Y_3)=\theta_1-\theta_3;\space\space E(Y_4)=\theta_1-\theta_2-\theta_3θ1,θ2,θ3θ1,θ2,θ3\theta_1,\theta_2,\theta_3Var(Yi)=σ2Var(Yi)=σ2Var(Y_i)=\sigma^2i=1,2,3,4.i=1,2,3,4.i=1,2,3,4. :是可估计的。θ1,θ2,θ3θ1,θ2,θ3\theta_1,\theta_2,\theta_3 B.是可估计的。θ1+θ3θ1+θ3\theta_1+\theta_3 C.是可估计的,是的最佳线性无偏估计。θ1−θ3θ1−θ3\theta_1-\theta_312(Y1+Y3)12(Y1+Y3)\dfrac{1}{2}(Y_1+Y_3)θ1−θ3θ1−θ3\theta_1-\theta_3 D.是可估计的。θ2θ2\theta_2 给出的答案是C,它对我来说看起来很奇怪(因为我得到了D)。 为什么我得到D?由于。E(Y2−Y4)=2θ2E(Y2−Y4)=2θ2E(Y_2-Y_4)=2\theta_2 为什么我不明白C可以作为答案?好的,我可以看到是的无偏估计量,并且其方差小于。 θ1-θ3ÿ1+ÿ3Y1+Y2+Y3+Y44Y1+Y2+Y3+Y44\dfrac{Y_1+Y_2+Y_3+Y_4}{4}θ1−θ3θ1−θ3\theta_1-\theta_3Y1+Y32Y1+Y32\dfrac{Y_1+Y_3}{2} 请告诉我我在哪里做错了。 也发布在这里:https : //math.stackexchange.com/questions/2568894/a-problem-on-estimability-of-parameters

2
混沌理论在数据挖掘中已知的,现有的实际应用是什么?
在过去几年中随便阅读一些有关混沌理论的大众市场作品时,我开始想知道它的各个方面如何应用于数据挖掘和相关领域,例如神经网络,模式识别,不确定性管理等。到目前为止,我在已发表的研究中遇到了如此少的此类应用实例,我想知道是否a)它们实际上已在已知的,已发表的实验和项目中付诸实践,b)如果没有,为什么在这些相互关联的过程中却很少使用它们领域? 迄今为止,我所看到的大多数关于混沌理论的讨论都围绕着完全有用的科学应用展开,但与数据挖掘和模式识别等相关领域关系不大。物理学上的三体问题就是一个典型的例子。我想放弃对此类普通科学应用程序的讨论,而仅将问题局限于那些与数据挖掘和相关领域显然相关的应用程序,这些应用程序在文献中似乎很少。下面的潜在应用程序列表可以用作搜索已发表研究的起点,但是我只对那些实际上已经投入实践的应用程序感兴趣(如果有的话)。我正在寻找的是混沌理论对数据挖掘的已知实现,与潜在应用的清单相反,后者的范围要广得多。这是我在阅读时想到的有关数据挖掘应用程序的现成想法的一小部分;也许它们都不是实用的,也许有些在我们讲话时已经投入实际使用,但是按照我还不熟悉的术语去讲: 像几十年前Mandelbrot在模拟电话线中出现错误突发的情况下,Mandelbrot实际采用的方式一样,它可以识别模式识别中的相似结构。 在挖掘结果中遇到费根堡姆常数(也许以类似于弦理论家的方式震惊,他们发现麦克斯韦方程组在研究过程中突然出现在意外的地方)。 确定神经网络权重和各种挖掘测试的最佳位深度。我想知道这一点是因为数值尺度逐渐消失,对初始条件的敏感性开始发挥作用,部分原因是与混沌相关的函数的不可预测性。 以其他不一定与迷人的分形好奇心相关的方式使用分数维的概念,例如Menger Sponges,Koch Curves或Sierpinski Carpets。通过将该概念视为分数,可以以某种有益的方式将其应用于挖掘模型的维度吗? 推导幂函数定律,例如在分形中起作用的定律。 由于分形中遇到的函数是非线性的,所以我想知道非线性回归是否有实际应用。 混沌理论与熵之间存在切线(有时被夸大)关系,因此我想知道是否存在某种方法可以根据混沌理论中使用的函数来计算香农的熵(或对其及其亲属的限制),反之亦然。 识别数据中的周期倍增行为。 通过以一种有用的方式智能地选择最有可能“自我组织”的神经网络,从而确定神经网络的最佳结构。 混沌和分形等也与计算复杂度成切线关系,因此我想知道是否可以使用复杂度来识别混沌结构,反之亦然。 我首先听说了有关混沌理论的李雅普诺夫指数,从那时起,在特定神经网络的配方和熵的讨论中已经注意到了几次。 我可能没有在这里列出其他数十种关系。所有这些都浮现在我的头上。我对这些推测的具体答案并没有特别的兴趣,只是将它们作为可能在野外存在的应用程序类型的示例而扔掉了。我希望看到包含当前研究示例和此类想法的现有实现的答复,只要这些应用程序特别适用于数据挖掘。 即使在我更熟悉的领域(例如信息论,模糊集和神经网络),可能还有其他一些我不知道的现有实现,而我在其他领域的能力更弱,例如回归,因此输入更多不客气。我在这里的实际目的是确定是否对学习混沌理论的特定方面进行更多的投资,如果找不到明显的实用性,我将把它放在后面。 我搜索了CrossValidated,但没有看到任何直接解决混沌理论在数据挖掘中的功利性应用的主题。我能找到的最接近的主题是混沌理论,无方程建模和非参数统计。与特定的子集。

1
偏差方差分解
在Bishop的模式识别和机器学习的 3.2节中,他讨论了偏差方差分解,指出对于平方损失函数,预期损失可以分解为平方偏差项(它描述了平均预测与真实预测之间的距离。模型),方差项(描述了平均值周围的预测范围)和噪声项(给出了数据的固有噪声)。 可以使用除平方损失以外的损失函数执行偏差方差分解吗? 对于给定的模型数据集,是否有多个模型的预期损失在所有模型中均是最小的,如果是这样,是否意味着可能会有不同的偏差和方差组合产生相同的最小预期损失? 如果模型涉及正则化,则偏差,方差和正则化系数之间是否存在数学关系?λλ\lambda 如果您不知道真实的模型,如何计算偏差? 在某些情况下,将偏差或方差最小化而不是预期损失(偏差和方差的平方和)更有意义吗?

1
与Borel-Cantelli Lemma相关的问题
注意: Borel-Cantelli Lemma说 ∑n=1∞P(An)<∞⇒P(limsupAn)=0∑n=1∞P(An)<∞⇒P(limsupAn)=0\sum_{n=1}^\infty P(A_n) \lt \infty \Rightarrow P(\lim\sup A_n)=0 ∑n=1∞P(An)=∞ and An's are independent⇒P(limsupAn)=1∑n=1∞P(An)=∞ and An's are independent⇒P(limsupAn)=1\sum_{n=1}^\infty P(A_n) =\infty \textrm{ and } A_n\textrm{'s are independent} \Rightarrow P(\lim\sup A_n)=1 然后, 如果∑n=1∞P(AnAcn+1)<∞∑n=1∞P(AnAn+1c)<∞\sum_{n=1}^\infty P(A_nA_{n+1}^c )\lt \infty 通过使用Borel-Cantelli Lemma 我想证明 首先, limn→∞P(An)limn→∞P(An)\lim_{n\to \infty}P(A_n)存在 其次, limn→∞P(An)=P(limsupAn)limn→∞P(An)=P(limsupAn)\lim_{n\to \infty}P(A_n) =P(\lim\sup A_n) 请帮助我展示这两部分。谢谢。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.