统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

7
验证准确性为何会波动?
我有一个四层的CNN,可以使用MRI数据预测对癌症的反应。我使用ReLU激活来引入非线性。列车精度和损耗分别单调增加和减少。但是,我的测试准确性开始出现剧烈波动。我尝试过更改学习率,减少层数。但是,这并不能阻止波动。我什至阅读了这个答案,并尝试按照该答案中的说明进行操作,但是再没有碰运气了。谁能帮我弄清楚我要去哪里错了?

3
天真贝叶斯如何成为线性分类器?
我在这里看到了另一个主题,但我认为答案不能满足实际问题。我一直读到的是,朴素贝叶斯是使用对数赔率演示的线性分类器(例如:here)(它绘制了线性决策边界)。 但是,我模拟了两个高斯云并拟合了决策边界,并得到了这样的结果(r中的库e1071,使用naiveBayes()) 如我们所见,决策边界是非线性的。是否要说参数(条件概率)是对数空间中的线性组合,而不是说分类器本身是线性地分离数据?

4
绝对不应该使用百分位引导程序吗?
在MIT OpenCourseWare注释(2014年春季,18.05概率与统计简介)中(当前可在此处获取)中指出: 引导百分位数方法由于其简单性而具有吸引力。但是,这取决于的引导程序分布,该引导分布基于特定的样本,它是真实分布的良好近似。赖斯谈到百分位数方法时说:“尽管这个具有置信度限制的自举抽样分布的分位数的直接方程最初看起来很吸引人,但其原理有些模糊。” [2]简而言之,不要使用自举百分位数方法。请改用经验引导程序(我们已经对这两种方法进行了说明,希望您不要将经验引导程序与百分位数引导程序混淆)。 ˉ XX¯∗x¯∗\bar{x}^{*}X¯x¯\bar{x} [2] John Rice,《数学统计和数据分析》,第2版,第2页。272 经过一番在线搜索之后,这是我发现的唯一引述,它完全表明不应使用百分位数引导程序。 我记得Clarke等人从“ 数据挖掘和机器学习的原理和理论 ”一文中读到的内容。是引导的主要理由是 其中是经验CDF。(我不记得除此之外的细节。) ˚F Ñ1个ñ∑我= 1ñF^ñ(x )→pF(x )1n∑i=1nF^n(x)→pF(x)\dfrac{1}{n}\sum_{i=1}^{n}\hat{F}_n(x) \overset{p}{\to} F(x)F^ñF^n\hat{F}_n 确实不应该使用百分位引导程序方法吗?如果是这样,那么当不一定知道时(即,没有足够的信息可用于执行参数自举),有什么替代方案?FFF 更新资料 由于需要澄清,因此这些MIT注释中的“经验引导程序”涉及以下过程:它们计算和其中是对和的完整样本估计值,得出的估计置信区间为。δ1个= ( θ^∗-θ^)α / 2δ1=(θ^∗−θ^)α/2\delta_1 = (\hat{\theta}^{*}-\hat{\theta})_{\alpha/2}θ * θ θ θ [ θ - δ 2,θ - δ 1 ]δ2= ( θ^∗-θ^)1 - α / 2δ2=(θ^∗-θ^)1个-α/2\delta_2 = …



4
偏差的自举估计何时有效?
人们通常认为自举可以在估计器中提供偏差的估计。 如果吨是一些统计的估计,以及是自举复制品(与),则偏压的自举估计是 似乎非常简单而强大,令人不安。t^t^\hat tt~it~i\tilde t_ii∈{1,⋯,N}i∈{1,⋯,N}i\in\{1,\cdots,N\}biast≈1N∑it~i−t^biast≈1N∑it~i−t^\begin{equation} \mathrm{bias}_t \approx \frac{1}{N}\sum_i \tilde{t}_i-\hat t \end{equation} 在没有对统计信息进行无偏估计的情况下,我无法理解如何做到这一点。例如,如果我的估计器简单地返回一个独立于观察值的常数,则上述偏差估计显然是无效的。 尽管此示例是病态的,但我看不到有关估计量和分布的合理假设,这些假设将保证自举估计是合理的。 我尝试阅读正式的参考书,但我既不是统计学家,也不是数学家,因此没有任何澄清。 谁能提供何时可以预期该估计有效的高级摘要?如果您知道关于该主题的好的参考文献,那也很好。 编辑: 估计器的平滑度通常被引用为引导程序正常工作的要求。难道还需要某种形式的局部可逆性转换吗?常量映射显然不满足于此。
31 bootstrap  bias 


3
均方误差和残差平方和
看一下Wikipedia的定义: 均方误差(MSE) 残差平方和(RSS) 在我看来 MSE=1NRSS=1N∑(fi−yi)2MSE=1NRSS=1N∑(fi−yi)2\text{MSE} = \frac{1}{N} \text{RSS} = \frac{1}{N} \sum (f_i -y_i)^2 其中是样本数,是我们对的估计。NNNfifif_iyiyiy_i 但是,没有维基百科文章提到这种关系。为什么?我想念什么吗?
31 residuals  mse 

2
R中随机森林分类中一组预测变量的相对重要性
我想确定变量集对randomForestR中的分类模型的相对重要性。该importance函数MeanDecreaseGini为每个单独的预测变量提供度量标准-是否像对集合中的每个预测变量求和一样简单? 例如: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) importance(rf) # To determine whether the "a" predictors are more important than the "b"s, # can I sum the MeanDecreaseGini for a1 and a2 and compare to that of b1+b2?

2
libsvm数据格式
我正在使用libsvm(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)工具进行支持向量分类。但是,我对输入数据的格式感到困惑。 从自述文件: 训练和测试数据文件的格式为: <label> <index1>:<value1> <index2>:<value2> ... . . . 每行包含一个实例,并以“ \ n”字符结尾。对于分类,<label>是指示类标签的整数(支持多类)。为了回归,<label>目标值可以是任何实数。对于一类SVM,不使用它,因此可以是任何数字。该对<index>:<value>提供一个特征(属性)值:<index>是一个从1开始的整数,<value> 是一个实数。唯一的例外是预先计算的内核, <index>从0开始;请参阅预计算内核部分。索引必须按升序排列。测试文件中的标签仅用于计算准确性或错误。如果未知,则在第一列中填入任何数字。 我有以下问题: 有什么用<index>?它有什么作用? 不同数据实例的相同索引值之间是否存在对应关系? 如果我错过/跳过两者之间的索引怎么办? 我问是因为libsvm的软件包中包含的数据文件* heart_scale *在第12行中,索引从2开始。<value>索引1 的for 是否被视为未知/丢失?注意:软件包随附的tools / checkdata.py工具表示* heart_scale *文件正确。

2
原始残差与标准残差与学生残差-何时使用?
这看起来像一个类似的问题,没有得到很多答复。 省略了Cook的D之类的测试,而只是将残差作为一个整体来看,我对其他人在评估拟合优度时如何使用残差感兴趣。我使用原始残差: 在QQ图中,用于评估正态性 在与残差的散点图中,用于(a)异方差和(b)序列自相关的眼球检查。yyy 为了绘制与残差的关系以检查可能出现异常值的值,我更喜欢使用学生化残差。我偏爱的原因是,尽管标准化残差提供了极为相似的结果,但它允许轻松查看存在问题的残差。我的理论是,这取决于一所大学。yyyyyyyyy 这类似于其他人使用残差的方式吗?其他人会结合摘要统计使用此数量的图吗?

3
是否可以为套索回归模型计算AIC和BIC?
是否可以为套索回归模型和其他正则化模型(参数仅部分进入方程式)计算AIC或BIC值。如何确定自由度? 我正在使用R将套索回归模型与程序包中的glmnet()函数进行拟合glmnet,并且我想知道如何计算模型的AIC和BIC值。通过这种方式,我可以将值与没有正则化的模型拟合进行比较。这可能吗?
31 r  model-selection  lasso  aic  bic 

3
我的数据遵循什么分布?
让我们说我有1000个组件,并且我一直在收集有关这些组件记录故障的次数以及每次它们记录故障的数据,我还跟踪团队修复该问题花费了多长时间。简而言之,我一直在记录这1000个组件中每个组件的修复时间(以秒为单位)。在该问题的末尾提供了数据。 我把所有的这些值,并使用在画了R A Cullen和Frey图descdist从fitdistrplus包。我的希望是了解维修时间是否遵循特定的分配时间。这是boot=500获取引导值的图: 我看到该图告诉我观察结果属于beta分布(或者可能不是,在这种情况下,它揭示了什么?)现在,考虑到我是系统架构师而不是统计学家,那么该图揭示了什么? ?(我正在寻找这些结果背后的实际现实直觉)。 编辑: QQplot使用qqPlot包中的功能car。我首先使用该fitdistr函数估算了形状和比例参数。 > fitdistr(Data$Duration, "weibull") shape scale 3.783365e-01 5.273310e+03 (6.657644e-03) (3.396456e+02) 然后,我这样做: qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03) 编辑2: 使用对数正态QQplot更新。 这是我的数据: c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 3049L, 129067L, 21806L, 456L, 22745L, 198L, …


4
为什么我们在神经网络中使用ReLU?如何使用它?
为什么我们在神经网络中使用整流线性单位(ReLU)?如何改善神经网络? 为什么我们说ReLU是激活功能?softmax激活功能不是用于神经网络吗?我猜我们像这样使用ReLU和softmax: 具有softmax输出的神经元1 ---->神经元1输出的ReLU,它是 神经元2的输入--->具有softmax输出的神经元2-> ... 因此神经元2的输入基本上是ReLU(softmax(x1))。它是否正确?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.