统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
如果LASSO等于用拉普拉斯先验进行线性回归,那么在分量为零的集合上如何有质量?
我们都熟悉在文献中有充分记载的概念,即LASSO优化(为简单起见,这里仅将注意力集中在线性回归的情况下) 等效于具有高斯误差的线性模型,在线性模型中,参数被赋予了拉普拉斯先验 \ exp(-\ lambda \ | \ beta \ | _1) 我们也知道,较高的那个会设置调整参数,\ lambda,参数的较大部分将设置为零。话虽如此,我有以下思想问题:升Ô 小号小号 =∥ÿ- Xβ∥22+ λ ∥ β∥1个升Øss=‖ÿ-Xβ‖22+λ‖β‖1个 {\rm loss} = \| y - X \beta \|_2^2 + \lambda \| \beta \|_1 经验值(- λ ∥ β∥1个)经验值⁡(-λ‖β‖1个) \exp(-\lambda \| \beta \|_1 ) λλ\lambda 考虑到从贝叶斯的角度来看,我们可以计算出后验概率,即非零参数估计值位于任何给定的时间间隔集合中,并且 LASSO设置为零的参数等于零。让我感到困惑的是,假设拉普拉斯先验是连续的(实际上是绝对连续的),那么在集合上如何有任何质量是\ {0 \}处的间隔和单例的乘积{ 0 }{0}\{0\}?

4
神经网络的编码角度数据
我正在训练一个神经网络(细节并不重要),其中目标数据是角度矢量(0到2 * pi之间)。我正在寻找有关如何编码此数据的建议。这是我目前正在尝试的方法(成功有限): 1)C的1编码:我将设置的可能角度分成1000个左右的离散角度,然后通过在相关索引处加1来指示特定角度。这样做的问题在于,网络只是学习输出全0(因为这几乎是完全正确的)。 2)简单缩放:我将网络输出范围([0,1])缩放为[0,2 * pi]。这里的问题是角度自然具有圆形拓扑(即,0.0001和2 * pi实际上彼此紧邻)。使用这种类型的编码,该信息会丢失。 任何建议,将不胜感激!

3
在机器学习中,为什么使用上标而不是下标?
我正在通过Coursera上Andrew Ng的机器学习课程。对于方程式,使用上标代替下标。例如,在以下等式中,使用代替: x ix(i)x(i)x^{(i)}xixix_i J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2J(\theta_0, \theta_1) = \frac{1}{2m} \sum\limits_{i=1}^{m}{(h_\theta(x^{(i)}) - y^{(i)})^2} 显然,这是惯例。我的问题是为什么要使用上标而不是下标?上标已用于求幂。当然,通过注意括号是否存在,我似乎能够区分上标和取幂用例,但这仍然令人困惑。

1
样条曲线可以用于预测吗?
我无法具体说明数据的性质,因为它是专有的,但是假设我们有这样的数据:每个月都有一些人注册一项服务。然后,在随后的每个月中,这些人可能会升级服务,中止服务或拒绝服务(例如,由于无法付款)。对于最早的数据,我们有大约2年的数据(24个月)。 每个月加入的人数很多(在100,000个范围内),而做这三件事中的任何一个的人数都在数千。但是,我们没有使用单个级别的数据(可能是数百万行),而是按月份和同类群组(每个同类群组每个月做某事的比例)汇总的数据。 我们一直在使用多元自适应回归样条(MARS)对现有数据进行建模,并发现一些有趣的结果。 但是,我担心使用这些推断或预测未来。我担心的是,对未来的预测必然超出样本空间(就时间而言),样条曲线可能会变得不稳定以进行外推。 这是合法方法吗?有什么问题可以解决?


3
两个正态分布之差的分布
我有两个正态分布的概率密度函数: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } 和 f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } 我正在寻找和之间分离的概率密度函数。我认为这意味着我正在寻找| x_1-x_2 |的概率密度函数。。那是对的吗?我怎么找到那个?x1x1x_1x2x2x_2|x1−x2||x1−x2||x_1 - x_2|

1
使用
Stein的悖论表明,与同时单独处理参数的任何方法相比,当同时估计三个或更多参数时,存在组合的估计量平均更准确(即,期望均方误差较低)。 这是非常违反直觉的结果。如果我们使用范数(期望的平均绝对误差)而不是使用范数(期望的均方误差),是否会得到相同的结果?升1l2l2l_2l1l1l_1


1
PCA /对应分析中的“马蹄效应”和/或“拱效应”是什么?
生态统计中有许多技术可用于多维数据的探索性数据分析。这些被称为“协调”技术。许多统计数据与其他地方的通用技术相同或紧密相关。原型示例可能是主成分分析(PCA)。生态学家可能会使用PCA和相关技术来探索“梯度”(我尚不完全清楚什么是梯度,但我已经对其有所了解。) 在此页面上,主成分分析(PCA)下的最后一项是: PCA对于植被数据有一个严重的问题:马蹄效应。这是由于物种沿梯度分布的曲线性所致。由于物种响应曲线通常是单峰的(即非常强烈的曲线),因此马蹄效应很常见。 在页面的下方,在“ 对应分析”或“互惠平均”(RA)下,它称为“拱形效应”: RA有一个问题:拱效应。这也是由沿梯度分布的非线性引起的。 拱形不如PCA的马蹄效应那么严重,因为坡度的末端没有回旋。 有人可以解释吗?最近,我在重新表示低维空间数据的绘图中看到了这种现象(即对应分析和因子分析)。 “梯度”将更广泛地对应于什么(即在非生态环境中)? 如果您的数据发生这种情况,这是“问题”(“严重问题”)吗?为了什么? 在马蹄形拱门出现的地方应该如何解释输出? 是否需要采取补救措施?什么?原始数据的转换会有所帮助吗?如果数据是序数等级怎么办? 答案可能存在于该站点的其他页面中(例如,对于PCA,CA和DCA)。我一直在努力解决这些问题。但是,这些讨论是用不够熟悉的生态术语和实例进行的,因此很难理解这个问题。

1
马尔可夫决策过程的真实例子
我看了很多教程视频,它们看起来一样。例如:https : //www.youtube.com/watch?v=ip4iSMRW5X4 他们解释好的状态,动作和概率。该人很好地解释了这一点,但我似乎无法掌握它在现实生活中的用途。到目前为止,我还没有遇到任何列表。我看到的最常见的是国际象棋。 可以用来预测事物吗?如果是这样,什么类型的东西?是否可以在无限量的数据中找到模式?该算法可以为我做些什么。 奖励:感觉MDP就是要从一种状态过渡到另一种状态,这是真的吗?

1
如何设置神经网络输出序数数据?
我设置了神经网络来预测输出变量为序数的事物。我将在下面使用三个可能的输出A <B <C进行描述。 很明显,如何使用神经网络输出分类数据:输出只是最后一个(通常是完全连接的)层的softmax,每个类别一个,而预测类别是最大输出值的类别(这是许多流行型号的默认设置)。我一直在使用相同的顺序值设置。但是,在这种情况下,输出通常没有意义,例如,A和C的网络输出为高,而B的网络为低:这对于序数值是不合理的。 我对此有一个想法,即根据输出与A的1 0 0,B的1 1 0和C的1 1 1进行比较来计算损耗。确切的阈值可以稍后使用另一个分类器(例如,贝叶斯(Bayesian))进行调整。 ),但这似乎捕获了输入排序的基本思想,而没有规定任何特定的间隔比例。 解决此问题的标准方法是什么?是否有任何研究或参考文献描述了不同方法的利弊?

5
使用正则化算法时,我们仍然需要进行特征选择吗?
关于运行统计学习算法之前是否需要使用特征选择方法(随机森林特征重要性值或单变量特征选择方法等),我有一个问题。 我们知道,为避免过度拟合,我们可以对权重向量引入正则化惩罚。 因此,如果要进行线性回归,则可以引入L2或L1甚至弹性网正则化参数。为了获得稀疏解,L1惩罚有助于特征选择。 然后,是否仍需要在运行L1正则化或回归(例如Lasso)之前进行特征选择?从技术上讲,套索正在帮助我减少L1损失,那么为什么在运行算法之前需要选择特征? 我读了一篇研究文章,说先做Anova再做SVM比单独使用SVM可以提供更好的性能。现在的问题是:SVM本质上使用L2规范进行正则化。为了最大化裕量,它正在最小化权重向量范数。因此,它正在对其目标函数进行正则化。那么从技术上讲,诸如SVM之类的算法就不应该困扰于特征选择方法吗?但是该报告仍然说,在普通SVM功能更强大之前进行Univariate Feature选择。 有想法的人吗?

4
关于矩阵微积分的教科书?
请参阅Math SE上的此问题。 短篇小说:我读了《统计学习的要素》,在尝试验证某些结果时感到沮丧,例如,给定 然后 我我正在寻找一本与您的传统微积分书类似的矩阵微积分书(例如,定理证明,示例,计算练习等)。我已经看过这个问题RSS (β)= (Ý - X β)Ť(ÿ - X β),的RSS(β)=(ÿ-Xβ)Ť(ÿ-Xβ),\text{RSS}(\beta) = \left(\mathbf{y}-\mathbf{X}\beta\right)^{T}\left(\mathbf{y}-\mathbf{X}\beta\right)\text{,}∂的RSS∂β= - 2 XŤ(ÿ - X β)∂2的RSS∂β ∂βŤ= 2 XŤX。∂的RSS∂β=-2XŤ(ÿ-Xβ)∂2的RSS∂β ∂βŤ=2XŤX。\begin{align}&\dfrac{\partial\text{RSS}}{\partial \beta} = -2\mathbf{X}^{T}\left(\mathbf{y}-\mathbf{X}\beta\right) \\ &\dfrac{\partial^2\text{RSS}}{\partial \beta\text{ }\partial \beta^{T}} = 2\mathbf{X}^{T}\mathbf{X}\text{.} \end{align}觉得马格努斯(Magnus)和诺德克(Neudecker)的文字过于注重理论,而我的温特尔(Gentle)的文字则很少关注理论,而在计算方面则过于关注。 有没有快乐的媒介可供具有本科分析背景的人访问?

1
是否已复制使用段落向量进行情感分析的最新技术成果?
Le和Mikolov 在ICML 2014论文“ 句子和文档的分布式表示 ”中给我留下了深刻的印象。他们描述的技术称为“段落向量”,它基于word2vec模型的扩展来学习任意长的段落/文档的无监督表示。该论文报告了使用这种技术进行情感分析的最新性能。 我希望在其他文本分类问题上评估此技术,以替代传统的词袋表示法。但是,我在word2vec Google小组的一个线程中遇到了第二个作者的帖子,这让我停顿了一下: 在夏季,我尝试重现Quoc的结果。我可以使IMDB数据集的错误率达到9.4%-10%左右(取决于文本规范化的程度)。但是,我无法达到Quoc报告的结果(错误7.4%,那是一个很大的差异)。当然,我们还向Quoc询问了代码;他答应出版,但到目前为止没有任何反应。...我开始认为Quoc的结果实际上是不可复制的。 有人成功复制了这些结果吗?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.