统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

6
为什么当概率分布均匀时熵最大?
我知道熵是过程/变量随机性的量度,可以定义如下。对于集合的随机变量:。在MacKay撰写的《熵和信息论》一书中,他在第二章中提供了这一陈述甲ħ (X )= Σ X 我 ∈ 甲 - p (X 我)日志(p (X 我))X∈X∈X \inAAAH(X)=∑xi∈A-p(xi)log(p (xi))H(X)=∑xi∈A−p(xi)log⁡(p(xi))H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) 如果p是均匀的,则熵最大。 直观地说,我能够理解,如果像在集合中的所有数据点都以相同的概率拾取(为组的基数),则随机性或熵的增加。但是,如果我们知道集合中的某些点比其他点更有可能发生(例如,在正态分布的情况下,数据点的最大集中度在均值附近,并且标准偏差区域较小,则随机性或熵应减少。1 /米m A AAAA1/m1/m1/mmmm一种一种A一种一种A 但是,对此有任何数学证明吗?像的方程式一样,我针对对其进行微分,并将其设置为0或类似的值。p (x )H(X)H(X)H(X)p(x)p(x)p(x) 附带说明一下,信息理论中出现的熵和化学(热力学)中的熵计算之间是否有联系?


1
回归的CNN架构?
我一直在研究回归问题,其中输入是图像,标签是80到350之间的连续值。图像是发生反应后的某些化学物质。原来的颜色表示剩余的另一种化学品的浓度,这就是模型要输出的-该化学品的浓度。图像可以旋转,翻转,镜像,并且预期的输出应该仍然相同。这种分析是在真实的实验室中完成的(非常专业的机器使用颜色分析来输出化学药品的浓度,就像我正在训练该模型一样)。 到目前为止,我仅试验了大致基于VGG(conv-conv-conv-pool块的多个序列)的模型。在尝试使用较新的体系结构(Inception,ResNets等)之前,我想研究一下是否存在其他更常用的图像回归体系结构。 数据集如下所示: 该数据集包含约5,000个250x250样本,我将其大小调整为64x64,因此训练更加容易。一旦找到有前途的体系结构,我将尝试更大分辨率的图像。 到目前为止,我的最佳模型在训练集和验证集上的均方误差约为0.3,这在我的用例中还远远不能接受。 到目前为止,我最好的模型如下所示: // pseudo code x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x …

5
了解LSTM单位与细胞
我学习LSTM已有一段时间了。我从较高的角度了解一切。但是,要使用Tensorflow实施它们,我注意到BasicLSTMCell需要许多单位(即num_units)参数。 从这个 LSTMs的非常详尽的解释,我已经收集单个LSTM单元是以下情况之一 实际上是GRU单位 我假设参数num_units的BasicLSTMCell指的是我们要多少,这些在层挂钩到对方。 这就提出了问题-在这种情况下什么是“单元”?“单元”是否等效于普通前馈神经网络中的一层?


2
可视化数据后执行统计测试-数据挖掘?
我将通过一个示例提出这个问题。 假设我有一个数据集,例如波士顿住房价格数据集,其中有连续的和分类的变量。在这里,我们有一个“质量”变量(从1到10)和销售价格。通过(任意)创建质量截止值,我可以将数据分为“低”,“中”和“高”质量房屋。然后,使用这些分组,我可以绘制销售价格的直方图。像这样: 在此,“低”是,和“高”是> 7上的“质量”的分数。现在,我们可以得出三个组中每个组的销售价格分布。显然,中型和高质量房屋的位置中心不同。现在,完成所有这些操作后,我认为“嗯。位置中心似乎有所不同!为什么不对均值进行t检验?”。然后,我得到一个p值,它似乎正确地拒绝了均值没有差异的零假设。≤ 3≤3\leq 3> 7>7>7 现在,假设在绘制数据之前,我没有想到要检验此假设。 这是在挖泥吗? 如果我想:“我敢打赌,优质房子的价格会更高,因为我以前是住在这所房子里的人。我要对数据进行绘图。啊哈!看起来不一样!时间还在吗?”进行t检验!” 自然地,如果收集数据集是为了一开始就检验这个假设,那不是数据挖掘。但是通常必须处理提供给我们的数据集,并被告知“寻找模式”。考虑到这个模糊的任务,某人如何避免数据挖掘?创建测试数据的保留集?可视化是否“算作”窥探机会来测试数据提出的假设?

4
考试的结果是二项式的吗?
这是我得到的一个简单的统计问题。我不太确定我是否理解。 X =考试中获得的分数(多项选择和正确答案是1分)。X二项式分布吗? 教授的答案是: 是的,因为只有正确或错误的答案。 我的答案: 不,因为每个问题都有不同的“成功概率” p。据我所知,二项式分布只是一系列的伯努利实验,每个实验都有一个简单的结果(成功或失败),并且具有给定的成功概率p(并且所有关于p都是“相同的”)。例如,将(普通)硬币翻转100次,这就是100次Bernoulli实验,所有实验都具有p = 0.5。但是这里的问题有不同的p对吗?

1
计算联合置信区间的高斯相关不等式的结果
根据《 Quanta杂志》上一篇非常有趣的文章:“长期寻找,发现并几乎丢失” –已经证明,给定向量具有多元变量高斯分布,给定间隔围绕的相应分量的,然后I 1,… ,I n xx=(x1,…,xn)x=(x1,…,xn)\mathbf{x}=(x_1,\dots,x_n)I1,…,InI1,…,InI_1,\dots,I_n xx\mathbf{x} p(x1∈I1,…,xn∈In)≥∏i=1np(xi∈Ii)p(x1∈I1,…,xn∈In)≥∏i=1np(xi∈Ii)p(x_1\in I_1, \dots, x_n\in I_n)\geq \prod_{i=1}^n p(x_i\in I_i) (高斯相关不等式或GCI;有关更一般的表述,请参见https://arxiv.org/pdf/1512.08776.pdf)。 这看起来确实很简单,并且文章说这对联合置信区间有影响。但是,这对我而言似乎毫无用处。假设我们正在估计参数 ,并且发现了估计器都是(也许是渐近的)联合正态的(例如MLE估计器) 。然后,如果我为每个参数计算95%的置信区间,则GCI保证超立方体I_1 \ times \ dots I_n是一个联合置信区域,其覆盖范围不小于(0.95)^ n ...甚至覆盖率也非常低中度n。θ1,…,θnθ1,…,θn\theta_1,\dots,\theta_nθ1^,…,θn^θ1^,…,θn^\hat{\theta_1},\dots,\hat{\theta_n}I1×…InI1×…InI_1\times\dots I_n(0.95)n(0.95)n(0.95)^n nnn 因此,找到联合置信区域似乎不是一个明智的方法:如果知道协方差矩阵并且该协方差矩阵更锐利,则很难找到多元高斯的通常置信区域,即超椭球。当协方差矩阵未知时,找到置信区域可能有用吗?您能给我展示一个GCI与联合置信区域计算的相关性的例子吗?

2
逻辑回归:Scikit学习与统计模型
我试图理解为什么这两个库的逻辑回归的输出会给出不同的结果。 我使用从加州大学洛杉矶分校idre数据集教程,预测admit基础上gre,gpa和rank。rank被视为分类变量,因此先将其rank_1删除后转换为虚拟变量。还添加了一个拦截列。 df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit ~ gre + gpa + C(rank)', df, return_type = 'dataframe') X.head() > Intercept C(rank)[T.2] C(rank)[T.3] C(rank)[T.4] gre gpa 0 1 0 1 0 380 3.61 1 1 0 1 0 660 3.67 2 1 0 0 0 800 4.00 3 1 …

5
置信区间说明精度(如果有的话)是什么?
Morey等人(2015年)认为,置信区间具有误导性,并且与理解它们有关。其中,他们将精度谬误描述如下: 精度谬误 置信区间的宽度表示我们对参数知识的精度。狭窄的置信区间显示精确的知识,而宽的置信误差则显示不精确的知识。 估计的精度和置信区间的大小之间没有必要的联系。看到这种情况的一种方法是,想象两个研究人员(一名高级研究员和一名博士生)正在分析实验中参与者的数据。为了使博士生受益,这项高级研究人员决定将参与者随机分为两组,每组25人,这样他们就可以分别分析一半的数据集。在随后的会议上,有一个两股另一个自己学生的牛逼置信区间的平均值。博士生的95 % CI为52 ± 2,而高级研究员的95 % CI为52 ± 2。505050252525Ťtt95 %95%95\%52 ± 252±252 \pm 295 %95%95\%CI为。53±453±453 \pm 4 资深研究员指出,他们的结果大致上是一致的,他们可以使用各自两个点估计值的均等加权平均值作为真实平均值的总体估计。52.552.552.5 但是,这名博士生认为,这两种方法的权重不应平均分配:她指出自己的CI的宽度是后者的一半,并且认为自己的估算更为准确,因此应加权更大。她的顾问指出,这是不正确的,因为对两种方法进行加权加权后得出的估算值将不同于对整个数据集进行分析得出的估算值,该估算值必须为。博士生的错误是假设CI直接表示数据后精度。52.552.552.5 上面的示例似乎具有误导性。如果我们将一个样本随机分为两半,那么我们期望样本均值和标准误都接近。在这种情况下,使用加权平均值(例如,通过反误差加权)与使用简单算术平均值之间应该没有任何区别。但是,如果估计值不同并且其中一个样本的误差明显更大,则可能表明此类样本存在“问题”。 显然,在上面的示例中,样本大小相同,因此通过均值的平均值“合并”数据与整个样本的均值相同。问题在于,整个示例遵循的逻辑不明确,即首先将样本分为几部分,然后再重新合并以进行最终估计。 该示例可以重新措辞以得出完全相反的结论: 研究人员和学生决定将其数据集分为两半,并进行独立分析。之后,他们比较了自己的估计,似乎样本意味着他们计算出的差异很大,而且学生的估计的标准误也更大。该学生担心这可能会暗示其估计精度存在问题,但是研究人员暗示,置信区间和精度之间没有联系,因此这两个估计值都是可信赖的,并且可以发布其中的任何一个(随机选择),作为他们的最终估计。 ttt x¯±c×SE(x)x¯±c×SE(x) \bar x \pm c \times \mathrm{SE}(x) ccc 所以我的问题是: 精确谬论真的是谬论吗?置信区间对精度有何评价? Morey,R.,Hoekstra,R.,Rouder,J.,Lee,M.和Wagenmakers,E.-J. (2015)。将置信度置入置信区间的谬误。心理公告与评论,1-21。https://learnbayes.org/papers/confidenceIntervalsFallacy/

6
简约应该真的仍然是黄金标准吗?
只是一个想法: 简约模型一直是模型选择的默认选择,但是这种方法在多大程度上已经过时了?我对我们的简约化趋势多少是一次算盘和滑动规则(或更确切地说,是非现代计算机)的遗迹感到好奇。当今的计算能力使我们能够构建越来越复杂的模型,并且具有越来越强大的预测能力。由于计算能力不断提高的上限,我们是否真的仍然需要趋向于简化? 当然,更简单的模型更易于理解和解释,但是在数据量不断增长,变量数量越来越多,并且转向更加关注预测能力的时代,这可能甚至不再可能实现或不必要。 有什么想法吗?

2
OLS线性回归中的成本函数
我对Andrew Ng在Coursera上关于机器学习的线性回归讲座感到有些困惑。在那里,他给出了一个成本函数,该函数将平方和最小化为: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 我知道1212\frac{1}{2}来自。我认为他这样做是为了使他在平方项上执行导数时,平方项中的2将被一半抵消。但我不知道来源。1m1m\frac{1}{m} 为什么我们需要做?在标准线性回归中,我们没有它,我们只是将残差最小化。为什么在这里需要它?1m1m\frac{1}{m}

3
将一长串的字符串(单词)聚类为相似性组
我手头有以下问题:我有很长的单词列表,可能有名称,姓氏等。我需要将此单词列表聚类,以便类似的单词(例如,具有类似编辑(Levenshtein)距离的单词)出现在同一集群。例如,“算法”和“算法”应该有很高的机会出现在同一集群中。 我很清楚模式识别文献中的经典无监督聚类方法,例如k-means聚类,EM聚类。这里的问题是这些方法对驻留在矢量空间中的点起作用。我在这里手头有弦。到目前为止,根据我的调查工作,关于如何在数值向量空间中表示字符串以及如何计算字符串簇的“均值”的问题似乎还没有得到充分回答。解决这个问题的一种简单方法是将k-Means聚类与Levenshtein距离结合起来,但问题仍然是“如何表示字符串的“均值”?”。有一个权重称为TF-IDF权重,但似乎它主要与“文本文档”聚类的区域有关,而不与单个单词的聚类有关。 http://pike.psu.edu/cleandb06/papers/CameraReady_120.pdf 我在这方面的搜索仍在进行中,但我也想从这里获得一些想法。在这种情况下,您会建议什么?有人知道解决此类问题的任何方法吗?


4
Winsorizing与Triming数据的相对优点是什么?
Winsorizing数据意味着用两端的某个百分位值替换数据集的极值,而Trimming或截断涉及删除这些极值。 我总是将讨论的两种方法视为在计算诸如均值或标准差之类的统计数据时减轻异常值影响的可行选择,但我还没有看到为什么一个人可能会选择另一个。 使用Winsorizing或Trimming有什么相对优点或缺点?在某些情况下,最好使用一种方法吗?在实践中是否经常使用一种或它们基本上可以互换?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.