Questions tagged «image-processing»

信号处理的一种形式,其中输入是图像。通常将数字图像视为二维信号(或多维信号)。该处理可以包括图像恢复和增强(特别是图案识别和投影)。

8
在面部图像数据库中检测给定的面部
我正在做一个小项目,通过他们的个人资料图片涉及Twitter用户的面孔。 我遇到的一个问题是,在我滤除了清晰的人像照片以外的所有图像之后,一小部分但相当多的Twitter用户使用Justin Bieber的图片作为个人资料图片。 为了将它们过滤掉,我如何以编程方式判断一张照片是否是贾斯汀·比伯的照片?

4
为什么在深度学习中通过减去数据集的图像均值而不是当前图像均值来规范化图像?
关于如何规范化图像有一些变体,但大多数似乎使用以下两种方法: 减去在所有图像上计算出的每个通道的平均值(例如 VGG_ILSVRC_16_layers) 通过对所有图像计算的像素/通道相减(例如CNN_S,另请参见Caffe的参考网络) 在我看来,自然的方法是将每个图像标准化。在宽广的日光下拍摄的图像比夜间拍摄的图像会引起更多的神经元放电,虽然它可以告诉我们时间,但我们通常关心的是边缘等处出现的更有趣的特征。 Pierre Sermanet在3.3.3中指出,局部对比度归一化将基于每个图像,但是我在所见过的任何示例/教程中都没有遇到过。我也看到了一个有趣的Quora问题和WeiXu-Shen Wei的帖子,但是他们似乎并不支持上述两种方法。 我到底在想什么?这是颜色归一化问题还是有一篇论文可以真正解释为什么这么多人使用这种方法?

1
一个简单的逻辑回归模型如何在MNIST上实现92%的分类精度?
即使MNIST数据集中的所有图像都居中,具有相似的比例并且面朝上且没有旋转,但它们的笔迹差异很大,这使我感到困惑,线性模型如何实现如此高的分类精度。 据我所能想象的,鉴于明显的笔迹变化,数字应该在784维空间中线性不可分割,即应该有一点点(尽管不是很复杂)非线性边界将不同的数字分开,类似于引人注目的XØ [RXORXOR示例,其中正类别和负类别无法通过任何线性分类器分开。在我看来,多类逻辑回归如何在具有完全线性特征(无多项式特征)的情况下产生如此高的准确性令我感到困惑。 例如,给定图像中的任何像素,数字222和333不同手写体变化可以使该像素发光或不发光。因此,通过一组学习的权重,每个像素可以使数字看起来像222以及333。只有结合像素值,才可以说出数字是222还是333。对于大多数数字对都是如此。因此,逻辑回归如何盲目地将决策独立于所有像素值(根本不考虑像素间的依赖性),从而能够实现如此高的准确性。 我知道我在某个地方错了,或者只是高估了图像中的变化。但是,如果有人可以帮助我直观地了解数字如何“几乎”线性可分,那将是很棒的。

2
ZCA美白和PCA美白有什么区别?
我对ZCA增白和普通增白感到困惑(通过将主成分除以PCA特征值的平方根获得)。我所知道的, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite},其中是PCA特征向量。UU\mathbf U ZCA美白有什么用途?普通美白和ZCA美白有什么区别?

2
ImageNet:什么是top-1和top-5错误率?
在ImageNet分类论文中,top-1和top-5错误率是衡量某些解决方案成功与否的重要单位,但是这些错误率是多少? 在Krizhevsky等人的《具有深度卷积神经网络的ImageNet分类 》中。每个基于一个CNN的解决方案(第7页)都没有前5个错误率,而具有5个和7个CNN的解决方案则有5个错误率(而且7个CNN的错误率比5个CNN的更好)。 这是否意味着top-1错误率是一个CNN的最佳单一错误率? 前五位的错误率仅仅是五个CNN的累积错误率吗?

3
确定物体颜色的最准确方法是什么?
我编写了一个计算机程序,可以使用一些计算机视觉标准技术(高斯模糊,阈值,霍夫变换等)来检测静态图像(.jpeg,.png等)中的硬币。使用从给定图像中拾取的硬币的比率,我可以确定地确定哪些硬币。但是,我希望增加我的置信度,并确定我推断出的A型硬币(根据半径比)是否也具有正确的颜色。问题是对于英国硬币等。(铜,银,金),各自的颜色(尤其是铜到金)非常相似。 我有一个例程根据RedGreenBlue(RGB)“颜色空间”提取给定硬币的平均颜色,并将该颜色转换为HueSaturationBrightness(HSB或HSV)“颜色空间”的例程。 在尝试区分三种硬币颜色时,RGB并不是很好用(示例请参见所附的[基本]图像)。对于不同硬币类型的颜色,我具有以下范围和典型值: 注意:此处的典型值是使用实际图像的“像素级”平均值选择的一个。 **Copper RGB/HSB:** typicalRGB = (153, 117, 89)/(26, 0.42, 0.60). **Silver RGB/HSB:** typicalRGB = (174, 176, 180)/(220, 0.03, 0.71). **Gold RGB/HSB:** typicalRGB = (220, 205, 160)/(45, 0.27, 0.86) 我首先尝试使用给定的平均硬币颜色(使用RGB)与上面给定的每种硬币类型的典型值之间的“欧氏距离”,将RGB值视为矢量;对于铜,我们将有: dÇ ø p p Ë ř= (√(RŤ ÿp è− RÇ ø p p Ë ř)2+ (GŤ ÿp è− …

6
如何评估两个直方图的相似性?
给定两个直方图,我们如何评估它们是否相似? 仅看两个直方图就足够了吗?简单的一对一映射存在以下问题:如果直方图略有不同并且略有偏移,那么我们将无法获得所需的结果。 有什么建议么?


6
神经网络如何识别图像?
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 7年前。 我正在尝试学习神经网络如何在图像识别上工作。我看过一些例子,变得更加困惑。在20x20图像的字母识别示例中,每个像素的值成为输入层。因此有400个神经元。然后是神经元的隐藏层和26个输出神经元。然后训练网络,然后工作,并不完美。 我对神经网络感到困惑的是,它如何了解图像中的内容。您无需进行阈值,分割或测量,网络就可以通过某种方式学习比较图像并进行识别。现在对我来说就像魔术。从哪里开始学习神经网络?


4
图像的熵
信息/物理学理论上计算图像熵的最正确方法是什么?我现在不在乎计算效率-理论上我希望它尽可能正确。 让我们从灰度图像开始。一种直观的方法是将图像视为像素包,然后计算 ,其中是灰度级的数量,是与灰度级相关的概率。K p k kH= - Σķpķ升Ò 克2(pķ)H=−∑kpklog2(pk) H = - \sum_k p_k log_2(p_k) ķKKpķpkp_kķkk 这个定义有两个问题: 它适用于一个频段(即灰度级),但是应该如何以一种统计正确的方式将其扩展到多个频段?例如,对于2个频段,一个人应该基于基于并因此基于PMF 吗?如果一个具有多个( >> 2)波段,则,这似乎是错误的。P (X 1 = X 1,X 2 = X 2)乙P (X 1 = X 1,。。。,X 乙 = X 乙)〜1 / Ñ 乙 → ħ 中号甲X(X1个,X2)(X1,X2)(X_1,X_2)P(X1个= x1个,X2= x2)P(X1=x1,X2=x2)P(X_1=x_1,X_2=x_2)乙BBP(X1个= x1个,。。。,X乙= x乙)〜1 / …

4
使用卡方距离比较两个直方图
我想比较两张面孔的图像。我计算了他们的LBP直方图。因此,现在我需要比较这两个直方图,并获得可以说明这些直方图相等(0-100%)的信息。 解决此任务的方法有很多,但是LBP方法的作者强调(带有局部二进制模式的面部描述:应用于面部识别。2004年),卡方距离比直方图交点和对数似然统计更好。 作者还显示了卡方距离的公式: ∑i=1n(xi−yi)2(xi+yi)∑i=1n(xi−yi)2(xi+yi) \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} 其中是多个bin,是第一个bin 的值,是第二个bin的值。X 我ÿ 我nnnxixix_iyiyiy_i 在一些研究中(例如二次方卡尺直方图距离族),我看到卡方距离的公式为: 12∑i=1n(xi−yi)2(xi+yi)12∑i=1n(xi−yi)2(xi+yi) \cfrac{1}{2}\sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} 在http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm中,我看到卡方距离的公式为: ∑i=1n(xi−yi)2yi∑i=1n(xi−yi)2yi \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {y_i} 我坚持下去。我有几个问题: 我应该使用什么表情? 我应该如何解释差异的结果?我知道等于0的差意味着两个直方图都相等,但是如何知道两个直方图完全不同?我需要使用卡方表吗?还是我需要使用阈值?基本上,我想将差异映射到百分比。 为什么这三个表达式不同?

4
如何根据图像分辨率计算特征数量?
只是覆盖安德鲁Ng的神经网络在建筑物的非线性假说,我们必须确定选择题的特点数为分辨率的图像100×100的grescale强度。 答案是5000万, x55510710710^7 但是,对于50 x 50像素的灰度图像,更早一些。功能数量为50x50(2500) 为什么是 x而不是?55510710710^710 ,00010,00010,000 但是,他确实表示将所有二次项()都包含为特征X一世XĴxixjx_ix_j 假设您正在学习从100×100像素图像(灰度而不是RGB)识别汽车。令特征为像素强度值。如果您将所有二次项()作为特征训练逻辑回归,那么您将拥有多少个特征?X一世XĴxixjx_ix_j 在有关100x100的较早幻灯片中,二次特征( x)= 3百万个特征,但我仍然无法。X一世xix_iXĴxjx_j


1
训练基本的马尔可夫随机场以对图像中的像素进行分类
我正在尝试学习如何使用马尔可夫随机场来分割图像中的区域。我不了解MRF中的某些参数,或者为什么我执行的期望最大化有时无法收敛到解决方案。 从贝叶斯定理开始,我有,其中是像素的灰度值,是类标签。我选择对使用高斯分布,而是使用MRF建模的。y x p (y | x )p (x )p(x|y)=p(y|x)p(x)/p(y)p(x|y)=p(y|x)p(x)/p(y)p(x|y) = p(y|x) p(x) / p(y)yyyxXxp (ÿ| X)p(ÿ|X)p(y|x)p (x )p(X)p(x) 我为MRF使用了一个电位函数,该函数既具有成对的集团电位,又具有被分类像素的类别标签的电位值。单个像素电势值是某个常数,取决于类标签。对成对连接的4个邻居评估成对势函数,如果邻居具有与此像素相同的类别标签,则返回正如果标签不同则返回。X β - βαα\alphaXXxββ\beta- β-β-\beta 在期望最大化的点上,我必须找到最大化对数似然期望值的和的值,我使用了数值优化方法(尝试了共轭梯度,BFGS,鲍威尔方法),但是总是会发现的值将变为负值, s将会急剧增加,并且一两次或之后的迭代,整个图像将仅分配给一个标签(背景:使用ICM完成给定MRF参数的类标签的分配) 。如果我删除了alpha,即仅使用成对的集团势,那么期望最大化就可以了。β β αα (x )α(X)\alpha(x)ββ\betaββ\betaαα\alpha 请说明每个课程的Alpha用途是什么?我以为它们与图像中存在的该类的数量有关,但似乎无关。一旦我使MRF仅以成对电位工作,我便将其与简单的高斯混合模型进行了比较,发现它们产生的结果几乎相同。我期望成对的电位能使课程顺利一些,但这并没有发生。请告知我哪里出了问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.