Questions tagged «computer-vision»

计算机视觉包括处理,分析,图像和高维数据以形成对场景或图像的高级理解和识别的方法。

3
色度二次采样:如何正确计算数据速率
我很难理解在利用Y'UV图像中的色度二次采样时如何计算数据速率: 我有以下示例进行计算: 图像分辨率:352*288 频率:25 fps 对于(4:4:4),示例计算如下: (352px * 288px) * 3 color channels * 25 fps * 8 bit = 60 825 600 bit/s 到目前为止,一切都很好。 但是现在来了(4:2:0): (352px*288px) * 1.5 color channels * 25 * 8 = 30 412 800 bit/s 现在,尝试将此示例转换为例如(4:1:1),我意识到我不确定自己是否正确理解如何计算1.5个颜色通道的比率。 我对计算的第一个猜测是在(4:2:0)的情况下: 2/4*3=1.5 color channels 同样,对于(4:1:1),我将计算颜色通道的比率为: 1/4*3=0.75 color channels 但是我根本不确定这是否是正确的方法。 …

1
尺度空间理论的理解
在尺度空间理论的信号的尺度空间表示,(在图像的情况下,d = 2)被给出为: 大号(X ,y ; t )= g (x ,y ; t )* f (x ,y )其中g (x ,F(x ),x = (x1个,。。。,Xd)F(X),X=(X1个,。。。,Xd)f(x), x = (x_1, ..., x_d)d= 2d=2d = 2L (x ,y; t )= g(x ,y; t )* f(x ,y)大号(X,ÿ;Ť)=G(X,ÿ;Ť)∗F(X,ÿ)L(x, y; t) = g(x, y; t) * f(x, y)G(x …

2
检测指尖或指甲的算法
您能为我提供一些有关检测图像中指尖/指甲的最佳算法的建议吗?我想到的第一件事是中提琴-琼斯。重新考虑之后,我得出结论,在应用边缘检测之后,也许可以仅使用休变换。但是,我想提出更多建议。另外,由于这将是一个旨在学习的学生项目,因此不允许我使用OpenCV或类似框架。下面是将要处理的典型图像。(请注意,它不是自顶向下的视图)。无需拇指检测。 典型图片http://www.deviantpics.com/images/BwgPX.jpg

1
去除牙科放射线照相中的噪声
我正在开展一个应用Active Shape Model 在牙科X射线照片中定位牙齿的项目。对于那些熟悉这项技术的人,我目前正在尝试沿着每个界标的法线矢量进行采样。该论文建议采用采样像素的导数:“为减少全局强度变化的影响,我们沿轮廓而非绝对灰度值采样导数。” 因此,我的问题是如何以最佳方式过滤牙科X光片,以准备应用导数算子。我目前正在使用中值滤波器的组合来消除我认为是量子噪声(杂色)的大部分。其次是双边过滤器。然后,我应用Scharr运算符来计算应采样的实际梯度。 结果如下: 第一张图片显示原始数据。在第二张和第三张图像中,显示了滤波后的数据,首先显示为FFT后的频谱幅度,然后显示为滤波后的图像数据。第四张图片显示了将Scharr运算符应用于第三张图片的结果。 我的问题是: 有没有一种与我的方法不同的减少牙齿X光片噪声的方法? 是什么导致边缘和“平坦”(非边缘)区域的“烟熏”外观?是滤波图像中的某种残留噪声还是梯度算子固有的?如果确实是噪音,那么哪个滤波器最适合使用?中值滤镜可以很好地去除较小的噪点斑点,但较大的内核会导致边缘模糊太多。因此,双边滤镜用于滤除较大的斑点,并在不损害边缘的情况下使整个区域的颜色均匀,但是无法滤除这种烟熏结构。 在这种情况下,是否有比Scharr运算符更好的选项来创建渐变? 好处:这将被视为Active Shape Model的良好输入吗?我还不知道它们有多强大。

2
了解SURF特征计算过程
因此,我正在阅读有关SURF的论文(Bay,Ess,Tuytelaars,Van Gool:加速鲁棒功能(SURF)),而我无法理解以下段落: 由于使用了框式滤镜和积分图像,因此我们不必将相同的滤镜迭代地应用于先前已滤过图层的输出,而是可以将完全相同速度的任何大小的框式滤镜直接应用于原始图像,并且即使是并行的(尽管此处未利用后者)。因此,通过扩大滤波器的大小而不是迭代地减小图像的大小来分析缩放空间,如图4所示。 This is figure 4 in question. PS:本文对整体图像进行了解释,但是本文的全部内容基于上面的特定段落。如果有人阅读了本文,您能否简要介绍一下这里发生的事情。整个数学解释都很复杂,需要首先掌握,因此我需要一些帮助。谢谢。 编辑,几个问题: 1。 每个八度细分为恒定数量的音阶。由于积分图像的离散性,两个后续比例之间的最小比例差异取决于部分二阶导数在导数方向(x或y)上正负叶的长度lo,将其设置为过滤器尺寸长度的三分之一。对于9x9滤镜,此长度lo为3。对于两个连续的级别,我们必须将此大小至少增加2个像素(每侧一个像素),以保持大小不均匀,从而确保中央像素的存在。这导致掩模大小总共增加了6个像素(请参见图5)。 Figure 5 我无法理解给定上下文中的界线。 对于两个连续的级别,我们必须将此大小至少增加2个像素(每侧一个像素),以保持大小不均匀,从而确保中央像素的存在。 我知道他们正在尝试对图像的长度进行处理,即使它们试图使图像变得奇怪,以便有一个中心像素,这将使他们能够计算像素梯度的最大值或最小值。我对它的上下文含义有些怀疑。 2。 为了计算描述符,使用了Haar小波。 Σ d X∑ dX\sum\ dx∑ | d x |∑ |dX|\sum\ |dx| 3。 拥有近似滤波器的必要性是什么? 4. 我对他们发现过滤器尺寸的方式没有任何疑问。他们凭经验“做”一些事情。但是,我对这条线有些na 上一节介绍的9x9滤波器的输出被视为初始比例尺层,我们将其称为比例尺s = 1.2(近似σ= 1.2的高斯导数)。 他们是如何发现σ值的。此外,缩放的计算如何完成,如下图所示。我之所以要声明此图像,是因为值s=1.2不断重复出现,而没有清楚说明其起源。 5. 用黑森矩阵表示的L是高斯滤波器和图像的二阶梯度的卷积。 然而,据说“近似”行列式仅包含涉及二阶高斯滤波器的项。 的值为w: 我的问题是为什么行列式如此计算,近似的Hessian和Hessian矩阵之间是什么关系。

2
参数魔鬼—当无法针对groundtruth进行验证时如何设置它们[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 6年前关闭。 题: 我想就无法对groundtruth进行验证的情况下人们如何设置算法参数展开讨论(可能是因为groundtruth无法获得或很难/乏味地获得)。 我已经阅读了许多论文并实现了底层算法,其中---据说一组参数是“凭经验设置的” ---而且我经常发现这些参数会影响算法的通用性(即使该方法所基于的理论是优雅,诱人和稳健的。 如果您能分享您的想法,我将不胜感激。并且,此问题没有正确或错误的答案。我只想知道,其他人如何处理这个问题。 背景/问题来源: 我是一名从事图像分析,计算机视觉和机器学习领域的计算机科学家,每当我设计新算法并且每次发现自己花费了大量时间来调整参数。 另外,我想,我的问题在涉及计算算法的任何领域都更普遍,我想邀请所有相关领域的人们的想法。 我想给您一个具体的例子,以帮助您思考: ---以特征检测为例(比如说圆形斑点或显着点)。您以不同的比例(比例参数)运行某些过滤器(需要参数),并可能将响应设置为阈值(阈值参数)。在这种情况下,通常无法获得验证的依据,从而无法自动调整参数。 ---采用任何涉及大量信号处理组件的计算框架。总是有需要调整的参数,通常没有基础,当您主观调整数据集的随机小子集时,总有一天会遇到无法推广的情况。 当您为算法中的某些中间步骤设置参数时,此参数魔鬼会更麻烦。 而且我经常发现,不可能将为这些参数找到合适的值的问题作为具有目标函数的优化问题,您可以对其求导,从而使用标准的优化算法来找到合适的值。 同样,在许多情况下,将这些参数暴露给最终用户也是不可取的,因为我们经常为非计算最终用户(例如生物学家,医生)开发应用程序/软件,并且当您要求他们进行调整时,它们通常变得毫无头绪。除非它非常直观(例如大约对象大小)。 请分享您的想法。

1
计数图像中的车辆
我一直在尝试实现一种算法,以成功对图像中的汽车进行计数。我尝试在交通图像中存在多车遮挡的情况下实现一种车辆计数方法 它从一组各种图像中估计背景。我已经为此目的研究了各种其他技术,所有这些技术都以一种方式或另一种方式使用了一组图像的背景估计或需要视频。作为输入,我几乎看不到背景(可能是大多数论文中的道路)的交通图像。而且,这些图像来自不同的区域,因此它们也不具有相同的背景。在这种情况下我应该如何进行? 我在想,如果我能以某种方式匹配车辆(汽车)的结构,那么也许它们可以匹配。但是我不知道这是否可行,以及如何进行处理,因为该图像还包含多个被遮挡的车辆。 任何提示,甚至研究论文也欢迎。 样本图像如下:

2
普通英语数字图像时刻
我正在研究OpenCV,在计算机视觉和图像处理中,人们谈论斑点,轮廓,连接区域,有时我会听到“图像时刻”一词。 我知道在Wikipedia上有一篇有关它的文章,但我认为这太技术性了。我真的不想深入了解数学背景,但我想知道我在说什么。 有人可以给我解释一下简单的英语中的图像瞬间吗?

2
如何在CT扫描DICOM图像中测量肺结节?
在这个问题上,我想重点介绍CT扫描的强度值。首先,请看下面的图片: 上面的图像是原始图像,下面的图像是阈值版本。为了测量任何形状的体积,从理论上讲,仅计算图像中体素的数量是可能的。但是,物体的最外层(例如结节)显示出较暗的强度,而物体内部的所有体素都具有很高的强度。如果仅计算阈值版本中的体素,则极有可能获得大于肺结节实际体积的结果体积。 我还看到有诸如窗口中心(水平)和窗口宽度之类的变量,可用于调整DICOM图像的强度信息。不同的强度可以改变结果量。 所以这是一个问题:如果我要测量任何给定的肺结节,我应该怎么做才能获得最佳的精度?什么时候应该忽略强度较低的体素?还是我必须以其他方式做到这一点?

2
iPhone iOS UIImage如何检测相机源上的“激光指示器”点?
我有一个履带式机器人玩具,正在用iPhone控制它。机器人会输出一个已知帧大小的实时摄像头供稿,然后将其显示在UIImage上。 我向机器人添加了激光指示器,并将其固定在机器人的轴上。我试图检测图像上的激光指示器点,从而尝试计算物体的接近度。如果激光点距离中心较远,我知道机器人被卡在墙上,需要备份。 如何检测屏幕上明亮的白红色像素点?一种解决方案是对中心一定半径内的像素颜色进行采样并检测斑点明亮的颜色。谁能为此活动提出算法? 另一种方法是跟踪最后几帧上点的平均位置,从而减小猜测半径。如果在预定义区域内没有点,则可以扩展搜索区域。 最后,我希望能够教机器人检测周围的地毯。地毯以某种方式反射激光笔,我想了解一下机器人周围有多少帧具有相似的属性。如果我知道激光指示器在屏幕上的位置,则可以从该图像中裁剪一个小矩形并将它们相互比较。有没有一种有效的方法可以将多个小图像相互比较,以了解它们的轮廓是否匹配? 我注意到激光是从光滑的表面反射回来的,根据折射定律,这种反射的方向可能告诉我一些关于空间在空间中的方向的信息。 谢谢!

2
如何估算位于Harris角的视觉特征的八度和大小
我目前正在使用OpenCV作为视觉特征匹配基础的几种特征检测器,并对其性能进行比较。 我正在使用SIFT描述符。在检测MSER和DoG(SIFT)功能时,我已经完成了令人满意的匹配(拒绝了不匹配的匹配之后)。 目前,我正在使用GFTT(要跟踪的良好功能-Harris角)测试我的代码以进行比较,并且因为在最后的应用中,视觉功能跟踪过程中将提供一组GFTT功能。 我使用cv::FeatureDetector::detect(...)它为我提供了一个std::vector<cv::KeyPoint>充满了兴趣检测的特征/关键点/地区。该结构cv::KeyPoint包含有关要素的位置有关的基本信息,以及信息size,并octave在关键点已经被检测到。 在比较不同类型的特征的典型值和参数之前,我对GFTT的最初结果很糟糕:sizeoctave MSER设置大小(10到40px之间),并将八度保留为0 DoG(SIFT)设置大小和八度(大小/八度比在20到40之间) GFTT参数始终为:size = 3,octave = 0 我认为这是因为GFTT功能的主要目的不是用于匹配,而只是用于跟踪。这解释了匹配结果的低质量,因为从如此微小的特征中提取的描述符不再具有歧视性,并且对于许多事物(包括小的1像素偏移)不变。 如果我手动设置size的GFTT至10 - 12,我得到了良好的效果,非常类似于使用时MSER或DOG(SIFT) 。 我的问题是:有没有比10见才能确定增加size(和/或octave)多少更好的方法呢?我想避免对可能的增加进行硬编码,并以编程方式确定它,但是只要我有一些可靠的论据来支持对新的/ 增加 / 估计算法的选择,就可以进行硬编码。sizesizesizesize

2
是否有专门针对深度图像的计算机视觉算法?
我一直在研究与基于kinect的应用程序一起使用的标记检测算法,而我能够找到的大部分工作显然都集中在“正常”图像中的特征检测上。 但是,kinect硬件(基本上,一旦您进行了调整)就可以为每个像素提供11位深度值。 此深度图像还具有围绕对象边缘投射的阴影的各种视觉伪像(例如,请参见此视频中的黑色粗边框http://www.youtube.com/watch?v=-q8rRk8Iqww&feature=related)。 虽然某些传统的机器视觉技术(例如边缘检测)可以很好地解决此问题,但其他技术则不能,而且网上似乎很少有信息讨论此问题。 举一个简单的例子,使用深度值使定位标记块的方向很简单。 那么,有没有人看过任何讨论/论文/等等涵盖处理深度图像以进行特征检测的讨论? 谁能推荐一个好的算法来检测“深度”标记(有效地用折纸块代替打印的黑白标记)? 到目前为止,我所做的就是使用opencv对图像进行即席实验,但这还不够稳定或不够快。 如果您未经试用就链接到商用机器视觉产品,请在回答中提及您认为合适的理由。

1
在2张图像上计算出的单应性与上下颠覆同一张图像上计算出的单应性之间的联系是什么?
使用OpenCV,我可以计算出这两个图像之间的单应性: 和 不用担心右侧的白色奇怪形状,这是由于我使用的智能手机支架所致。由findHomography()函数提供的单应性(使用通过快速特征检测器和HammingLUT描述符匹配器检测到的点)为: A = [ 1.412817430564191, 0.0684947165270289, -517.7751355800591; -0.002927297251810, 1.210310757993256, 39.56631316477566; 0.000290600259844, -9.348301989015293e-05, 1] 现在,我使用相同的过程,通过使用imagemagick来计算旋转了180度(上下)的相同图像之间的单应性(事实上​​,我同样有兴趣知道旋转90度或90度的关系) 270度...)。他们来了: 和 通过这些图像,单应性变为: B = [ 0.7148688519736168, 0.01978048500375845, 325.8330631554814; -0.1706219498833541, 0.8666521745094313, 64.72944905752504; -0.0002078857275647, -5.080048486810413e-05, 1] 现在,问题是您如何关联A和B?A的两个第一个对角线值接近B中的两个对角线值,但不是很精确(.707805537而不是0.71486885)。我的最终目的是使用所需的关系来变换最终矩阵,从而避免计算代价高昂的图像旋转。

1
识别图像中汽车模型的良好功能/算法
我有一个关于物体识别的问题,尤其是识别汽车模型!我正开始着手在不同图像中识别相同汽车模型的工作。目前,我认为3D对象识别的最佳算法之一是SIFT,但在演示实现中反复试验后,我感到奇怪的是,该算法在有光泽的金属物体(例如汽车)上存在一些问题,尤其是当它们具有不同的颜色时。 有谁知道这个领域的一些工作,总的来说是一些合适的算法,可以在不同的图像中找到相同的汽车模型? 在此先感谢您的帮助!

2
表面检测
如何从图像中分割出大面积的灰色(从白色到黑色)?(如果您在opencv中知道这一点,则可以通过说出在opencv中的操作来回答)。例如给出此图片: 您会看到这是一个很大的灰色区域,可以与其他区域清楚地区分开。如果该区域可以具有任何灰色阴影并且必须实时工作,那么如何分割该区域。 提前谢谢。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.