Questions tagged «image-recognition»


8
在CNN中,每个新滤波器对每个输入通道的权重是否不同,还是在输入通道中使用的每个滤波器的权重相同?
我的理解是,卷积神经网络的卷积层具有四个维度:input_channels,filter_height,filter_width,number_of_filters。此外,据我了解,每个新过滤器都只是在所有input_channels(或上一层的特征/激活图)上盘旋。 但是,CS231下图显示了每个滤波器(红色)应用于单个通道,而不是跨通道使用相同的滤波器。这似乎表明每个通道都有一个单独的滤镜(在这种情况下,我假设它们是输入图像的三个颜色通道,但是对所有输入通道都适用)。 这令人困惑-每个输入通道是否都有不同的唯一过滤器? 资料来源:http : //cs231n.github.io/convolutional-networks/ 上图似乎与奥雷利(O'reilly)的“深度学习基础”节选中的矛盾: “ ...过滤器不仅可以在单个要素地图上运行,而且还可以在特定图层上生成的全部要素地图上运行...因此,要素地图必须能够在多个实体上进行操作,不只是区域” ...此外,据我了解,以下这些图像表示THESAME过滤器仅在所有三个输入通道上卷积(与上面的CS231图形相反):


3
如何在CNN中处理大尺寸图像?
假设在CNN中需要使用10K大小为2400 x 2400的图像,我认为人们会使用的常规计算机是Acc。现在的问题是如何在没有下采样特权的情况下处理如此大的图像大小。 这是系统要求: Ubuntu 16.04 64位RAM 16 GB GPU 8 GB硬盘500 GB 1)是否有任何技术可以处理要训练的大图像? 2)合理使用多少批量? 3)是否可以采取任何预防措施或可以增加或减少硬件资源?

4
识别人工制作的媒体有哪些策略?
随着廉价地创建假图片,假声音和假视频的能力不断增强,识别真实和不真实的问题变得越来越严重。甚至现在,我们仍然看到了一些应用程序示例,这些应用程序以很少的成本创建了伪媒体(请参阅Deepfake,FaceApp等)。 显然,如果以错误的方式使用这些应用程序,它们可能会被用于损害他人的形象。Deepfake可以使一个人对伴侣不忠。可以使用另一个应用程序来使它看起来像政客所说的那样。 有哪些可用于识别和保护人造介质的技术?

3
是否存在任何文本验证码挑战都可以愚弄AI,但不能欺骗人类?
是否存在生成文本验证码(因此用户需要输入正确的文本)挑战的现代技术,这些挑战可以通过一些视觉混淆方法轻松地欺骗AI,但与此同时人类可以毫不费力地解决它们? 例如,我在谈论识别图像中嵌入的文本(不考虑任何外部插件,如Flash或Java,图像分类等)并重新键入已写文本或类似内容的简单能力。 我猜想添加噪音,渐变,旋转字母或更改颜色不再是可靠的方法,因为它们会很快被破坏。 有什么建议或研究吗?

1
对于DNN的实际使用,白噪声有多少问题?
我读到深度神经网络可以相对容易地被愚弄(链接),从而使人们对完全(或至少大部分)不在置信对象范围内的合成/人工图像的识别具有很高的信心。 就我个人而言,我真的没有看到DNN对那些合成/人造图像具有高置信度的大问题,但是我认为对白噪声(链接)具有高置信度可能是一个问题,因为这是相机可能看到的一种真正的自然现象。在现实世界。 对于DNN的实际使用,白噪声有多少问题?可以通过某种方式防止从普通噪声中检测到这种误报吗?

1
单个神经网络可以处理识别两种类型的对象,还是应该将其分为两个较小的网络?
特别是,一台嵌入式计算机(资源有限)会分析来自交通摄像头的实时视频流,试图选择包含过往车辆牌照号的良好帧。找到板后,将框架移交给OCR库以提取配准并进一步使用它。 在我国,通常使用两种类型的车牌-矩形(典型的)和正方形-实际上,有些牌照是矩形的,但“比宽于”高,车牌分为两行。 (还有更多类型,但让我们忽略它们;它们只占很小的百分比,通常属于超出我们兴趣的车辆。) 由于资源有限以及需要快速实时处理,因此系统可以处理的最大网络大小(单元和连接数)是固定的。 最好将其分成两个较小的网络,每个网络都识别一种类型的车牌,还是将较大的单个网络更好地处理这两种类型?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.