Questions tagged «computer-vision»

一般与图像表示,分割,视觉对象分类和图像处理算法有关的问题。

7
面向初学者的神经网络参考(教科书,在线课程)
我想学习神经网络。我是计算语言学家。我知道统计机器学习方法,并且可以使用Python进行编码。 我希望从其概念入手,并从计算语言学的角度了解一种或两种可能有用的流行模型。 我浏览了网络以供参考,并找到了一些书籍和材料。 Ripley,Brian D.(1996)模式识别与神经网络,剑桥 Bishop,CM(1995年),《神经网络用于模式识别》,牛津:牛津大学出版社。 一些链接,例如本文,这些课程笔记(多伦多大学心理学系),这些课程笔记(威斯康星大学计算机科学大学)和此幻灯片(Facebook研究)。 如果有人知道课程,Coursera课程通常很好。我更喜欢具有清晰语言和大量示例的材料。

4
什么是计算机视觉和卷积神经网络中的翻译不变性?
我没有计算机视觉背景,但是当我阅读一些图像处理和卷积神经网络相关的文章和论文时,经常遇到术语“ translation invariance或” translation invariant。 还是我读了很多卷积运算提供的信息translation invariance?!这是什么意思? 我本人总是将其翻译成自己的意思,好像这意味着如果我们以任何形状更改图像,则图像的实际概念不会改变。 例如,如果我旋转一个可以说的树的图像,那么无论我对那张照片做什么,它又都是一棵树。 而且我本人认为,可能发生在图像上的所有操作并以某种方式(裁剪,调整大小,灰度,着色等)进行转换都是这种方式。我不知道这是否是真的,所以如果有人可以向我解释这一点,我将不胜感激。

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
是否可以将可变大小的图像作为输入到卷积神经网络?
我们能否将尺寸可变的图像作为卷积神经网络的输入以进行目标检测?如果可能,我们该怎么做? 但是,如果我们尝试裁切图像,则会丢失图像的某些部分,如果尝试调整大小,则会丢失图像的清晰度。如果将图像清晰度作为主要考虑因素,这是否意味着使用固有的网络属性是最好的?

2
机器学习中的能量最小化是什么?
我正在阅读有关计算机视觉中不适定问题的优化的信息,并且遇到了以下有关Wikipedia的优化的解释。我不明白的是,为什么他们在计算机视觉中将这种优化称为“ 能量最小化 ”? 优化问题可以通过以下方式表示: 给定:函数从某些集合A到实数f:A→Rf:A→Rf: A \to RAAA 寻求:元件在甲使得˚F (X 0)≤ ˚F (X )对于所有X中阿 ( “最小化”)或使得˚F (X 0)≥ ˚F (X )对于所有X中阿 (”最大化”)。x0x0x_0AAAf(x0)≤f(x)f(x0)≤f(x)f(x_0) ≤ f(x)xxxAAAf(x0)≥f(x)f(x0)≥f(x)f(x_0) ≥ f(x)xxxAAA 这种表述称为优化问题或数学编程问题(该术语与计算机编程不直接相关,但仍在线性编程中使用,例如,请参见下面的历史记录)。在这个通用框架中可以模拟许多现实和理论问题。在物理学和计算机视觉领域中,使用该技术提出的问题可能将该技术称为能量最小化,说到函数的值代表正在建模的系统的能量。fff

3
铰链损失与物流损失的优缺点/局限性
铰链损失可以使用定义max(0,1−yiwTxi)max(0,1−yiwTxi)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)和日志损失可以被定义为log(1+exp(−yiwTxi))log(1+exp⁡(−yiwTxi))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) 我有以下问题: 铰链丢失是否存在任何缺点(例如,对http://www.unc.edu/~yfliu/papers/rsvm.pdf中提到的异常值敏感)? 一个与另一个相比有什么区别,优点和缺点?

1
如何减少误报的数量?
我正在尝试解决名为“ 行人检测”的任务,并且在两个类别的积极因素(人,负面因素)的背景上训练二进制clasifer。 我有数据集: 正数= 3752 负数= 3800 我使用 带有参数的train \ test split 80 \ 20%和RandomForestClassifier形式scikit-learn: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) 我得到分数:95.896757% 测试训练数据(完美运行): true positive: 3005 false positive: 0 false negative: 0 true negative: 3036 对测试数据进行测试: true positive: 742 false positive: 57 false negative: 5 true negative: 707 我的问题是如何减少误报(背景分类为人)的数量?另外,为什么我的误报错误多于误报错误? 我尝试使用class_weight参数,但有时性能会下降(如class_weight = {0:1,1:4}所示)。 …

1
当PR只有一个值时,如何形成Precision-Recall曲线?
我有一个数据挖掘任务,负责制作基于内容的图像检索系统。我有5张动物的20张图像。因此,总共100张图片。 我的系统将10个最相关的图像返回到输入图像。现在,我需要使用Precision-Recall曲线评估系统的性能。但是,我不理解精确召回曲线的概念。假设我的系统返回了10张大猩猩图像,但其中只有4张是大猩猩。返回的其他6张图片是其他动物的图片。从而, 精度为4/10 = 0.4(返回的相关数)/(所有返回的数) 召回是4/20 = 0.2(返回的相关人员)/(所有相关人员) 所以我只有一个点<0.2,0.4>,没有曲线。如何绘制曲线(即一组点)?我应该更改返回的图像数量(在我的情况下固定为10)吗?


3
卷积神经网络尺度敏感性
举个例子,假设我们基于一个人的照片建立一个年龄估计器。下面我们有两个穿着西装的人,但第一个显然比第二个年轻。 (来源:tinytux.com) 有很多功能可以暗示这一点,例如面部结构。但是,最有说服力的功能是头部大小与身体大小的比率: (来源:wikimedia.org) 因此,假设我们已经训练了CNN回归来预测人的年龄。在我尝试过的许多年龄预测因素中,孩子的上述图像似乎使预测愚弄了他们以为他长大了,这是由于衣服的原因,并且可能是因为他们主要依靠面部: 我想知道香草CNN架构能很好地推断出头部与躯干的比例吗? 与能够在身体和头部上装上边界框的区域RCNN相比,香草CNN会始终表现得更差吗? 就在原始CNN全局变平之前(即在所有卷积之后),每个输出都有一个对应的接收场,应该具有规模感。我知道,更快的RCNN正是在此阶段通过提出边界框建议来利用这一点,以便所有先前的卷积滤波器自动训练到所有比例。 那么,我认为香草CNN应该能够推断出头部与躯干尺寸的比例?这是正确的吗?如果是这样,使用更快的RCNN框架来利用可能已经在检测人员方面接受过预训练的事实的唯一好处是吗?

1
训练卷积神经网络
我目前正在开发使用卷积神经网络识别面部的面部识别软件。根据我的阅读,我收集到卷积神经网络具有权重,以节省训练时间。但是,如何适应反向传播,以便可以在卷积神经网络中使用。在反向传播中,人们使用与此类似的公式来训练权重。 New Weight = Old Weight + LEARNING_RATE * 1 * Output Of InputNeuron * Delta 但是,由于在卷积神经网络中权重是共享的,因此每个权重都与多个神经元一起使用,那么如何确定使用哪个权重Output of InputNeuron? 换句话说,由于权重是共享的,我该如何决定将权重改变多少?

2
卷积神经网络可以将不同大小的图像作为输入图像吗?
我正在开发用于图像识别的卷积网络,我想知道是否可以输入不同大小的图像(尽管差别不大)。 关于此项目:https : //github.com/harvardnlp/im2markup 他们说: and group images of similar sizes to facilitate batching 因此,即使经过预处理,图像仍然具有不同的大小,这是有道理的,因为它们不会切掉公式的某些部分。 使用不同尺寸会有任何问题吗?如果有,我应该如何解决此问题(因为公式无法完全适合相同的图像大小)? 任何输入将不胜感激

1
如何确定CNN中卷积运算符的数量?
在使用卷积神经网络(CNN)进行计算机视觉任务(例如对象分类)时,该网络具有出色的性能。但是我不确定如何在卷积层中设置参数。例如,在灰度图像(480x480)中,第一卷积层可以使用像的卷积算子11x11x10,其中数字10表示卷积算子的数量。 问题是如何确定CNN中卷积运算符的数量?

2
快速锚定RCNN
在Faster RCNN论文中,当谈到锚点时,使用“参考盒金字塔”是什么意思,这是怎么做的?这是否仅意味着在每个W * H * k锚点都生成了边界框? 其中W =宽度,H =高度,k =纵横比的数量*数字刻度 链接到论文:https : //arxiv.org/abs/1506.01497

3
如何通过卷积神经网络(CNN)对不平衡数据集进行分类?
我在二元分类任务中有一个不平衡的数据集,其中正数与负数的比例为0.3%对99.7%。正面和负面之间的差距是巨大的。当我用MNIST问题中使用的结构训练CNN时,测试结果显示出较高的假阴性率。同样,训练误差曲线在开始的几个时期中迅速下降,但在随后的时期中保持相同的值。 您能建议我一种解决此问题的方法吗?谢谢!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.