DxOMark分数和测试之间的相关性如何？

13

在我看来，DxOMark传感器的等级似乎有些奇怪。他们最近给尼康D3300的传感器评分与佳能1Dx相同，我发现它不太可能反映出他们的性能，这也让我对他们的计分系统表示怀疑。

我确实重视他们对传感器的测量，这为比较不同相机传感器提供了基准工具，但是它们真的相关吗？据我所知，还没有关于如何根据动态范围，色彩敏感度和低光ISO分数计算分数的文档。此外，DxO Labs的兴趣在于销售软件，而不是直接提供科学的基准测试工具，并且很可能会偏向某个制造商。

DxOMark得分有多有用？如何使用它来比较不同的摄像机？

sensor image-quality performance

— 雨果
source

也许可以将这个问题改写为实际提出问题而不是OP的意见。DxO评分系统中有些事情需要理解，这里可能是解释其中一些事情的地方。

— Esa Paulasto 2014年

@EsaPaulasto我对这样的观点真的不感兴趣，而是比较不同摄像机时如何使用DxOMark分数。我在我的帖子中要求这样做，如果您对它的改进有任何想法，我很高兴您能接受它

— Hugo

18

DXOMark主要“分数”完全没有用。别理他们。尝试将诸如DSLR之类的复杂实体简化为一个可以告诉您有关它的所有标量的数字是徒劳的。这是一个谬论。有太多因素需要考虑，对于给定的摄影师而言，哪些因素最重要则有所不同。首先，单一分数完全无法达到进行测量的目的。

当涉及到DXO的其他得分时，例如低照度和风景等，请使用大量的盐。他们的总分权重很高，通常基于测量的推导而不是实际的测量。例如，风景得分基于打印DR“度量”。问题在于DXO并不是基于MEASURE Print DR，因为它不是基于从实际的降采样图像中获取的采样。Print DR是从传感器的真实测量动态范围进行的简单数学推断。

因此，Print DR并没有真正告诉您有关传感器的任何信息。当DXO表示D800和D600具有14.4停顿DR时，即打印DR，这是从实际硬件DR（即13.2停顿）推断出来的。佳能传感器也是如此。当DXO告诉您传感器有12个DR停靠点时，事实并非如此。实际上，在硬件级别上，大多数佳能传感器都具有大约10.95级的DR停止。

然而，问题比这更糟。与许多基于ISO的评分一样，大多数色彩深度和色彩敏感度评分信息都经过加权。权重基于达到某些阈值的摄像机而定，例如某个ISO的SNR高于某个级别。这将为该摄像机的分数授予一定的“奖励”。任何一种基于权重的奖金计分进入游戏后，您就可以通过任何分数直接比较任何东西的能力完全消失了。您现在处于一个非线性的运动场上，老实说，您不知道那边得分为95的尼康相机相对于那头得分为80的佳能相机是否加权过。

当涉及到实际测量时，DXO信息是最好的一些信息。他们的SNR，Screen DR，色彩敏感度等指标非常合理，因为它们都是直接针对测试的每个相机从多个RAW图像样本中获取的。他们的测试方法相当严格，没有任何迹象表明他们的方法的一部分值得怀疑。从科学上讲，就其测试方式和测量方式而言，DXO具有可靠的实践和可靠的信息。

DXO确实是一个混蛋。他们可能有扎实的测试实践，但是由于他们的得分通常是基于数学得出的加权信息，并且他们的一些分数通常仅出于满足特定阈值的要求而获得“奖励”积分，因此他们的得分会完全降低DXO的功能：为每个摄像机生成一个线性分数，以便可以轻松比较摄像机。首先，单数评分是一个有缺陷的概念，但是由于处理实际评分过程，他们使情况变得更加糟糕。

— 杰里斯塔
source

11

总体得分

我一般不理会总体得分，因为如果您了解任何单个得分，那太笼统了。

总体分数是各种（相当）确定性测试的函数，每个测试都具有丰富的信息，并且大多数（如果不是全部？）都有清晰的度量单位。但随后，他们生成了一个“分数”，将这些指标与不同维度结合在一起。这就好比将一辆汽车与另一辆汽车进行比较，方法是将其最大加速度（m / s / s），油箱尺寸（L），最高速度（km / h）和可载客人数相加。每个人都想对不同的组件进行加权，因此总分变得无关紧要。

用例分数

如您所说，佳能1DX的总体得分与尼康D3300相同，但要注意一些较大的差异，即使只是在摘要“得分”页面上也是如此：

“风景”得分（又称动态范围）是11.8 vs 12.8 EV（在D3300上更好地停了1个档）
“运动”得分（又称低光ISO）是2786 vs 1385 ISO（在1DX上更好地停止了1次）

这些“ 用例分数 ”已经更加具体，在维度上合理，并且进行了更好的比较。

也就是说，他们也是

不一定容易理解，并且
不一定对所有应用都有用

例如，“运动/低光ISO”用例是

弱光ISO是相机的最高ISO设置，可使其达到30dB的SNR，同时保持9 EV的良好动态范围和18位的色彩深度。

这些选择的值是任意的，但有用的部分是，它们始终以相同的方式用于测量所有传感器。这意味着，当您仅查看单个值时，至少可以将一个苹果与另一个苹果进行比较。对于一个特定的数据点，传感器A和传感器B的比较效果如何。这是一个有用的比较，因为所有传感器在较低的ISO时都趋向于表现更好，并且随着ISO的增加，它们都有类似的下降。但是，实际上，您依靠所有传感器的相似性能来使它有用通用比较。

测量

如果进入比较的“度量”部分，您将开始看到一些更有用的比较。在许多不同条件下的大量数据。在这里，您可以（有点）开始回答诸如“在ISO6400下，相机A与相机B相比我能得到多少ISO噪点？”的问题。或者，如果你已经知道你是OK与您当前的相机可达ISO 1600，那么你可以在ISO 1600使用SNR为您的相机作为基准比较其他相机（在这种情况下，就会有一个类似的量ISO 3200的1DX中的图像噪点的变化情况（如ISO 1600的D3300中的情况）好吧，即使那也不是很正确，因为SNR数据为18％灰色！

具有许多尺寸/自由度的复杂设备之间的性能比较是一个固有的非常困难的问题。您通常可以很好地比较各个测试，但是问题是找到可以快速，轻松地描绘相对或绝对性能的通用测试。我认为“用例分数”在很大程度上实现了这一目的，但这只是因为大多数传感器的技术都非常相似，因此您可以像上面的那样对1DX进行概括，以更好地应对低照度下的噪声。。（想象一下，如果传感器噪声不是所有传感器的ISO的简单功能！）

请记住也是一个传感器跑赢另一种是不一定有用。当拍摄明亮的日光场景的JPEG图像时，D3300和1DX的ISO性能（SNR 18％）基本上无关紧要。更有用的是诸如动态范围之类的东西（用于带有粗糙阴影的阴影/高光细节）。即使这样，在拍摄JPEG时，您也不会从较大的动态范围中获得更多（形成JPEG时需要进行一点音调压缩，但两者仍然都能够在JPEG的8位动态范围内实现）。重复汽车类比，就像比较城市通勤的汽车之间的最大速度和加速度。您永远都不会碰到任何“快速”汽车的极限，因此它与该应用无关。如果您想以有意义的方式比较两个传感器，则确实需要对特定的应用程序有一个很好的了解，而这正是您想知道的：

实际测量，用于比较（不仅是总体得分）
哪些测量对应用有用
对于特定的绩效衡量，有用性的极限是什么？

摘要

在总体分数是相当无用的，除非真的一般指导别人的 的用例权重（不一定是你的！）秒。

对于不同传感器之间的一些一般性能趋势，用例得分是更好的指南。

如果您知道要比较的内容并考虑了应用程序，那么通过Measurements可以进行自己的比较。了解“足够”的金额或任何给定应用程序的“回报递减”的时间也很重要。

除非您真正了解电子，光学，物理学...，否则绝对数字可能毫无意义。

— Drfrogsplat
source

2

我尽我所能相信DXoMark，而且我在铅球射击方面也不是特别擅长。它们是有关实验室条件的有趣信息来源，在比较同一制造商的摄像机时偶尔会很有用，但是那里的测试变量太多，背离了实际条件，因此通常不能用于比较摄像机，尤其是不同摄像机的摄像机制造商。

像任何其他相机评论网站一样，真实世界的性能始终比实验室条件更为重要。如果您知道如何阅读信息并弄清与现实世界相关的内容，则可以使用DxOMark制作一些有意义的数据，但以我的经验，最好将其与大量盐混合使用。

— AJ亨德森
source