缩放不同数量级的数据以进行绘图


9

查看以下数据集:

 Date        Visits   Carts      carts       Orders
                      Created   converted    Created
2011-11-11    12277     161        9          36  
2011-11-12    11871     93         5          19    
2011-11-13    13072     107        8          8     
2011-11-14    13594     112        4          34    
2011-11-15    12741     129        8          43    
2011-11-16    15491     261        16         57 
2011-11-17    13418     186        17         42    

我被要求将其绘制在图形上,因为Date具有X轴,其余数据位于Y轴上。问题在于数据规模大不相同。造访数以千计,创建的订单数以低数计,数据在图表上的绘制效果不佳。

我想知道统计学家在这种情况下会做什么,我可以将“访问次数”除以1000,然后放入描述中(访问数(K)),但是随后我对创建的购物车也遇到了同样的问题,因为数以百计,其他一切都在低数。

在这种情况下做什么工作?

Answers:


14

一开始就可以将折线图绘制为一系列小的倍数,Y轴的比例不同,但X轴(日期)对齐,这并非不合理。 在此处输入图片说明

我认为这是一个好的开始,因为它可以检查原始数据,并可以比较不同折线图之间的趋势。IMO,您应该先查看原始数据,然后在检查原始数据后考虑转换或标准化图表以使其具有可比性的方法。

正如金已经提到的那样,您的变量似乎具有基于名称和数字的自然顺序,并且假设合适,我根据在每个州转换的百分比创建了三个新变量。新变量是;

% Carts Created = Carts_Created/Visits
% Orders Created = Orders_Created/Carts_Created
% Carts Converted = Carts_Converted/Orders_Created

设定百分比是使系列更接近通用比例的一种方法,但是即使如此,将所有折线放置在一张图表上(如下所示)仍然很难有效地可视化系列。创建的订单的水平和变化以及购物车转换后的系列使其他系列的水平相形见variation。在这种规模的购物车上,您看不到任何变化(我怀疑那是您最感兴趣的购物车)。 在此处输入图片说明

因此,IMO更好的方法是使用不同的比例尺。以下是使用不同比例的百分比图表。

在此处输入图片说明

使用这些图形,在我看来系列之间没有任何真正有意义的关联,但是每个系列中确实有很多有趣的变化(尤其是转换的比例)。怎么了2011-11-13?您创建订单的比例要低得多,但是创建的每个订单都是转换后的购物车。您是否还有其他干预措施可以解释站点访问或创建的购物车比例或百分比的趋势?

这仅仅是探索性的数据分析,而要采取更多步骤,我需要对数据有更多的了解(尽管我希望这是一个好的开始)。您可以通过其他方式对折线图进行归一化,以便能够以可比较的比例绘制它们,但这是一项艰巨的任务,我认为可以根据给定数据的信息有效地选择任意比例,而不是选择某些比例。默认规范化方案。同时查看许多折线图的另一个有趣的应用是地平线图,但这更多的是一次查看许多不同的折线图。


感谢您提供详细的答案,我最初确实有多个图表。我老板的决定是,他们希望图表上的所有系列(我认为可能是太多系列了,但不是我将要看的系列:))我想我将考虑考虑对数据进行归一化,也许进入0-1。他们只想使用图形来查看趋势,表格数据通常显示在图形下方。
迈克,

@Mike,这是一个合理的要求。系列的归一化不应改变趋势(只是每个系列的水平和变化)。希望您能获得更多有见地的答案,了解如何以一些有效但仍有意义的方式对系列进行标准化。不过,请注意,通常您只想在一张图表上绘制3-5条线,进行所有这些比较非常困难(不过小倍数可以解决此问题)。
Andy W

1
@Mike是的,在这种情况下(仅可视化数据而没有数字),您可以简单地以最小/最大比例表示数据,就像在并行显示中一样在表格下方显示数字也是一个好主意。
chl

1
正如@chl建议的那样,仅需进一步说明标准化到最小/最大比例。最好先查看原始数据,如果您有一些较大的离群值,则可能要考虑在规范化过程中不包括该值(尽管如果在规范化图中进行操作应该很明显,例如,如果有折线图具有一个高/低值,其余为平坦)。我认为Michael Friendly也同意在图表下方添加表格。
Andy W

2

您可以有2个单独的y轴,“访问(k)”和“创建的购物车”在一个中,其他2个在另一个(或适合您的目的)。

这绝对不是一个优雅的方法,但是我记得几年前曾经做过,当时我只是想比较不同时期的趋势。

要么

您可以根据需要绘制跨时间的百分比变化。


我考虑了您提到的使用两个不同的Y轴的路线,但是我不喜欢的是:如果引入了一个新的系列,而该系列不适用于两个Y轴之一,那么我可能会陷入困境。谢谢你的建议,也许还有一次我会考虑的更多:)
Mike

关于百分比的第二个建议呢?即在开始日期(或哪个日期使图表漂亮)对所有索引为100的索引。您可以根据需要添加任意多个新系列!
国王

这是一个选择,我目前正在使用excel,试图弄清楚如何规范化此数据以及它是否有效。失败的话,我将放弃百分比的想法:)
Mike

2

最后,我决定通过将每个值除以最大值然后乘以100来规范化数据。

  1. 找出最大值:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    12277     161        9          36  
    2011-11-12    11871     93         5          19    
    2011-11-13    13072     107        8          8     
    2011-11-14    13594     112        4          34    
    2011-11-15    12741     129        8          43    
    2011-11-16    15491     261        16         57 
    2011-11-17    13418     186        17         42    
    
    maximum       15491     261        17         57
    
  2. 将每个数字除以最大值,然后乘以100:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    79.25     61.68      52.94      63.15  
    2011-11-12    76.63     35.63      29.41      33.33    
    2011-11-13    84.38     40.99      47.05      14.03      
    2011-11-14    87.75     42.91      23.52      59.64    
    2011-11-15    82.24     49.42      47.05      75.43    
    2011-11-16    100       100        94.11      100
    2011-11-17    86.61     71.26      100        73.68    
    
  3. 然后,我将其绘制在图形上,显然这仅显示趋势,并且用户在页面底部具有数据表。


0

那也是我的方法-通过除以X将不同的尺寸调整为相同的比例,但是我将使用avg值,而不是max或min值。原因是-随着时间的推移添加数据,您的最大值或最小值可能会发生变化,然后这次最后一张图表中的100%发生了其他变化-图表与之前的图表不太容易对帐--如果您使用avg,则更改不会那么剧烈。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.