为什么要使用记录变量？

可能这是一个非常基本的问题，但我似乎无法找到一个可靠的答案。我希望在这里，我可以。

我目前正在阅读论文，以准备自己的硕士学位论文。目前，我正在阅读一篇研究推文与股市特征之间关系的论文。

在他们的假设之一中，他们提出“增加的推文交易量与交易量的增加有关”。

我希望它们以成对相关性tweetVolume与关联tradingVolume，但是相反，它们使用记录的版本进行报告：LN(tweetVolume)和LN(tradingVolume)。

对于我的论文，我复制了他们的论文的这一部分。我收集了大约100个公司的6个月以上的推文（tweetVolume）和同一时间段的股票交易量。如果我将绝对变量相关联，r=.282, p.000则会发现，但是当我使用记录的版本时，会发现r=.488, p=.000。

我不明白为什么研究人员有时会使用变量的记录版本，以及为什么相关性似乎要高得多。这是什么原因，为什么可以使用记录的变量？

非常感谢您的帮助:-)

correlation data-transformation logarithm

— Pr0no
source

如果您在页面的右下角看到“相关”线程，则以前已经介绍了对数的使用。特别是在线性回归中，什么时候使用自变量的对数代替实际值是合适的？。

— Andy W

使用记录变量的原因分为两类：统计的和实质的。

从统计上讲，如果您的变量右偏（也就是说，它们的高端尾巴很长），那么诸如相关性或回归之类的度量就可能在高端或高端两种或两种情况下受到很大的影响。变量（异常值，杠杆点，影响点）。记录日志可以通过减少或消除偏斜来帮助解决此问题。

实质上，从比率的角度来看，有些概念比差异更好。采取您讨论的两个体积度量。现在，比较两家公司：一家很少有人听说的在纳斯达克交易的小公司，另一家是大型公司。前者每天只会收到很少的推文。后者会得到很多；对于交易量也是如此。假设（只是为了挑选数字），公司A通常每天获得100条推文，而后者每天获得100,000条。

如果公司A的推文从100条增加到500条（相差400分，比率为5），这是个大新闻-一定会继续发生。但是，如果B公司的资产从100,000增加到100,400（相差400，比率非常接近1），那么没人在乎。如果从100,000到500,000，则大致相等。

— 彼得·弗洛姆-恢复莫妮卡
source

感谢您的快速答复。您的答案还有另外两个问题。首先，如果我有一个对象的3个属性（股票交易量，回报率和波动率），并为其中一个取记录的版本？您对公司A和B的推文所说的，也可以算作回报：如果公司A的股票从1增加到1,50，则回报为（50％）0.50。公司B需要从400增加到600（200），以获得类似的％回报率。并由此得出：如果收益为负，则LN（-0.50）显然不起作用。然后可以使用-LN（0.50）吗？

— Pr0no 2012年

另外，如果我理解正确，那么使用记录的变量不是一个自由选择-必须由skweness-charts进行论证（统计上）？从本质上讲，这实际上是采取日志记录的逻辑推理，实际上可以提供这样做的便利吗？换句话说，这里是否有经验法则来定义阈值，在该阈值之上您应该记录日志版本，或者这只是解释问题？

— Pr0no 2012年

在这种情况下，您不想获取百分比的日志：采取百分比可以执行日志的操作。也就是说，它使事物比率。当然，您可以记录某些变量的日志，而不能记录其他变量。记录日志不需要偏度图，但是通常应该记录的变量是右偏度。但主要的是实质。如果获取日志没有实质意义，则不要这样做。而是使用适用于偏斜变量的统计方法。物质是第一位的。

— 彼得·弗洛姆