统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
Logistic回归抽样是否应反映1和0的实际比率?
假设我想创建一个逻辑回归模型,该模型可以根据树木的特征(身高)估算一些生活在树木上的动物物种的发生概率。和往常一样,我的时间和金钱有限,因此我只能收集有限的样本量。 我有以下问题: 样本中1和0的比率是否可以反映1和0的真实比率?(至少大约是)我注意到,使用均衡样本(1和0的数目相等)执行逻辑回归模型是一种常见的做法 -但是这样的模型给出了超现实的出现概率-对吗? 我是否可以使用任何文章/教科书来支持这种观点,即那些不能反映1和0的真实比率的模型是“ 错误的 ”?** 最后:根据Imai等人的说法,是否可以执行1:1采样并随后使用tau校正模型。2007年? 今井浩辅,加里·金和奥利维亚·刘。2007年。“ relogit:稀有事件二分因变量的逻辑回归”,作者Imai,Gary King和Olivia Lau,“ Zelig:每个人的统计软件”,http://gking.harvard.edu/zelig。 点表示树木(红色=已占用,灰色=未占用)。我能够以100%的精度(1)识别所有占用的树木,但是我无法测量森林中的所有树木。每个采样策略(比率)的模型都不相同。

2
什么样的统计模型或算法可以用来解决约翰·斯诺霍乱问题?
我感兴趣的是学习如何基于John Snow霍乱疫情的数据来发展某种震中的地理近似。在不事先知道井位的情况下,可以使用什么统计模型来解决该问题。 作为一个普遍的问题,您将拥有时间,已知点的位置以及观察者的行走路径。我正在寻找的方法将使用这三件事来估计“爆发”的震中。

10
编造数据的最佳术语?
我正在写一个示例,并整理了一些数据。我想让读者清楚这不是真实数据,但我也不想给人留下恶意的印象,因为它只是一个例子。 此特定数据没有(伪)随机成分,因此在我看来“模拟”不合适。如果我称其为虚构或捏造,是否给人以欺诈性数据的印象?“虚构”这个词是否适合科学背景? 统计文献中非模拟虚构数据的术语是什么?

3
可视化降维是否应该视为由t-SNE解决的“封闭”问题?
我已经阅读了很多有关 -sne算法以进行降维。我对“经典”数据集(例如MNIST)的性能印象深刻,在该数据集上,数字清晰地分开了(请参阅原始文章):ŤŤt 我还使用它来可视化我正在训练的神经网络学到的功能,并对结果感到非常满意。 因此,据我了解: ŤŤtØ (ñ 日志n )Ø(ñ日志⁡ñ)O(n \log n) 我知道这是一个非常大胆的声明。我有兴趣了解这种方法的潜在“陷阱”。也就是说,在任何情况下我们都知道它没有用吗?此外,该领域存在哪些“开放”问题?

4
易失性蒙蒂的蒙蒂霍尔问题
蒙蒂非常了解门后面是否有山羊(或者是空的)。这一事实允许玩家通过将“猜测”切换到另一扇门来使成功率随时间翻倍。如果蒙蒂的知识还不够完善怎么办?如果有时奖品确实和山羊同在一个门口,该怎么办?但是直到选择并打开门后您才能看到它?当蒙蒂的准确率低于100%时,玩家可以帮助我了解如何计算IF以及提高多少?例如:如果蒙蒂错了-平均50%的时间呢?玩家仍然可以从切换他的猜测/门中受益吗?我想如果Monty获胜的可能性不超过33.3%,那么奖品就不会落在门后,那么玩家最好的选择就是不要切换他的门选择。您能否为我提供一种方法,通过插入不同的蒙提正确概率(关于奖品不在门后)来计算转换的潜在利益?我除了高中数学外没有其他东西,今年69岁,所以请保持谦虚。 感谢您提供的见解和公式。如果“ Fallible Monty”在预测没有奖品/汽车的情况下准确率只有66%,那么从您最初选择的车门切换为零收益是...。因为默认值为33%奖品的基本费率位于任何门后。但是,有人认为,如果蒙蒂在预测没有奖品的情况下胜过66%,那么切换会产生更大的效用。我将尝试将这种推理应用于“专家”做出“专家预测”的游戏,即三个大致相同的选项之一将是正确的。我对专家的正确性几乎没有信心,我可以肯定他的“命中率”将小于33%-更像是15%。我的结论是,当“同样的选择,因为我,我可能是错的肯定,而应换另两个中的一个!;-)

4
为什么要根据其他优化问题来定义优化算法?
我正在对机器学习的优化技术进行一些研究,但是很惊讶地发现,根据其他优化问题定义了大量的优化算法。我在下面说明一些示例。 例如https://arxiv.org/pdf/1511.05133v1.pdf 一切看起来不错,不错,但接下来有一个在更新....所以什么是算法,为求解?我们不知道,也没有说。因此,神奇的是,我们要解决另一个优化问题,即找到最小化向量,以使内积最小化-如何做到这一点?z k + 1 argmin精氨酸X精氨酸X\text{argmin}_xžk + 1zk+1z^{k+1}精氨酸argmin\text{argmin} 再举一个例子:https : //arxiv.org/pdf/1609.05713v1.pdf 一切都很好,直到您在算法中间点击了最接近的运算符为止,该运算符的定义是什么? 繁荣: 现在,请告诉我们,我们如何解决近端运算符中的问题?没有说 无论如何,取决于是什么,该优化问题看起来很难(NP HARD)。 f精氨酸XargminX\text{argmin}_xFFf 有人可以启发我: 为什么要根据其他优化问题定义这么多优化算法? (这不是鸡和蛋的问题吗?要解决问题1,您需要解决问题2,请使用解决问题3的方法,这依赖于解决问题....) 您如何解决这些算法中嵌入的优化问题?例如,,如何在右侧找到最小化器?Xk + 1= 精氨酸X真正复杂的损失函数Xķ+1个=精氨酸X真正复杂的损失函数x^{k+1} = \text{argmin}_x \text{really complicated loss function} 最终,我对如何以数字方式实现这些算法感到困惑。我认识到加和乘向量是python中的简单操作,但是,是否有一些函数(脚本)神奇地为您提供了函数的最小化器?精氨酸X精氨酸X\text{argmin}_x (赏金:有人能参考作者明确阐明高级优化算法中嵌入的子问题的算法的论文吗?)

1
内特·西尔弗(Nate Silver)对黄土的评论
在我最近问的一个问题中,有人告诉我,用黄土推断是一个很大的“不可以”。但是,在Nate Silver在FiveThirtyEight.com上的最新文章中,他讨论了使用黄土做出选举预测。 他当时在讨论黄土侵略性与保守性预报的细节,但我对黄土做出未来预测的有效性感到好奇吗? 我也对这次讨论以及对黄土可能有类似好处的其他替代方法感兴趣。

1
PCA的属性用于从属观察
我们通常将PCA用作假设情况为iid的数据的降维技术 问题:在将PCA应用于相关的非id数据时,典型的细微差别是什么?持有iid数据的PCA的哪些好用/有用属性被破坏(或完全丢失)? 例如,数据可以是多元时间序列,在这种情况下,可以预期自相关或自回归条件异方差(ARCH)。 上应用PCA,以时间序列数据的几个相关的问题已经被问过,如1,2,3,4,但是我正在寻找一个更普遍和全面的答案(而无需在每个单独的点太多展开)。 编辑:正如@ttnphns所指出的,PCA 本身不是推论分析。但是,人们可能会对PCA的泛化性能感兴趣,即关注样本PCA的总体对应物。如Nadler(2008)所写: 假设给定数据是来自(通常是未知的)分布的有限随机样本,那么一个有趣的理论和实践问题是,从有限数据计算出的样本PCA结果与基础总体模型的结果之间的关系。 参考文献: 纳兹勒,波阿斯。“用于主成分分析的有限样本近似结果:矩阵摄动法。” 统计年鉴(2008):2791-2817。

1
Keras,SGD学习率衰减如何起作用?
如果您查看文档http://keras.io/optimizers/,则SGD中有一个用于衰减的参数。我知道随着时间的推移,这会降低学习率。但是,我无法弄清楚它是如何工作的。它是一个乘以学习率的值,例如lr = lr * (1 - decay) 指数吗?另外,如何查看模型使用的学习率?当我model.optimizer.lr.get_value()经过几次拟合后进行打印时,即使我设置了衰减,它也会恢复原始的学习速度。 我还必须设置nesterov = True来使用动量,还是可以使用两种不同类型的动量?例如这样做有一点意义sgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)

2
将固定效果嵌套在一个随机效果中是否有意义,或者如何用R(aov和lmer)编码重复的度量?
我一直在通过@conjugateprior浏览lm / lmer R公式的概述,并被以下条目弄糊涂了: 现在假设A是随机的,但B是固定的,并且B嵌套在A内。 aov(Y ~ B + Error(A/B), data=d) 下面lmer(Y ~ B + (1 | A:B), data=d) 为相同情况提供了类似的混合模型公式。 我不太明白这是什么意思。在将受试者分为几组的实验中,我们将在固定因子(组)中嵌套一个随机因子(对象)。但是,如何将固定因子嵌套在随机因子中呢?有固定的嵌套在随机主题内的东西吗?可能吗 如果不可能,那么这些R公式有意义吗? 提到该概述部分基于个性项目的页面,该页面基于R中的重复度量的本教程,而该页面本身基于R进行ANOVA。以下是重复测量方差分析的示例: aov(Recall ~ Valence + Error(Subject/Valence), data.ex3) 在这里,向受试者显示不同价的单词(三个级别的因子),并测量其回忆时间。每个主题都有三个价位的单词。我没有看到此设计中嵌套的任何内容(按照此处的最佳答案,它看起来像是交叉的),因此在这种情况下,我会天真的认为Error(Subject)或(1 | Subject)应该使用适当的随机术语。在Subject/Valence“筑巢”(?)是混淆。 请注意,我确实知道这Valence是一个内部因素。但我认为这不是科目中的“嵌套”因素(因为所有科目都经历的所有三个级别Valence)。 更新。我正在探索有关在R中编码重复测量方差分析的CV问题。 在此,以下内容用于固定的内部/重复测量值A和随机值subject: summary(aov(Y ~ A + Error(subject/A), data = d)) anova(lme(Y ~ A, random = ~1|subject, data …

1
如何解释TensorBoard中TensorFlow给出的直方图?
我最近正在跑步并学习张量流,并得到了一些我不知道如何解释的直方图。通常我将条形的高度视为频率(或相对频率/计数)。但是,没有像通常的直方图那样没有条形的事实以及事物被阴影化的事实使我感到困惑。似乎一次也有很多行/高度? 是否有人知道如何解释以下图表(也许提供了很好的建议,它们通常可以帮助阅读张量流中的直方图): 也许还有其他值得讨论的事情,如果原始变量是矢量,矩阵或张量,那么张量流实际上显示了什么,就像每个坐标的直方图一样?另外,也许引用如何获取这些信息以使人们自给自足会很好,因为我现在在文档上很难找到有用的东西。也许一些教程示例等?也许一些关于操纵它们的建议也会很好。 作为参考,这里摘录了给出此代码的代码: (X_train, Y_train, X_cv, Y_cv, X_test, Y_test) = data_lib.get_data_from_file(file_name='./f_1d_cos_no_noise_data.npz') (N_train,D) = X_train.shape D1 = 24 (N_test,D_out) = Y_test.shape W1 = tf.Variable( tf.truncated_normal([D,D1], mean=0.0, stddev=std), name='W1') # (D x D1) S1 = tf.Variable( tf.constant(100.0, shape=[]), name='S1') # (1 x 1) C1 = tf.Variable( tf.truncated_normal([D1,1], mean=0.0, stddev=0.1), name='C1' ) …


2
最终(生产准备就绪)模型应该在完整数据上还是仅在训练集中进行训练?
假设我在训练集上训练了多个模型,请使用交叉验证集选择最佳模型,并在测试集上测量性能。所以现在我有了一个最终的最佳模型。我应该在所有可用数据上对其进行再培训还是仅在培训集中接受培训的船舶解决方案?如果是后者,那为什么呢? 更新:正如@ P.Windridge所指出的,交付经过重新训练的模型基本上意味着未经验证就交付了模型。但是我们可以报告测试集的性能,然后正确地在完整数据上对模型进行训练,以期期望性能更好-因为我们使用了最好的模型加上更多的数据。这种方法会引起什么问题?


3
没有信息论的Kullback-Leibler散度
经过对Cross Validated的大量拖延之后,我仍然觉得自己离信息理论领域之外的KL分歧越来越近了。对于具有数学背景的人来说,发现它更容易理解信息理论的解释是很奇怪的。 从信息理论背景概述我的理解:如果我们有一个随机变量且结果数量有限,则存在一种最佳编码,该编码可使我们与其他人以平均最短消息进行交流(我发现这最容易图片按位表示)。如果使用最佳编码,则传达结果所需的消息的期望长度由。如果您使用次优编码,则KL散度平均会告诉我们我们的消息会持续多长时间。− ∑αpα日志2(pα)−∑αpαlog2⁡(pα) -\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha}) 我喜欢这种解释,因为它很直观地处理了KL散度的不对称性。如果我们有两个不同的系统,即两个加载不同的硬币,它们将具有不同的最佳编码。我并没有本能地感觉到,将第二个系统的编码用于第一个系统与将第一个系统的编码用于第二个系统“同样糟糕”。现在,不用经历如何说服自己的思考过程,我对当对使用的编码时,会给您这个“额外的消息长度” 。∑αpα(日志2qα− 日志2pα)∑αpα(log2⁡qα−log2⁡pα)\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})qqqppp 但是,大多数KL散度的定义(包括Wikipedia)随后做出了这样的陈述(如果将离散点保留下来,以便可以将其与信息理论的解释相比较,后者在离散项下效果更好,因为位是离散的)。分布,然后KL提供一些“它们有多不同”的度量。我还没有看到关于这两个概念如何关联的单一解释。我似乎记得在他的推理书中,戴夫·麦凯(Dave Mackay)提出了关于数据压缩和推理基本上是同一件事的观点,而且我怀疑我的问题确实与此有关。 不管是不是,我想到的问题都是关于推理的问题。(保持离散),如果我们有两个放射性样品,并且我们知道其中一个是具有已知放射性的某种材料(这是可疑的物理学,但我们假装宇宙像那样工作),因此我们知道“真实”分布我们应该测量的放射性点击数应该是已知的泊松分布,是否建立两个样本的经验分布并将它们的KL散度与已知分布进行比较是否公平,并说较低的可能性更大?λλ\lambda 避开可疑物理学,如果我知道两个样本是从同一分布中提取的,但我知道它们不是随机选择的,可以将其KL散度与已知的全局分布进行比较,使我感觉到样本的“偏差程度” ,相对于另一个而言? 最后,如果对以上问题的回答是肯定的,那为什么呢?是否可以仅从统计角度理解这些事情,而无需与信息理论建立任何(可能是脆弱的)联系?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.