统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

4
可以将引导程序视为小样本量的“治愈方法”吗?
这个问题是由我在这本研究生水平的统计课本中读到的东西触发的,并且在统计研讨会上的这次演讲中也(独立地)听到了。在这两种情况下,该语句都遵循“由于样本量很小,我们决定通过自举而不是(或与之一起)使用此参数方法进行估计”。XXX 他们没有进入细节,但可能的理由如下:方法假定数据按照一定的参数分布。实际上,分布不完全是,但是只要样本大小足够大就可以。由于在这种情况下样本量太小,让我们切换到不做任何分布假设的(非参数)引导程序。问题解决了!XXXDDDDDD 在我看来,这不是引导程序的用途。我是这样看的:当或多或少明显有足够的数据时,bootstrap可以给自己一个优势,但是没有封闭形式的解决方案可以获取标准误差,p值和类似的统计信息。一个经典的例子是从双变量正态分布中给定样本来获得相关系数的CI:存在闭式解,但是它是如此复杂,以至于自举更简单。但是,这并不意味着引导程序可以以某种方式帮助人们摆脱小样本的困扰。 我的看法正确吗? 如果您觉得这个问题很有趣,那么我还有另一个更具体的引导问题: 引导程序:过度拟合的问题 PS:我不禁分享一个“引导方法”的令人震惊的例子。我没有透露作者的名字,但他是老一辈的“ Quants”之一,他于2004年写了一本关于量化金融的书。 考虑以下问题:假设您有4个资产,每个资产有120个每月回报观察。目标是构建年度收益的联合4维cdf。即使对于单个资产,仅通过10年的观测也很难实现该任务,更不用说对4维cdf的估计了。但请放心,“引导程序”将为您提供帮助:获取所有可用的4维观测值,用替换对12个样本进行重新采样,然后将它们组合起来,以构建单个“引导”的4维年度回报矢量。重复执行1000次,然后发现,您获得了1000个年度回报的“引导样本”。将其用作大小为1000的iid样本,以进行cdf估计或从一千年的历史中得出的任何其他推论。

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

12
关于线性回归最常见的误解是什么?
我很好奇,对于那些与其他研究人员合作有丰富经验的人,您遇到的关于线性回归的最常见误解是什么? 我认为这是一个有用的练习,可以提前考虑常见的误解,以便 预测人们的错误并能够成功阐明为什么某些误解是不正确的 如果我自己怀有一些误解,请意识到! 我能想到的几个基本原则: 自变量/因变量必须正态分布 变量必须标准化才能准确解释 还有其他吗? 欢迎所有答复。


9
计量经济学与其他统计领域之间在哲学,方法论和术语上的主要区别是什么?
计量经济学与传统统计学有很大的重叠,但是经常使用它自己的术语来表示各种主题(“标识”,“外生”等)。我曾经听过另一领域的一位应用统计学教授的评论,该术语经常是不同的,但是概念是相同的。但是它也有自己的方法和哲学上的区别(想到了赫克曼的著名论文)。 计量经济学与主流统计之间存在哪些术语差异?这些领域在哪些方面会发生变化,而不仅仅是术语?

10
t检验有效需要最小样本量吗?
我目前正在撰写一份半实验研究论文。由于所选区域内的人口较少,我的样本量只有15个,只有15个符合我的标准。15是用于t检验和F检验的最小样本量吗?如果是这样,我在哪里可以获得文章或书籍来支持这么小的样本量? 该论文上周一已被辩护,一个小组要求提供支持性参考,因为我的样本量太小。他说应该至少有40位受访者。

5
使用k折交叉验证进行时序模型选择
问题: 我想确定一点,使用带有时间序列的k折叠交叉验证是否简单明了,还是在使用它之前需要特别注意? 背景: 我正在建模一个6年的时间序列(使用半马尔可夫链),每5分钟有一个数据样本。为了比较多个模型,我使用了6倍交叉验证,即通过分离6年中的数据,所以我的训练集(用于计算参数)的长度为5年,而测试集的长度为1年。我没有考虑时间顺序,因此我的不同设置是: fold 1:训练[1 2 3 4 5],测试[6] 第二折:训练[1 2 3 4 6],测试[5] 第三折:训练[1 2 3 5 6],测试[4] 第四步:训练[1 2 4 5 6],测试[3] 第五步:训练[1 3 4 5 6],测试[2] 第六步:训练[2 3 4 5 6],测试[1]。 我提出的假设是,每年彼此独立。我该如何验证?有没有参考资料显示k倍交叉验证与时间序列的适用性。


15
关于解释性模型与预测性模型的实践思想
早在4月,我参加了UMD数学系统计小组研讨会系列的演讲,主题为“解释还是预测?”。演讲由UMD史密斯商学院(Smith Business School)教授Galit Shmueli教授进行。她的演讲基于她为题为“ IS研究中的预测模型与解释性建模”的论文和名为“解释还是预测?”的后续工作论文所做的研究。。 Shmueli博士的观点是,统计建模上下文中的预测性和解释性术语已经混为一谈,而统计文献缺乏对差异的详尽讨论。在本文中,她将两者进行了对比,并讨论了它们的实际含义。我鼓励您阅读论文。 我想向从业者社区提出的问题是: 您如何定义预测性练习与解释性/描述性练习?如果您可以谈论特定的应用程序,这将很有用。 您是否曾经陷入过使用一种含义的陷阱?我当然有 您怎么知道要使用哪个?

3
为什么神经网络研究人员关心时代?
随机梯度下降的时期被定义为对数据的单次通过。对于每个SGD微型批次,将绘制样本,计算梯度并更新参数。在时代设置中,样本被抽取而无需替换。kkk 但这似乎没有必要。为什么不从每个迭代的整个数据集中随机抽取绘制每个SGD minibatch ?在大量的时期中,或多或少经常看到样本的微小偏差似乎并不重要。kkk


2
线性回归中预测值的置信区间形状
我注意到,线性回归中预测值的置信区间在预测器的平均值附近趋于狭窄,在预测器的最小值和最大值附近趋于胖。这可以从以下4个线性回归的图中看出: 我最初认为这是因为大多数预测变量的值都集中在预测变量的均值附近。但是,我然后注意到,即使许多的值集中在预测变量的极值附近,也会出现置信区间的狭窄中间,如左下方线性回归所示,预测变量的哪些值集中在预测值的最小值附近。预测变量。 有谁能解释为什么线性回归预测值的置信区间在中间趋于狭窄而在极端处趋于肥胖?

9
我应该使用什么算法来检测时间序列的异常?
背景 我在网络运营中心工作,我们监视计算机系统及其性能。要监视的关键指标之一是当前连接到我们服务器的访问者/客户数量。为了使其可见,我们(Ops团队)收集了诸如时间序列数据之类的指标并绘制了图表。Graphite允许我们做到这一点,它有一个非常丰富的API,我可以用它来构建警报系统,以便在突然(主要是)突然下降和其他更改发生时通知我们的团队。目前,我已基于avg值设置了一个静态阈值,但是由于白天和一周中的不同负载(季节性因素),它不能很好地工作(存在很多假阳性)。 看起来像这样: 实际数据(一个度量标准的示例,时间范围为15分钟;第一个数字是用户数,第二个-时间戳): [{"target": "metric_name", "datapoints": [[175562.0, 1431803460], [176125.0, 1431803520], [176125.0, 1431803580], [175710.0, 1431803640], [175710.0, 1431803700], [175733.0, 1431803760], [175733.0, 1431803820], [175839.0, 1431803880], [175839.0, 1431803940], [175245.0, 1431804000], [175217.0, 1431804060], [175629.0, 1431804120], [175104.0, 1431804180], [175104.0, 1431804240], [175505.0, 1431804300]]}] 我要完成的工作 我创建了一个Python脚本,该脚本接收最近的数据点,将它们与历史平均值进行比较,并在发生突然变化或下降时发出警报。由于季节性因素,“静态”阈值无法正常运行,脚本会生成误报警报。我想提高警报算法的准确性,使其在不不断调整警报阈值的情况下工作。 我需要什么建议和发现的东西 通过谷歌搜索,我发现我正在寻找用于异常检测的机器学习算法(无监督算法)。进一步的调查表明,其中有很多,很难理解哪种情况适用于我的情况。由于我的数学知识有限,我无法阅读复杂的学者论文,并且正在寻找对该领域的初学者来说简单的东西。 我喜欢Python并且对R有点熟悉,因此很高兴看到这些语言的示例。请推荐一本好书或文章,这将有助于我解决问题。谢谢您的时间,请原谅我这么长时间的描述 有用的链接 类似问题: 时间序列和异常检测 使用Python进行时间序列异常检测 时间序列异常 时间序列异常检测算法 小波在基于时间序列的异常检测算法中的应用 我应该使用哪种算法? …

1
如何分割数据集以进行交叉验证,学习曲线和最终评估?
分割数据集的合适策略是什么? 我要求反馈对以下方法(不是像个别参数test_size或n_iter,但如果我用X,y,X_train,y_train,X_test,和y_test适当的,如果顺序是有道理的): (从scikit-learn文档扩展此示例) 1.加载数据集 from sklearn.datasets import load_digits digits = load_digits() X, y = digits.data, digits.target 2.分为训练和测试集(例如80/20) from sklearn.cross_validation import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0) 3.选择估算器 from sklearn.svm import SVC estimator = SVC(kernel='linear') 4.选择交叉验证迭代器 from sklearn.cross_validation import ShuffleSplit cv = ShuffleSplit(X_train.shape[0], n_iter=10, test_size=0.2, random_state=0) 5.调整超参数 …

4
R函数prcomp和princomp有什么区别?
我比较?prcomp并?princomp发现了有关Q模式和R模式主成分分析(PCA)的知识。但说实话–我不明白。谁能解释其中的区别,甚至可以解释何时申请?
69 r  pca 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.