统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
了解分层的交叉验证
分层交叉验证和交叉验证有什么区别? 维基百科说: 在分层k折交叉验证中,选择折数以使平均响应值在所有折数中均大致相等。在二分类的情况下,这意味着每个折页包含两种类标签的大致相同的比例。 但是我还是很困惑。 mean response value在这种情况下是什么意思? 为什么#1重要? 一个人如何在实践中获得第一?


4
如何生成相关的随机数(给定的均值,方差和相关度)?
很抱歉,这似乎太基本了,但是我想我只是想在这里确认了解。我觉得我必须分两步执行此操作,并且我已经开始尝试绘制相关矩阵,但是它似乎才真正开始涉及。我正在寻找一种简洁,合理的解释(理想情况下带有对伪代码解决方案的提示),这是一种生成相关随机数的理想方法。 给定两个具有已知均值和方差的伪随机变量height和weight以及给定的相关性,我认为我基本上是在试图理解第二步应该是什么样子: height = gaussianPdf(height.mean, height.variance) weight = gaussianPdf(correlated_mean(height.mean, correlation_coefficient), correlated_variance(height.variance, correlation_coefficient)) 如何计算相关的均值和方差?但是我想确认这确实是相关的问题。 我需要诉诸矩阵操纵吗?还是我在解决此问题的基本方法上还有其他非常错误的地方?

3
数据API /提要作为R中的软件包提供
编辑:Web技术和服务 CRAN 任务视图包含R中可用的数据源和API的更全面的列表。如果希望将包添加到任务视图,则可以在github上提交拉取请求。 我列出了已经挂接到R或易于设置的各种数据馈送。这是我最初的软件包列表,我想知道我还缺少什么。 我试图将此列表限制为“实时”或“接近实时”数据供稿/ API,其中底层数据可能在下载之间发生变化。静态数据集有很多列表,只需下载一次即可。 该列表目前偏向于财务/时间序列数据,我可以借助一些帮助将其扩展到其他领域。 免费数据: 数据源-包 谷歌财经的历史数据 - quantmod 谷歌财经的资产负债表 - quantmod 雅虎财经的历史数据 - quantmod 雅虎财经的历史数据- TSERIES 雅虎财经当前的期权链 - quantmod 雅虎财经历史分析师的预期 - fImport 雅虎财经当前关键统计 - fImport -似乎被打破 OANDA历史汇率/金属价格 - quantmod FRED历史性的宏观经济指标 - quantmod 世界银行历史的宏观经济指标 - WDI 谷歌趋势的历史搜索量数据 - RGoogleTrends 谷歌文档- RGoogleDocs 谷歌存储- RGoogleStorage Twitter的 - Twitter的 Zillow的 …
53 r  references  dataset 

9
测量二维二进制矩阵的熵/信息/模式
我想测量二维二进制矩阵的熵/信息密度/图案相似度。让我显示一些图片以供说明: 此显示应具有较高的熵: 一种) 这应该具有中等熵: B) 最后,这些图片应该都具有接近零的熵: C) D) E) 是否有一些捕获熵的索引,分别。这些显示的“样式”? 当然,每种算法(例如,压缩算法;或ttnphns提出的旋转算法)都对显示器的其他功能敏感。我正在寻找一种尝试捕获以下属性的算法: 旋转和轴向对称 聚类量 重复次数 也许更复杂,算法可能对心理的“ 格式塔原理 ”的属性敏感,尤其是: 接近定律: 对称定律:即使距离很远,对称图像也可以集体感知: 具有这些属性的显示应被赋予“低熵值”;具有相当随机/非结构化点的显示应该被分配一个“高熵值”。 我知道,很可能没有一种算法可以捕获所有这些功能。因此,也非常欢迎提出仅针对某些功能甚至仅针对单个功能的算法的建议。 特别是,我正在寻找具体的,现有的算法或特定的,可实现的想法(我将根据这些标准来授予赏金)。

6
高效的在线线性回归
我正在分析一些我想执行普通线性回归的数据,但是这是不可能的,因为我正在处理具有连续输入数据流的在线设置(这将很快对于内存变得太大)并且需要消耗参数时更新参数估算值。即我不能只将其全部加载到内存中并对整个数据集执行线性回归。 我假设一个简单的线性多元回归模型,即 y = A x + b + ey=Ax+b+e\mathbf y = \mathbf A\mathbf x + \mathbf b + \mathbf e 创建线性回归参数和的连续更新估计的最佳算法是什么?b一种A\mathbf Abb\mathbf b 理想情况下: 我想要一种算法,每次更新的空间为,时间复杂度最高,其中是自变量()的维数,是因变量()。ñ X中号ÿø(Ñ⋅ 中号)O(N⋅M)\mathcal O(N\cdot M)ñNNXx\mathbf x中号MMÿy\mathbf y 我希望能够指定一些参数来确定每个新样本更新多少参数,例如0.000001表示下一个样本将提供参数估计的百万分之一。对于遥远的过去样本,这将产生某种指数衰减。

10
使用Python进行机器学习
我正在考虑使用Python库进行机器学习实验。到目前为止,我一直依靠WEKA,但总体上还是很不满意。这主要是因为我发现对WEKA的支持不太好(很少有例子,文档稀疏,而社区支持在我的经验中不够理想),并且发现自己处在棘手的情况下没有任何帮助。我考虑此举的另一个原因是因为我真的很喜欢Python(我是Python的新手),并且不想回到Java编码中。 所以我的问题是,还有什么 全面 可扩展性(10万个功能,1万个示例)和 很好的受支持的库,可以在那里用Python进行ML? 我对进行文本分类特别感兴趣,因此想使用一个库,该库具有良好的分类器集合,功能选择方法(信息增益,Chi-Sqaured等)以及文本预处理功能(词干,停用词删除) ,tf-idf等)。 到目前为止,根据过去和其他地方的电子邮件线索,我一直在研究PyML,scikits-learn和Orange。关于我提到的上述三个指标,人们的感受如何? 还有其他建议吗?

5
分析前后治疗控制设计的最佳实践
想象以下通用设计: 将100名参与者随机分配至治疗组或对照组 因变量是数字的,并且在处理前后进行了测量 分析此类数据的三个显而易见的选择是: 在混合方差分析中通过时间交互作用测试组 做一个ANCOVA,条件为IV,前测为协变量,后测为DV 做一个t检验,条件为IV,事前变更分数为DV 题: 分析此类数据的最佳方法是什么? 是否有理由倾向于一种方法而不是另一种方法?


5
状态空间模型和卡尔曼滤波器在时间序列建模中的缺点是什么?
考虑到状态空间模型和KF的所有良好特性,我想知道- 状态空间建模并使用卡尔曼滤波器(或EKF,UKF或粒子滤波器)进行估计的缺点是什么?笼统地说,是ARIMA,VAR或即席/启发式方法之类的常规方法。 它们难于校准吗?他们是否复杂且很难看到模型结构的变化将如何影响预测? 或者,换种说法-传统ARIMA,VAR与状态空间模型相比有什么优势? 我只能想到状态空间模型的优点: 它可以轻松地处理某些静态模型的结构破坏,移位,时变参数-只需使这些参数成为状态空间模型的动态状态,模型便会自动适应任何参数移位; 它非常自然地处理丢失的数据,只需执行KF的过渡步骤,而不执行更新步骤; 它允许更改状态空间模型本身的动态参数(噪声和过渡/观测矩阵的协方差),因此,如果您当前的观测值来自与其他观测值略有不同的源,则无需进行任何操作即可轻松将其合并到估计中有什么特别的 使用上述属性,可以轻松处理不规则空间的数据:根据观察之间的间隔每次更改模型,或者使用规则的间隔并将没有观察的间隔视为丢失数据; 它允许在同一模型中同时使用来自不同来源的数据来估算一个基础数量; 它允许从几个可解释的,不可观察的动态成分构建模型并进行估计; 任何ARIMA模型都可以以状态空间形式表示,但是只有简单的状态空间模型可以以ARIMA形式精确表示。

7
通用时间序列的周期检测
这篇文章是另一篇有关时间序列异常检测通用方法的文章的延续。基本上,在这一点上,我感兴趣的是一种鲁棒的方式来发现受大量噪声影响的通用时间序列的周期性/季节性。从开发人员的角度来看,我想要一个简单的界面,例如: unsigned int discover_period(vector<double> v); 其中v包含样本的数组在哪里,返回值是信号的周期。重点是,同样,我无法对所分析的信号做出任何假设。我已经尝试过基于信号自相关(检测相关图的峰值)的方法,但是它并不像我想要的那样健壮。

5
具有指数衰减的Adam优化器
在大多数Tensorflow代码中,我已经看到Adam Optimizer的学习率恒定1e-4(即0.0001)。该代码通常如下所示: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = tf.initialize_all_variables() # launch the graph in a session sess = tf.Session() # Actually intialize the variables sess.run(init_op) # now …


3
为什么我们在不必线性回归时非常关心正态分布误差项(和同方差)?
我想每次听到有人说残差和/或异方差的非正态性违反OLS假设时,我都会感到沮丧。要估计 OLS模型中的参数,高斯-马尔可夫定理都不需要这些假设。我认为在OLS模型的假设检验中这有多重要,因为假设这些事情为我们提供了t检验,F检验和更通用的Wald统计量的简洁公式。 但是,没有它们就可以进行假设检验。如果仅去除同方差,我们可以轻松计算出健壮的标准误差和聚类标准误差。如果我们完全放弃正态性,我们可以使用自举,并为误差项,似然比和拉格朗日乘数检验指定另一个参数规范。 我们以这种方式进行授课只是一种耻辱,因为我看到很多人都在为自己不必首先遇到的假设而苦苦挣扎。 当我们有能力轻松应用更强大的技术时,为什么我们如此强调这些假设?我缺少重要的东西吗?

3
在模型验证之前或之内进行特征归一化?
机器学习中的一种常见的良好做法是对预测变量进行特征归一化或数据标准化,即将减去均值的数据居中并将其除以方差(或标准差)进行归一化。为了自我控制并据我所知,我们这样做是为了实现两个主要目标: 为了数字稳定,请避免使用较小的模型权重。 确保优化算法(例如共轭梯度)的快速收敛,以使一个预测变量维的数量级过大而不会导致缓慢收敛。 我们通常将数据分为训练集,验证集和测试集。在文献中,我们通常会看到,要进行特征归一化,它们会在整个预测变量集上取均值和方差(或标准差)。我在这里看到的最大缺陷是,如果这样做,实际上是在将未来信息引入训练预测变量中,即均值和方差中包含的未来信息。 因此,我对训练数据进行了归一化处理,并保存了均值和方差。然后,使用训练均值和方差将特征归一化应用于验证和测试数据集的预测变量。这有根本的缺陷吗?谁能推荐一个更好的选择?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.