Questions tagged «computational-statistics»

指统计和计算的接口;用于统计目的的算法和软件的使用。

1
数据矩阵为对角线时套索问题的闭式解
\newcommand{\diag}{\operatorname{diag}}我们遇到了问题:\ min_ {w \ in \ mathbb {R} ^ {d}} \ left(\ frac {1} {n} \ sum_ {i = 1} ^ {n} \ left(\ langle w,x_ {i} \ rangle-y_ {i} \ right)^ {2} +2 \ lambda || w || _1 \ right),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right), 并假设:∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). 在这种情况下是否有封闭形式的解决方案? …

7
从统计理论和应用中了解
我最近获得了医学和生物学建模硕士学位,并以工程数学为背景。尽管我的教育计划包括大量的数学统计学课程(请参见下面的列表),而且我都取得了很高的成绩,但我经常最终完全迷失了对统计学的理论和应用的迷恋。我不得不说,与“纯粹的”数学相比,统计学对我而言确实没有什么意义。尤其是大多数统计学家(包括我以前的讲师)使用的符号和语言令人费解,并且到目前为止,我所见过的几乎所有资源(包括维基百科)都没有简单的例子可以轻松地与给定的理论联系起来并与之联系在一起。 .. 这是背景;我也意识到,如果没有牢牢掌握统计数据,尤其是在生物信息学领域,我就无法从事研究人员/工程师的工作,这真是令人痛苦的现实。 我希望可以从经验丰富的统计学家/数学家那里获得一些提示。如何克服上面提到的这个问题?你知道任何好的资源吗?例如书籍,电子书,公开课程(例如,通过iTunes或OpenCourseware)。 编辑:正如我提到的那样,我对统计的一般标题下的大多数文献都持偏颇(消极)的态度,并且由于我无法在每个统计分支购买大量(昂贵的)教科书,因此我需要就一本书而言,它与Tipler&Mosca 的物理学相似,但与统计学无关。 对于那些不了解Tipler的人;它是一本大型教科书,涵盖了人们在高等教育中可能遇到的绝大多数主题,并从基础入门到更详细地介绍了它们。基本上是一本完美的参考书,在我读大学的第一年就买了,仍然偶尔使用。 我参加过的统计课程: 大型的入门课程 平稳的随机过程 马尔可夫过程 蒙特卡洛方法 生存分析

1
将复杂模型重复拟合到大数据集时,如何优化计算效率?
使用MCMCglmmR中的程序包运行混合效果模型时出现性能问题。代码如下: MC1<-MCMCglmm(bull~1,random=~school,data=dt,family="categorical" , prior=list(R=list(V=1,fix=1), G=list(G1=list(V=1, nu=0))) , slice=T, nitt=iter, ,burnin=burn, verbose=F) 数据中大约有20,000个观测值,它们聚集在大约200所学校中。在运行之前,我从数据框中删除了所有未使用的变量,并从内存中删除了所有其他对象。我的问题是,除非将迭代次数减少到无法接受的程度,否则运行时间将非常长。经过50,000次迭代,需要5个小时,而且我要运行许多不同的模型。所以我想知道是否有加速代码执行的方法,或者我可以使用其他软件包。我正在使用,MCMCglmm因为我想要随机效果的置信区间。 另一方面,我希望在今年晚些时候购买一台新PC,但运气好的话,我也许可以将其推广,所以我一直在想如何最好地在新硬件上花有限的钱-更多的RAM ,更快的CPU等。通过观察任务管理器,我不认为RAM是问题(它永远不会超过物理使用的50%),但是CPU使用率也不会超过50%,这让我感到奇怪。我当前的设置是Intel Core i5 2.66GHz,4GB RAM,7200rpm HDD。以尽可能多的RAM为代价,获取尽可能快的CPU是否合理?我还想知道3级CPU缓存大小对像这样的统计计算问题的影响吗? 更新:已经问的元SO我一直建议重新措辞上的超级用户的问题和岗位。为此,我需要提供有关MCMCglmm中“幕后工作”的详细信息。我是否认为大部分的计算时间都花在了优化上,这是对的吗?我的意思是找到一些复杂函数的最大值?矩阵求逆和/或其他线性代数运算是否也是可能引起瓶颈的常见运算?我将非常感激能够提供给超级用户社区的任何其他信息。

4
时间序列中的异常值检测:如何减少误报?
我想自动离群值在时间序列检测和我使用的罗布海德门提出的解决方案的修改在这里。 假设我衡量来自各个国家/地区的网站的每日访问量。对于某些日访问量只有几百或几千的国家,我的方法似乎工作合理。 但是,在一个国家每天只进行1或2次访问的情况下,该算法的范围非常狭窄(例如1±0.001),因此这2次访问被认为是异常值。我如何自动检测此类情况,以及如何处理它们以识别异常值?我不想设置一个手动的阈值,例如每天100次访问。 谢谢!

3
使用计算机模拟以更好地理解研究生级别的统计概念
您好,我正在修读统计学的研究生课程,并且我们涵盖了测试统计和其他概念。 但是,我通常能够运用公式并就事物的工作原理形成某种直觉,但我常常感到,如果我通过模拟实验来支持研究,那么我将对眼前的问题有更好的直觉。 因此,我一直在考虑编写简单的模拟,以更好地理解我们在课堂上讨论的一些概念。现在我可以用说Java来: 产生具有正常均值和标准差的随机总体。 然后取一个小样本,尝试尝试凭经验计算Type-I和Type-II错误。 现在我的问题是: 这是发展直觉的合法方法吗? 是否有执行此操作的软件(SAS?,R?) 统计学是一门处理此类编程的学科吗:实验统计?,计算统计?模拟?

1
什么是“最大相关系数”?
典型的图像处理统计数据是使用Haralick纹理特征(即14)。 我想知道其中的第14个特征:给定一个邻接图(我们可以简单地查看两个整数i的经验分布,j &lt; 256),其定义为:Q的第二个特征值的平方根,其中,Q为:PPP我,Ĵ &lt; 256i,j&lt;256i,j < 256问QQ问QQ 问我Ĵ= ∑ķP(i ,k )P(j ,k )[ ∑XP(x ,i )] [ ∑ÿP(ķ ,ÿ)]Qij=∑kP(i,k)P(j,k)[∑xP(x,i)][∑yP(k,y)]Q_{ij} = \sum_k \frac{ P(i,k) P(j,k)}{ [\sum_x P(x,i)] [\sum_y P(k, y)] } 即使经过大量的搜索,我也找不到该统计信息的任何参考。它有什么特性?它代表什么? (上面的值是在值j的像素旁边找到值i的像素的标准化次数)。P(i ,j )P(i,j)P(i,j)一世iiĴjj

1
为治疗组寻找可比的对照组?
我有一个30人的治疗小组(加利福尼亚州30所学校),使用的是数学补​​充软件。通过简单的分析,我想比较我们的治疗组和可比较的对照组之间学生的平均数学增长。加州有许多学校没有使用该软件。我希望对照组包括表现相似的学校(他们的基线分数与治疗学校相近,但误差范围合理)。另外,我希望对照组的样本量是我的治疗量的3倍(这里是90所学校)。在CA的1000余所学校中,有90所学校可供选择。您将如何选择对照组?


3
在R(或一般而言)中是否可能迫使回归系数成为某个符号?
我正在处理一些现实世界的数据,回归模型产生了一些违反直觉的结果。通常,我相信统计数据,但实际上其中一些事情是不正确的。我看到的主要问题是,实际上必须将它们负相关时,一个变量的增加会引起响应的增加。 有没有一种方法可以为每个回归系数强制指定符号?任何这样做的R代码也将不胜感激。 感谢您提供的所有帮助!

1
低阶线性系统的快速计算/估计
方程的线性系统普遍存在于计算统计中。我遇到的一种特殊系统(例如,在因子分析中)是 Ax=b一个X=bAx=b 其中 这里d是Ñ × Ñ对角线矩阵具有严格为正对角,Ω是米× 米(具有米« Ñ)对称半正定矩阵,乙是任意Ñ × 米矩阵。我们被要求解决一个被低秩矩阵扰动的对角线性系统(简单)。解决上述问题的幼稚方法是使用伍德伯里公式将A求逆A=D+BΩBT一个=d+乙Ω乙ŤA=D+ B \Omega B^TDdDn×nñ×ñn\times nΩΩ\Omegam×m米×米m\times mm≪n米≪ñm\ll nB乙Bn×mñ×米n\times mAAA。但是,这并不对劲,因为Cholesky和QR因式分解通常可以大大加快线性系统(和法向方程式)的求解速度。我最近提出了以下论文,该论文似乎采用了Cholesky方法,并提到了伍德伯里反演的数值不稳定性。但是,该论文似乎是草稿形式,我找不到数值实验或支持性研究。解决我描述的问题的最新技术水平是什么?

4
测试统计软件
哪些技术/方法可用于测试统计软件?我对使用最大似然进行参数估计的程序特别感兴趣。 将结果与其他程序或已发布资源中的结果进行比较并不总是可能的,因为在我编写自己的程序的大多数时候,这是因为所需的计算尚未在现有系统中实现。 我并不是在坚持可以保证正确性的方法。我会对可以捕获部分错误的技术感到满意。

4
为什么需要梯度下降?
当我们可以区分成本函数并通过求解通过对每个参数进行偏微分而获得的方程来找到参数时,找出成本函数最小的地方。另外,我认为有可能找到导数为零的多个位置,从而我们可以检查所有这些位置并找到全局最小值 为什么要执行梯度下降呢?

2
如何从非负整数的离散分布中采样?
我有以下离散分布,其中是已知常数:α,βα,β\alpha,\beta p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,…p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,… p(x;\alpha,\beta) = \frac{\text{Beta}(\alpha+1, \beta+x)}{\text{Beta}(\alpha,\beta)} \;\;\;\;\text{for } x = 0,1,2,\dots 有什么方法可以有效地从这种分布中采样?

3
使用Python进行时间序列异常检测
我需要对几个时间序列数据集执行异常检测。我以前从未做过此事,希望能得到一些建议。我对python非常满意,因此我希望在其中实现解决方案(我的大部分代码在其他工作中都是python)。 数据描述:在过去的两年左右(即只有24-36个时间段)才刚刚开始收集每月的时间序列数据。从本质上讲,每月有多个指标被多个客户监视。 time_period client metric score 01-2013 client1 metric1 100 02-2013 client1 metric1 119 01-2013 client2 metric1 50 02-2013 client2 metric2 500 ... 这就是我的想法:将数据放入数据框(熊猫),然后为每个客户/指标对计算6个月的滚动平均值。如果当前时间段的值超过了基于6个月平均值的某个阈值,则升旗。这个问题似乎很简单。我只想确保我采取可靠的方法。 任何建议,以充实这一想法,将不胜感激。我知道这个问题有点抽象,对此我深表歉意。

1
与抽样成本
我遇到了以下模拟问题:给定一组已知实数的,在上的分布由 其中表示的正数。虽然我可以靶向这种分布认为大都市,黑斯廷斯样的,我不知道是否存在一个有效的直接取样,取大量的零个概率的优势,从降低算法的顺序至。{ - 1 ,1 } d P(X = (X 1,... ,X d))α (X 1 ω 1 + ... + X d ω d )+(Ž )+ ž O (2 d)O (d ){ω1,…,ωd}{ω1,…,ωd}\{\omega_1,\ldots,\omega_d\}{−1,1}d{−1,1}d\{-1,1\}^dP(X=(x1,…,xd))∝(x1ω1+…+xdωd)+P(X=(x1,…,xd))∝(x1ω1+…+xdωd)+\mathbb{P}(X=(x_1,\ldots,x_d))\propto (x_1\omega_1+\ldots+x_d\omega_d)_+(z)+(z)+(z)_+zzzO (2d)Ø(2d)O(2^d)Ø (d)Ø(d)O(d)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.