统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

4
自然对数的期望值
我知道具有 常数,因此给定,很容易解决。我也知道,当它是非线性函数时,例如在这种情况下,您不能应用它,为了解决这个问题,我必须做一个近似与泰勒的。所以我的问题是如何解决?我也可以和泰勒近似吗?a ,b E (X )E (1 / X )≠ 1 / E (X )E (ln (1 + X ))Ë(一个X+ b )= a E(X)+ bE(aX+b)=aE(X)+bE(aX+b) = aE(X)+b一,ba,ba,b Ë(X)E(X)E(X)Ë(1 / X)≠ 1 / E(X)E(1/X)≠1/E(X)E(1/X) \neq 1/E(X)Ë(ln(1 + X))E(ln⁡(1+X))E(\ln(1+X))

3
有监督的聚类或分类?
第二个问题是,据我所知,我在网络上某处的讨论中发现“有监督的聚类”,而聚类是无监督的,那么“有监督的聚类”的确切含义是什么?关于“分类”有什么区别? 有很多链接在谈论这一点: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf 等...

2
加权方差的偏差校正
对于未加权方差 存在的偏置校正的样本方差,当平均是从相同的数据估计: Var(X):=1Var(X):=1n∑i(xi−μ)2Var(X):=1n∑i(xi−μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2Var(X):=1n−1∑i(xi−E[X])2Var(X):=1n−1∑i(xi−E[X])2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 我正在研究加权均值和方差,并想知道加权方差的适当偏差校正是什么。使用: mean(X):=1∑iωi∑iωiximean(X):=1∑iωi∑iωixi\text{mean}(X):=\frac{1}{\sum_i \omega_i}\sum_i \omega_i x_i 我正在使用的“天真”,未经校正的方差是: Var(X):=1∑iωi∑iωi(xi−mean(X))2Var(X):=1∑iωi∑iωi(xi−mean(X))2\text{Var}(X):=\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 所以我想知道纠正偏见的正确方法是 A) Var(X):=1∑iωi−1∑iωi(xi−mean(X))2Var(X):=1∑iωi−1∑iωi(xi−mean(X))2\text{Var}(X):=\frac{1}{\sum_i \omega_i - 1}\sum_i\omega_i(x_i - \text{mean}(X))^2 或B) Var(X):=nn−11∑iωi∑iωi(xi−mean(X))2Var(X):=nn−11∑iωi∑iωi(xi−mean(X))2\text{Var}(X):=\frac{n}{n-1}\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 或C) Var(X):=∑iωi(∑iωi)2−∑iω2i∑iωi(xi−mean(X))2Var(X):=∑iωi(∑iωi)2−∑iωi2∑iωi(xi−mean(X))2\text{Var}(X):=\frac{\sum_i \omega_i}{(\sum_i \omega_i)^2-\sum_i \omega_i^ 2}\sum_i\omega_i(x_i - \text{mean}(X))^2 A)当权重较小时对我来说没有意义。归一化值可以是0甚至是负数。但是B)(是观察次数)-这是正确的方法吗?您是否有参考资料可以证明这一点?我相信“更新均值和方差估计:一种改进的方法”,DHD West,1979年使用了这种方法。第三,C)是我对这个问题的答案的解释:https : //mathoverflow.net/questions/22203/unbiased-estimate-of-the-variance-of-an-unnormalized-weighted-meannnn 对于C),我刚刚意识到分母看起来很像。这里有一些一般的联系吗?我认为这并不完全一致;显然我们正在尝试计算方差...Var(Ω)Var(Ω)\text{Var}(\Omega) 他们三个似乎都“生存”设置所有的健全性检查。那么我应该在哪个前提下使用哪个呢?“更新:” whuber建议也使用和所有其余的进行完整性检查。这似乎排除了A和B。ωi=1ωi=1\omega_i=1ω1=ω2=.5ω1=ω2=.5\omega_1=\omega_2=.5ωi=ϵωi=ϵ\omega_i=\epsilon

3
安全地确定A / B测试的样本量
我是一位寻求构建A / B测试工具的软件工程师。我没有扎实的统计背景,但最近几天一直在做大量阅读工作。 我将遵循此处描述的方法,并在下面总结相关要点。 该工具将使设计人员和领域专家可以配置网站,以将在特定URL处接收到的流量划分为两个或多个URL。例如,可以在http://example.com/hello1和http://example.com/hello2之间分配到达http://example.com/hello1的流量。流量将在目标URL之间平均分配,并且将比较每个目标URL上的营销过程的性能。 在此实验中,样本大小N将对应于访问者。该测试将衡量“转化”,该术语描述访问者何时在营销过程中采取特定行动。转化率以百分比表示,并且期望更高的转化率。这使测试成为独立比例的比较。该工具需要能够容易地用于产生安全结果的测试。选择适当的值N很重要。 在上面的链接文章中,采用两个独立比例的幂分析来查找N。这种方法需要事先知道控件的转换率,并指定目标所需的转换改进。它还指定了95%的显着性水平和80%的统计功效。 问题: 这是确定N声音的方法吗?如果是这样,在开始测试之前确定对照转化率的最安全方法是什么? 有没有确定N不需要预先知道控件转换率的合理方法? 链接文章中的方法是否合理?如果没有,您是否可以将我链接到任何可访问且易于消化的方法?

3
方差不等的回归建模
我想拟合一个线性模型(lm),其中残差方差显然取决于解释变量。 我知道的方法是将glm与Gamma族一起使用,对方差建模,然后将其逆值放入lm函数的权重中(例如:http : //nitro.biosci.arizona.edu/r/chapter31 .pdf) 我在想: 这是唯一的技术吗? 还有哪些其他相关方法? 哪些R包/功能与此类建模相关?(其他然后是glm,lm)

1
不一致的估算器是否更可取?
一致性显然是自然而重要的属性估计量,但是在某些情况下,使用不一致的估计量比使用一致的估计数更好吗? 更具体地说,是否存在一个不一致估计量的示例,该估计量对于所有有限的(相对于某些合适的损失函数)都胜过一个合理的一致估计量?ññn


4
如何在R中编写具有100个变量的线性模型公式
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 R中有一种简单的方法可以在R中具有100个参数的模型上创建线性回归吗?假设我们有一个具有10个值的向量Y和一个具有10列100行的数据框X以数学符号表示Y = X[[1]] + X[[2]] + ... + X[[100]]。如何用R语法写类似的东西?
22 r 



3
处理大,小问题时的模型稳定性
介绍: 我有一个经典的“大p,小n问题”数据集。可用样本数n = 150,而可能的预测变量数p = 400。结果是一个连续变量。 我想找到最“重要”的描述符,即那些最能解释结果并帮助建立理论的描述符。 经过对该主题的研究,我发现LASSO和Elastic Net通常用于大p小n的情况。我的一些预测变量具有高度相关性,因此我想在重要性评估中保留它们的分组,因此,我选择使用Elastic Net。我想我可以使用回归系数的绝对值来衡量重要性(如果我错了,请纠正我;我的数据集是标准化的)。 问题: 由于样本数量少,如何获得稳定的模型? 我目前的方法是在90%的数据集上以10倍的交叉验证平均MSE分数在网格搜索中找到最佳调整参数(λ和alpha)。然后,我在整个数据集的90%上使用最佳调整参数训练模型。我可以在数据集的10%保留率(仅占15个样本)上使用R平方来评估我的模型。 反复运行此过程,我发现R平方评估存在很大差异。同样,非零预测变量的数量及其系数也会变化。 如何获得对预测变量重要性的更稳定评估以及对最终模型性能的更稳定评估? 我可以重复运行我的程序来创建多个模型,然后平均回归系数吗?还是应该使用模型中预测变量的出现次数作为其重要性得分? 目前,我得到40-50个非零预测变量。为了更好的稳定性,我应该更严厉地惩罚一些预测变量吗?

2
如何比较和验证混合效应模型?
通常如何比较(线性)混合效果模型?我知道可以使用似然比检验,但是如果一个模型不是另一个正确模型的“子集”,这将不起作用? 模型df的估算是否总是简单明了?固定效应数量+估计的方差成分数量?我们是否忽略随机效应估计? 验证呢?我的第一个想法是交叉验证,但是考虑到数据的结构,随机折叠可能不起作用。“遗漏一个主题/集群”的方法是否合适?那把一个观察结果留在外面怎么办? 锦葵Cp可解释为模型预测误差的估计。通过AIC进行模型选择会尝试最大程度地减少预测误差(因此,如果误差是高斯型,我相信Cp和AIC应该选择相同的模型)。这是否意味着AIC或Cp可以用于根据预测误差从一些非嵌套模型的集合中选择“最佳”线性混合效应模型?(前提是它们适合相同的数据)BIC是否仍然更有可能在候选人中选择“真实”模型? 我还给人的印象是,在通过AIC或BIC比较混合效果模型时,我们仅将固定效果计算为“参数”,而不是实际模型df。 关于这些主题有没有好的文献?是否值得研究cAIC或mAIC?他们在AIC之外是否有特定的应用程序?

1
如何分解具有多个季节性成分的时间序列?
我有一个包含双重季节性成分的时间序列,我想将该序列分解为以下时间序列成分(趋势,季节性成分1,季节性成分2和不规则成分)。据我所知,用于分解R中序列的STL过程仅允许一个季节性成分,因此我尝试了两次分解序列。首先,使用以下代码将频率设置为第一个季节性成分: ser = ts(data, freq=48) dec_1 = stl(ser, s.window="per") 然后,我dec_1通过将频率设置为第二个季节性分量来分解分解系列()的不规则分量,从而: ser2 = ts(dec_1$time.series[,3], freq=336) dec_2 = stl(ser2, s.window="per") 我对这种方法不是很自信。而且我想知道是否还有其他方法可以分解具有多个季节性的序列。另外,我注意到tbats()R 预测软件包中的函数允许一个模型适合具有多个季节性的序列,但是它并未说明如何使用它来分解一个序列。


4
解释对数正态分布和幂律分布(网络度分布)之间的差异
首先,我不是统计学家。但是,我一直在为博士做统计网络分析。 作为网络分析的一部分,我绘制了网络度的互补累积分布函数(CCDF)。我发现,与常规网络分布(例如WWW)不同,该分布最适合对数正态分布。我确实尝试根据幂定律进行拟合,并使用Clauset等人的Matlab脚本,发现曲线的尾部遵循带有截止值的幂定律。 虚线表示幂律拟合。紫色线表示对数正态拟合。绿线代表指数拟合。 我努力理解的是什么意思?我已经读过纽曼(Newman)撰写的这篇论文,该论文略微涉及了这个话题:http : //arxiv.org/abs/cond-mat/0412004 以下是我的疯狂猜测: 如果度数分布遵循幂律分布,则我理解这意味着链路和网络度的分布中存在线性优先依附关系(富变得更富效应或Yules过程)。 我说的对数正态分布是否正确,是在曲线的开始处存在次线性的优先连接,而在尾部可以由幂定律拟合的地方,其线性变得更好? 同样,由于对数正态分布是在随机变量(例如X)的对数呈正态分布时发生的,这是否意味着在对数正态分布中,X的较小值较大,而X的较大值较小。遵循幂律分布的随机变量将具有什么? 更重要的是,关于网络度分布,对数正态优先附件是否仍暗示无规模网络?我的直觉告诉我,由于曲线的尾部可以通过幂定律进行拟合,因此仍然可以得出该网络具有无标度特征的结论。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.