统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
二项式分布函数何时高于/低于其极限泊松分布函数?
令表示二项分布函数(DF),其参数和在: \ begin {equation} B(n,p,r)= \ sum_ {i = 0} ^ r \ binom {n} {i} p ^ i(1-p)^ {ni},\ end {equation } 和让F(\ NU,R)表示泊松DF与参数A \在\ mathbb R 2 +在评价中的R \ \ {0,1,2,\ ldots \} : \开始{方程} F(一,r)= e ^ {-a} \ sum_ {i = 0} ^ r \ frac …


2
lme和lmer比较
我想知道是否有人可以启发我了解这两个功能之间的当前区别。我发现以下问题:如何为混合效果模型选择nlme或lme4 R库?,但这要追溯到几年前。那是软件界的一生。 我的具体问题是: 有没有(还)任何相关结构,lme即lmer不处理? 可以/建议使用lmer面板数据吗? 道歉,如果这些是一些基本的。 更详细一点:面板数据是我们在不同时间对同一个人进行多次测量的地方。我通常在业务环境中工作,在该环境中,您可能拥有多年的回头客/长期客户数据。我们希望允许随时间的变化,但显然每个月或每年拟合一个虚拟变量效率低下。但是,我不清楚lmer对于这种数据是否合适的工具,或者我是否需要具有的自相关结构lme。

8
您会建议哪些数学主题为数据挖掘和机器学习做准备?
我正在尝试整理一门自我指导的数学课程,为学习数据挖掘和机器学习做准备。这是通过在Coursera上开始Andrew Ng的机器学习课程而激发的,并认为在继续之前我需要提高自己的数学技能。我不久前从大学毕业,所以我的代数和统计学(特别是政治科学/心理学课程)很生疏。 主题中的答案是ML的全部必备知识吗?仅建议与机器学习直接相关的书籍或课程;我已经研究了其中的一些课程和书籍,但不完全知道要研究的数学主题(例如:数学地址的哪个领域派生出方程式以“最小化成本函数”?)。建议的另一主题(技能和课程工作需要成为数据分析师)仅提及分析数据所需的各种技能。《数学家统计学导论》线程不适用,因为我还没有数学学位。一个类似的线程,数学家希望获得等同于质量统计程度的知识 有一本令人难以置信的统计书籍清单,不过我还是想从一堆生锈的代数开始着手数学,然后再往上走。 那么,对于那些从事机器学习和数据挖掘工作的人来说,您认为数学的哪些领域对您的工作至关重要?您会建议以什么顺序为数据挖掘和机器学习做准备的数学主题?这是我到目前为止的清单和顺序: 代数 前微积分 结石 线性代数 可能性 统计信息(此处有许多不同的子字段,但不知道如何进行细分) 至于数据挖掘和机器学习,通过我目前的工作,我可以访问有关网站/应用程序活动,客户/订阅交易和房地产数据(静态和时间序列)的记录。我希望将数据挖掘和机器学习应用于这些数据集。 谢谢! 编辑: 为了后代的缘故,我想为CMU的Geoffrey Gordon / Alex Smola的机器学习入门课程分享一个有用的数学自我评估。

1
anova()命令对lmer模型对象有什么作用?
希望这是一个问题,在这里有人可以为我解答,该问题的本质是根据拟合的混合效应模型lmer(来自lme4 R软件包)分解平方和。 首先,我应该说我已经意识到使用这种方法的争议,在实践中,我更有可能使用自举LRT来比较模型(如Faraway,2006年所建议)。但是,我对如何复制结果感到困惑,因此出于我的理智,我想在这里问一下。 基本上,我正在使用lme4包装所适合的混合效果模型。我知道您可以使用该anova()命令来总结按顺序测试模型中的固定效果。据我所知,这就是Faraway(2006)所说的“预期均方”方法。我想知道的是平方和如何计算? 我知道我可以从特定模型中获取估计值(使用coef()),假设它们是固定的,然后使用有和没有感兴趣因素的模型残差平方和进行测试。这对于包含单个主题内因子的模型来说是很好的。但是,在实施分割图设计时,平方和值I get等于R通过aov()适当的Error()名称使用R生成的值。但是,尽管F比率相同,但这与命令在模型对象上产生的平方和并不anova()相同。 当然这是完全有意义的,因为Error()在混合模型中不需要分层。但是,这必须意味着在混合模型中对平方和进行某种程度的惩罚,以提供适当的F比率。如何实现的?模型如何以某种方式校正图间平方和而不校正图内平方和。显然,这是通过为不同效果指定不同的误差值而实现的经典分割图方差分析所必需的,那么混合效果模型如何做到这一点? 基本上,我希望能够自己复制anova()应用于lmer模型对象的命令的结果,以验证结果和我的理解,但是,目前,我可以针对常规的受试者内部设计实现此目标,而对于拆分主体则无法实现。情节设计,我似乎无法找出为什么是这种情况。 举个例子: library(faraway) library(lme4) data(irrigation) anova(lmer(yield ~ irrigation + variety + (1|field), data = irrigation)) Analysis of Variance Table Df Sum Sq Mean Sq F value irrigation 3 1.6605 0.5535 0.3882 variety 1 2.2500 2.2500 1.5782 summary(aov(yield ~ irrigation + variety + Error(field/irrigation), …

5
数据“探索”与数据“监听” /“拷打”?
很多时候,我都遇到过非正式的警告,反对“数据​​监听”(这是一个有趣的例子),我认为我对这意味着什么以及为什么可能是一个问题有一个直观的认识。 另一方面,“探索性数据分析”似乎是统计学中一个非常受人尊敬的程序,至少从以下事实来看:具有该名称的书仍被经典地引用。 在我的工作中,我经常遇到看起来像猖like的“数据监听”,或者将其更好地描述为“数据折磨 ”,尽管这样做的人似乎将同一活动视为完全合理且毫无问题的“探索” ”。 这是典型的场景:进行了代价高昂的实验(对后续分析没有过多考虑),原始研究人员无法轻易辨别所收集数据中的“故事”,有人被邀请使用一些“统计巫术”,以及,在以各种方式对数据进行切片和切块之后,最终设法从中提取出一些可发布的“故事”。 当然,最终报告/论文中通常会抛出一些“验证”,以表明统计分析是不断进行的,但其背后公然的不惜一切代价发表的态度让我感到怀疑。 不幸的是,由于我对数据分析可做与不可做的有限理解,使我无法摆脱如此模糊的疑问,因此我的保守回应是基本上不理会这些发现。 我的希望是,不仅可以更好地理解探索与侦听/拷打之间的区别,而且更重要的是,更好地掌握检测越界线的原理和技术,将使我能够评估这些发现。这种方法可以合理地解释一个不太理想的分析过程,因此可以超越我目前对笼统怀疑的相当简单的想法。 编辑:谢谢大家非常有趣的评论和答案。从他们的内容来看,我认为我可能还没有很好地解释我的问题。我希望此更新可以澄清问题。 我在这里的问题不是那么重要,我应该怎么做才能避免折磨我的数据(尽管这也是一个令我感兴趣的问题),而是:我应该如何看待(或评估)我通过事实得出的结果这样的“数据折磨”。 在那些(非常罕见)的情况下,情况变得更加有趣,此外,在这些情况下,我还可以发表意见,然后再将其提交发表。 在这一点上,我最多只能说些类似的话:“鉴于我对获得这些假设和程序的了解,我不知道可以对这些发现给予多大的信任。” 这太模糊了,甚至不值得一说。 想要超越这种模糊性是我发帖的动机。 公平地说,我在这里的怀疑不仅仅基于看似有问题的统计方法。实际上,我认为后者更多是由更深层次的问题引起的:结合了对实验设计的勇敢态度以及对公布结果的坚定承诺(即无需任何进一步的实验)。当然,后续项目总是可以预见的,但是毫无疑问的是,不会从“装满100,000个样品的冰箱”中取出一张纸。 统计数据只是实现此最高目标的一种手段。锁定统计数据的唯一理由(在整个场景中是次要的)是,假设“不惜一切代价出版”的正面挑战根本没有意义。 实际上,在这种情况下,我只能想到一种有效的响应:提出一些统计测试(不需要额外的实验)来真正测试分析的质量。但是我只是没有统计数据。我的希望(回想起来很幼稚)是找出我可以研究的东西,使我能够进行此类测试。 在我撰写本文时,我突然意识到,如果不存在这样的数据,世界可以使用一个新的统计子分支,专门用于检测和公开“数据酷刑”的技术。(当然,我并不是说被“酷刑”隐喻迷住了:问题不是本质上的“数据酷刑”,而是它可能导致的虚假“发现”。)



2
负二项式回归的假设是什么?
我正在使用大型数据集(机密信息,所以我不能分享太多),得出的结论是,负二项式回归是必要的。我以前从未做过glm回归,也找不到关于这些假设的任何明确信息。它们对于MLR是否相同? 我可以用相同的方式转换变量吗(我已经发现转换因变量是一个错误的调用,因为它必须是自然数)?我已经确定负二项式分布会有助于数据的过度分散(方差约为2000,平均值为48)。 谢谢您的帮助!!

3
如何确定多分类器的质量
给定 具有实例和类的数据集,其中每个实例恰好属于一个类xixix_iNNNxixix_iyiyiy_i 多类分类器 经过训练和测试之后,我基本上有了一张表,其中包含测试集中每个实例的真实类和预测类。因此,对于每个实例,我都有一个匹配项()或一个未命中()。yiyiy_iaiaia_ixixix_iyi=aiyi=aiy_i= a_iyi≠aiyi≠aiy_i\neq a_i 如何评估比赛的质量?问题是某些类可以具有许多成员,即,许多实例属于该类。显然,如果所有数据点的50%属于一个类,而我的最终分类器总体上是正确的50%,那么我什么也得不到。我也可以做一个琐碎的分类器,无论输入什么,它都能输出最大的分类。 是否有一种标准方法根据每个类的匹配和匹配的已知测试集结果来估计分类器的质量?区分每个特定类别的匹配率也许甚至很重要? 我能想到的最简单的方法是排除最大类的正确匹配。还有什么?

4
如何在R中使用PCA进行降维
我有一个大数据集,我想执行降维。 现在到处都有我可以使用PCA的信息。但是,在计算/执行PCA之后,我似乎仍然无所适从。在R中,可以通过命令轻松完成princomp。 但是计算完PCA后该怎么办?如果我决定要使用前主要成分,如何精确减少数据集?100100100
30 r  pca 

4
解析字符串的机器学习技术?
我有很多地址字符串: 1600 Pennsylvania Ave, Washington, DC 20500 USA 我想将它们解析为它们的组成部分: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA 但是当然,数据是肮脏的:它来自许多国家,以多种语言编写,以不同的方式编写,包含拼写错误,丢失的片段,多余的垃圾等。 现在,我们的方法是将规则与模糊地名词典匹配结合使用,但是我们想探索机器学习技术。我们已将训练数据标记为监督学习。问题是,这是什么样的机器学习问题?它似乎并不是真正的聚类,分类或回归...。 我能想到的最接近的方法是对每个标记进行分类,但是您真的想同时对它们进行分类,以满足诸如“最多应有一个国家”的约束。确实有很多方法可以对字符串进行标记化,并且您想尝试每个字符串并选择最佳字符串。 那么:我可以探索哪些机器学习技术来解析地址?

3
对同行评审开放源期刊的建议?
我有一个用于测试均值假设的自举方法的手稿,我想将其发送以供发表,但我有一个道德困境。我已经签署了抗议Elsevier的不道德商业行为的抗议书,并且阅读了整个问题确实使我质疑其他营利性学术期刊的道德。因此,我想在非营利性期刊(最好是开源期刊)上发表文章,即使我了解,就声望而言,这类期刊尚未与较成熟的期刊相提并论。幸运的是,由于我已经任职,所以这对我来说不是一个大考虑。 我将不胜感激任何建议。

3
如何严格定义可能性?
可能性可以通过几种方式定义,例如: 功能LLL从Θ×XΘ×X\Theta\times{\cal X}其中映射(θ,x)(θ,x)(\theta,x)到L(θ∣x)L(θ∣x)L(\theta \mid x)即L:Θ×X→RL:Θ×X→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} 。 随机函数L(⋅∣X)L(⋅∣X)L(\cdot \mid X) 我们也可以认为,可能是只有“观察”的可能性L(⋅∣xobs)L(⋅∣xobs)L(\cdot \mid x^{\text{obs}}) 在实践中,似然性仅将关于信息θθ\theta带到一个乘性常数,因此我们可以将似然性视为函数的等价类,而不是函数 考虑参数化的变化时,会发生另一个问题是:如果ϕ=θ2ϕ=θ2\phi=\theta^2是新的参数,我们通常表示由L(ϕ∣x)L(ϕ∣x)L(\phi \mid x)上的可能性ϕϕ\phi和这不是先前的功能的评价L(⋅∣x)L(⋅∣x)L(\cdot \mid x)在θ2θ2\theta^2但在ϕ−−√ϕ\sqrt{\phi}。这是一种滥用但有用的表示法,如果不加以强调,可能会给初学者造成困难。 您最喜欢的可能性的严格定义是什么? 另外你怎么骂L(θ∣x)L(θ∣x)L(\theta \mid x)?我通常会说“ 观察x时的可能性”之类的话。θθ\thetaxxx 编辑:鉴于下面的一些评论,我意识到我应该弄清楚上下文。我考虑一个参数的家庭给一个统计模型{f(⋅∣θ),θ∈Θ}{f(⋅∣θ),θ∈Θ}\{f(\cdot \mid \theta), \theta \in \Theta\}密度相对于一些占主导地位的措施,每个f(⋅∣θ)f(⋅∣θ)f(\cdot \mid \theta)对观测的空间定义XX{\cal X}。因此我们定义L(θ∣x)=f(x∣θ)L(θ∣x)=f(x∣θ)L(\theta \mid x)=f(x \mid \theta),问题是“什么是LLL ?”(问题不是关于可能性的一般定义)

1
GAM中的张量积交互作用的直觉(R中的MGCV程序包)
广义加性模型是例如 的模型。功能是平稳的,并且需要估计。通常用花键惩罚。MGCV是R中的一个软件包,作者(Simon Wood)用R实例写了一本关于他的软件包的书。Ruppert等。(2003年)写了一本关于同一事物的简单版本的更易读的书。 y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i 我的问题是关于这些模型之间的交互。如果我想执行以下操作: 如果我们在OLS地(只是一个beta) ,解释不会有问题。如果我们通过罚样条进行估计,那么在加法上下文中的解释也没有问题。 y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ˚F 3ffff^3f^3\hat{f}_3 但是GAM中的MGCV软件包具有这些称为“张量积平滑”的东西。我用Google搜索“张量积”,然后立即注视着试图阅读我所发现的解释。我不够聪明,或者数学解释得不好,或者两者兼而有之。 代替编码 normal = gam(y~s(x1)+s(x2)+s(x1*x2)) 张量积将通过 what = gam(y~te(x1,x2)) 当我做 plot(what) 要么 vis.gam(what) 我得到一些非常酷的输出。但是我不知道黑匣子内部发生了什么te(),也不知道如何解释上述很酷的输出。就在前一天晚上,我做了一场噩梦,正在开会。我给大家看了一个很酷的图表,他们问我这是什么意思,我不知道。然后我发现我没有衣服。 任何人都可以通过一些机械和直觉来帮助我和后代,以了解这里引擎盖下面的情况吗?理想情况下,要说说正常的加性相互作用情况与张量情况之间的区别?在继续学习数学之前,用简单的英语说所有东西的好处是。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.