统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

4
从线性,指数和对数函数中确定最佳拟合曲线拟合函数
内容: 在有关数学堆栈交换的问题(我可以构建一个程序)上,某人有一组点,并希望为其拟合曲线(线性,指数或对数)。通常的方法是从选择其中一种(指定模型)开始,然后进行统计计算。x − yX-ÿx-y 但是真正需要的是从线性,指数或对数中找到“最佳”曲线。 表面上,一个人可以尝试所有三个,然后根据最佳相关系数选择三个中的最佳拟合曲线。 但是不知何故,我觉得这还不够洁。通常公认的方法是先选择模型,然后选择这三个模型之一(或其他链接函数),然后从数据中计算系数。事实上,事后采摘是樱桃采摘。但是对我而言,无论您是从数据确定函数还是系数,这仍然是同一回事,您的过程正在发现最好的东西(例如,发现哪个函数也是另一个系数)。 问题: 根据拟合统计量的比较,从线性,指数和对数模型中选择最佳拟合模型是否合适? 如果是这样,最合适的方法是什么? 如果回归有助于在函数中找到参数(系数),为什么不能有一个离散的参数来选择三个最佳曲线系列中的哪一个呢?

8
R的联合软件包
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 您能为R建议一个易于使用或全面的联合分析软件包吗?

1
在R中绘制迷你图
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我想使用R来绘制这样的内容: 跟踪坐标,宽度,高度等似乎是可能的,但是非常复杂。从直觉上看,最好将每个像元视为一个新图并转换每个像元的坐标。有没有办法在R中做到这一点? 谢谢!

3
适用于必须学习SAS的R用户的资源
我每天都用R。我认为在data.frames,apply()系列函数,面向对象的编程,矢量化和ggplot2 geoms /美学上。我刚刚开始为主要使用SAS的组织工作。我知道有一本关于为SAS用户学习R的书,但是对于从未使用过SAS的R用户有哪些好的资源?
18 r  sas 

3
获得线性模型中预测极限的公式(即预测间隔)
让我们来看下面的例子: set.seed(342) x1 <- runif(100) x2 <- runif(100) y <- x1+x2 + 2*x1*x2 + rnorm(100) fit <- lm(y~x1*x2) 这将使用OLS回归基于x1和x2创建y模型。如果我们希望针对给定的x_vec预测y,则可以简单地使用从中获得的公式summary(fit)。 但是,如果我们要预测y的上下预测怎么办?(对于给定的置信度)。 那我们将如何建立公式?

2
数据库的质量保证和质量控制(QA / QC)准则
背景 我正在监督从原始文献到数据库的数据输入。数据输入过程容易出错,尤其是因为用户必须解释实验设计,从图形和表格中提取数据并将结果转换为标准化单位。 数据通过Web界面输入到MySQL数据库中。到目前为止,已包含来自> 20个变量,> 100个物种和> 500个引用的超过10,000个数据点。我不仅要检查变量数据的质量,还要检查查询表中包含的数据的质量,例如与每个数据点相关的种类,研究位置等。 数据输入正在进行中,因此QA / QC将需要间歇运行。数据尚未公开发布,但我们计划在未来几个月内发布。 目前,我的质量检查/质量控制涉及三个步骤: 第二个用户检查每个数据点。 直观检查直方图每个变量的异常值。 用户获得虚假结果后报告可疑数据。 问题 是否有可用于为该数据库开发健壮的QA / QC程序的指南? 第一步是最耗时的;有什么我可以做的以提高效率吗?

5
这个与独立性有关的数量有名字吗?
显然,事件A和B是独立的,如果Pr Pr = Pr Pr。让我们定义一个相关的数量Q:(甲)(乙)(A∩B)(A∩B)(A\cap B)(A)(A)(A)(B)(B)(B) Q≡Pr(A∩B)Pr(A)Pr(B)Q≡Pr(A∩B)Pr(A)Pr(B)Q\equiv\frac{\mathrm{Pr}(A\cap B)}{\mathrm{Pr}(A)\mathrm{Pr}(B)} 因此,如果Q = 1(假设分母为非零),则A和B是独立的。Q实际上有名字吗?我觉得它指的是一些基本概念,这些概念现在正在逃避我,即使问这个问题,我也会感到很傻。

3
线性混合模型的陷阱
使用线性混合效应模型的主要陷阱是什么?在评估模型的适当性时,需要测试/注意的最重要的事情是什么?比较同一数据集的模型时,要寻找的最重要内容是什么?

4
均值和中值属性
有人可以向我解释清楚将两个陈述(a)和(b)链接在一起的数学逻辑吗?让我们有一组值(一些分布)。现在, a)中位数不取决于每个值[它仅取决于一个或两个中间值];b)中位数是从中得出的最小绝对偏差之和的轨迹。 与此相反, a)(算术)均值取决于每个值;b)均值是与之最小平方和偏差的轨迹。 到目前为止,我对它的理解是直观的。

3
评估正态分布的确定间隔
我知道正态分布的CDF缺少易于处理的公式,这是因为其中包含复杂的误差函数。 但是,我想知道是否有一个不错的公式。或针对此问题的“最新技术”近似值是什么。N(c−≤x&lt;c+|μ,σ2)N(c−≤x&lt;c+|μ,σ2)N(c_{-} \leq x < c_{+}| \mu, \sigma^2)


4
我可以简单地删除两个高度线性相关的预测变量之一吗?
使用Pearson的相关系数,我有几个高度相关的变量(模型中2对变量的和)。ρ = 0.978ρ=0.978\rho = 0.978ρ = 0.989ρ=0.989\rho = 0.989 的原因的一些变量是高度相关的,因为是一个变量的使用的计算为另一个变量。 例: B = V/ 3000B=V/3000B = V / 3000和 Ë= V* DE=V∗DE = V * D 乙BB和具有ËEEρ = 0.989ρ=0.989\rho = 0.989 我有可能只是“扔掉”其中一个变量吗?

10
社交网络数据集
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我正在寻找分类任务的社交网络数据集(Twitter,FriendFeed,Facebook,Lastfm等),最好是Arff格式。 到目前为止,我通过UCI和Google进行的搜索均未成功……有什么建议吗?

4
删除R图中的边界以实现Tufte轴
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 考虑下图: x &lt;- 1:100 y1 &lt;- rnorm(100) y2 &lt;- rnorm(100)+100 par(mar=c(5,5,5,5)) plot(x,y1,pch=0,type="b",col="red",yaxt="n",ylim=c(-8,2),ylab="") axis(side=2, at=c(-2,0,2)) mtext("red line", side = 2, line=2.5, at=0) par(new=T) plot(x,y2,pch=1,type="b",col="blue",yaxt="n",ylim=c(98,108), ylab="") axis(side=4, at=c(98,100,102), labels=c("98%","100%","102%")) mtext("blue line", side=4, line=2.5, at=100) 如何删除自动生成的边框并仅保留轴线以实现Tufte的样式?

5
关于矩阵分解的基本论文
最近,我读了斯基利康(Skillicorn)的关于矩阵分解的书,因为它针对的是本科生,所以有点失望。我想(对我自己和其他人)汇编关于矩阵分解的基本论文的简短参考书目(调查,也包括突破性论文)。我主要想到的是SVD / PCA(以及健壮/稀疏的变体)和NNMF上的某些东西,因为到目前为止它们是最常用的。你们都有什么建议/建议吗?我让我不要偏bias答案。我想将每个答案限制为2-3篇论文。 PS:我将这两个分解称为数据分析中最常用的。当然,QR,Cholesky,LU和Polar在数值分析中非常重要。这不是我的问题的重点。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.