统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
贝叶斯生存分析:请给我写一份Kaplan Meier的事前书!
考虑右审查意见,与事件在时间。在时间i处易感个体的数量为n i,在时间i处事件的数量为d i。t1,t2,…t1,t2,…t_1, t_2, \dotsiiininin_iiiididid_i 的卡普兰-迈耶或产品估计自然的用MLE当生存函数是一个阶跃函数。的可能性然后 大号(α )= Π我(1 - α 我)d 我 α Ñ 我 - d 我我 和MLE是α我 = 1 - d 我S(t)=∏i:ti&lt;tαiS(t)=∏i:ti&lt;tαiS(t) = \prod_{i : t_i < t} \alpha_iL(α)=∏i(1−αi)diαni−diiL(α)=∏i(1−αi)diαini−di L(\alpha) = \prod_i (1-\alpha_i)^{d_i} \alpha_i^{n_i-d_i} 。αˆi=1−diniα^i=1−dini\widehat\alpha_i = 1 - {d_i\over n_i} 好的,现在假设我想去贝叶斯算法。我需要先乘某种``自然'' 对吧?L(α)L(α)L(\alpha) 搜寻明显的关键字后,我发现Dirichlet流程是一个很好的先决条件。但是据我了解,它也是不连续点上的先验。titit_i 这当然很有趣,我很想学习,但是我会选择更简单的方法。我开始怀疑这并不像我最初想象的那么容易,是时候征求您的建议了... 提前谢谢了! PS:什么我希望一些精密我感兴趣的(越简单越好)约前处理Dirichlet过程的方式解释,不过我想应该是可以使用简单地事先对 -这是阶跃函数在t …

2
如何得出线性回归系数的标准误差
对于 给定数据集单变量线性回归模型 ,系数估计为 根据book和Wikipedia,的标准错误是 和原因? d = { (X 1,ÿ 1),。。。,(X Ñ,ÿ Ñ)} β 1 = Σ 我X 我ÿ 我 - ñ ˉ X ˉ ÿÿ一世= β0+ β1个X一世+ ϵ一世ÿ一世=β0+β1个X一世+ϵ一世y_i = \beta_0 + \beta_1x_i+\epsilon_iD = { (x1个,ÿ1个),。。。,(xñ,ÿñ)}d={(X1个,ÿ1个),。。。,(Xñ,ÿñ)}D=\{(x_1,y_1),...,(x_n,y_n)\}β^1个= ∑一世X一世ÿ一世− n x¯ÿ¯ñ X¯2− ∑一世X2一世β^1个=∑一世X一世ÿ一世-ñX¯ÿ¯ñX¯2-∑一世X一世2\hat\beta_1=\frac{\sum_ix_iy_i-n\bar x\bar y}{n\bar x^2-\sum_ix_i^2} β^0= y¯- β^1个X¯β^0=ÿ¯-β^1个X¯\hat\beta_0=\bar y - \hat\beta_1\bar …

2
将多元线性模型转换为多元回归
将多元线性回归模型重铸为多元线性回归是否完全等效?我指的不是简单地运行单独的回归。ttt 我已经在几个地方(贝叶斯数据分析-Gelman等人,以及Multivariate Old School-Marden)中读到了这一点,可以很容易地将多元线性模型重新参数化为多元回归。但是,两个消息来源都没有对此进行详细说明。他们本质上只是提到它,然后继续使用多元模型。数学上,我将首先编写多元版本, Yn×t=Xn×kBk×t+Rn×t,Yn×t=Xn×kBk×t+Rn×t, \underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}}, 其中粗体变量是矩阵,其大小在其下方。和往常一样,是数据,是设计矩阵,是正态分布的残差,而是我们感兴趣的推理对象。X R BYY\mathbf{Y}XX\mathbf{X}RR\mathbf{R}BB\mathbf{B} 要将其重新参数化为熟悉的多元线性回归,只需将变量重写为: ynt×1=Dnt×nkβnk×1+rnt×1,ynt×1=Dnt×nkβnk×1+rnt×1, \underset{nt \times 1}{\mathbf{y}} = \underset{nt \times nk}{\mathbf{D}} \hspace{2mm} \underset{nk \times 1}{\boldsymbol{\beta}} + \underset{nt \times 1}{\mathbf{r}}, 其中使用的重新参数化为y=row(Y)y=row(Y)\mathbf{y} = row(\mathbf{Y}) ,β=row(B)β=row(B)\boldsymbol\beta = row(\mathbf{B})和D=X⊗InD=X⊗In\mathbf{D} = \mathbf{X} \otimes \mathbf{I}_{n}。 row()row()row()表示矩阵的行首尾相连排列成一个长向量,⊗⊗\otimes是kronecker或外部乘积。 …

1
可以包含相互作用的双向方差分析的非参数等价情况是什么?
嗨,我正在尝试找到一种双向ANOVA(3x4设计)的非参数等效项,它能够包含交互作用。从我在Zar 1984年的“生物统计学分析”中的阅读可以使用Scheirer,Ray和Hare(1976)中提出的方法来实现,但是,据在线其他帖子推断,该方法不再适用(如果有的话)是)。 有谁知道哪种方法适合这样做,如果是,那么R或Stata中的相应功能是否合适?

3
机器学习预测班级概率
我正在寻找可输出示例属于两个类之一的概率的分类器。 我知道逻辑回归和朴素的贝叶斯,但是您能告诉我其他类似的工作方式吗?也就是说,分类器不是预测示例所属的类,而是预测示例适合特定类的概率吗? 您可以分享关于这些不同分类器(包括逻辑回归和朴素贝叶斯)的优缺点的任何想法的加分。例如,对于多类别分类是否有更好的选择?


4
计算序数变量的平均值
我在很多地方都读过,计算序数变量的平均值是不合适的。我正在尝试了解为什么可能不合适。我认为这是因为一般而言,序数变量不是正态分布的,因此计算均值将给出不正确的表示形式。有人可以给出更详细的理由来说明为什么计算序数变量的平均值可能不合适吗?

12
负偏度分布的真实示例
受到“ 常见分布的真实示例 ”的启发,我想知道人们使用哪些教学示例来显示负偏度?教学中使用了许多对称或正态分布的“规范”示例-即使身高和体重这样的分布无法通过更严格的生物学检查而幸免!血压可能接近正常。我喜欢天文学的测量误差-具有历史意义,从直觉上讲,它们不太可能朝一个方向倾斜,而小的误差比大的误差更大。 关于正偏度的常见教学示例包括人们的收入。待售二手车的里程;心理学实验中的反应时间;房价 保险客户的事故索赔数量;一个家庭中孩子的数量。它们的物理合理性通常源于低于(通常为零)的界限,低值是合理的,甚至很常见,但众所周知,却会出现很大的值(有时高出几个数量级)。 对于负偏斜,我发现很难给出年轻观众(高中生)可以直观理解的清晰生动的示例,这也许是因为较少的现实生活分布具有明确的上限。我在学校教的一个不好的例子是“手指数”。大多数人有十个人,但有些人在一次事故中丧生一个或多个。结果是“ 99%的人的手指数高于平均数”!多义性使问题复杂化,因为十不是严格的上限。由于缺少手指和多余手指都是罕见的事件,因此对于学生可能尚不清楚哪个影响占主导地位。 我通常使用高的二项式分布。但是,学生通常会发现“一批中令人满意的组件数量出现负偏斜”不如“一批中的故障组件数量呈正偏斜”这一补充事实那么直观。(这本教科书是工业主题的;我更喜欢在十二个盒子中装满裂纹和完整的鸡蛋。)也许学生觉得“成功”应该很少见。ppp 另一个选择是指出,如果呈正偏,则呈负偏,但将其置于实际情况下(“负房价呈负偏”)似乎注定会导致教学上的失败。虽然教数据转换的效果是有好处的,但首先给出一个具体的例子似乎是明智的。我更喜欢一个似乎不是人为的,负偏斜非常明确,并且学生的生活经历应该使他们意识到分布形状的人。− XXXX−X-X-X

3
RMSE的置信区间
我从总体中抽取了数据点的样本。这些点中的每一个都有一个真实值(从基本事实中获知)和一个估计值。然后,我计算每个采样点的误差,然后计算样本的均方根误差。ññn 然后,如何根据样本大小推断此RMSE的某种置信区间?ññn 如果我使用均值而不是RMSE,那么我这样做就不会有问题,因为我可以使用标准方程式 m = Zσñ√米=žσñ m = \frac{Z \sigma}{\sqrt{n}} 但我不知道这对RMSE是否有效,而不是平均值。有什么办法可以使我适应吗? (我已经看到了这个问题,但是我的人口是否分布正常没有问题,这就是那里的答案)


8
统计不是数学吗?
统计是数学吗? 鉴于所有数字都是由数学系教授的,并且您获得了数学学分,我想知道人们说这些数字时只是半开玩笑,比如说这只是数学的一小部分,还是只是应用数学。 我想知道像统计之类的不能在基本公理上构建所有内容的东西是否可以算作数学。例如,值是为了理解数据而出现的概念,但这不是更基本的原理的逻辑结果。ppp


2
如何在多标签分类器上使用scikit-learn的交叉验证功能
我正在一个5个类的数据集上测试不同的分类器,每个实例可以属于一个或多个这些类,因此我正在使用scikit-learn的多标签分类器sklearn.multiclass.OneVsRestClassifier。现在,我想使用进行交叉验证sklearn.cross_validation.StratifiedKFold。这将产生以下错误: Traceback (most recent call last): File "mlfromcsv.py", line 93, in &lt;module&gt; main() File "mlfromcsv.py", line 77, in main test_classifier_multilabel(svm.LinearSVC(), X, Y, 'Linear Support Vector Machine') File "mlfromcsv.py", line 44, in test_classifier_multilabel scores = cross_validation.cross_val_score(clf_ml, X, Y_list, cv=cv, score_func=metrics.precision_recall_fscore_support, n_jobs=jobs) File "/usr/lib/pymodules/python2.7/sklearn/cross_validation.py", line 1046, in cross_val_score X, y = check_arrays(X, …


2
什么是循环强化学习
最近,我遇到了“循环强化学习”这个词。我了解什么是“递归神经网络”和什么是“强化学习”,但是找不到有关“递归强化学习”的更多信息。 有人可以向我解释什么是“循环强化学习”,以及“循环强化学习”和常规的“强化学习”(如Q学习算法)之间的区别。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.