Questions tagged «pdf»

连续随机变量的概率密度函数(PDF)给出了每个可能值的相对概率。将此标签也用于离散概率质量函数(PMF)。

3
如何正式测试正态分布(或其他分布)中的“断裂”
在社会科学中经常会出现这样的情况:应该以某种方式分布的变量(通常说来)最终在某些点周围的分布不连续。 例如,如果存在特定的临界值,例如“通过/失败”,并且如果这些措施容易出错,那么此时可能会出现中断。 一个突出的例子(以下引用)是学生标准化考试成绩通常基本上分布在所有地方,除了60%的人(50-60%的质量很少)和60-65%的质量过多。这在教师为自己的学生考试评分的情况下发生。作者调查了教师是否真的在帮助学生通过考试。 毫无疑问,最令人信服的证据来自显示钟形曲线图,该钟形图在针对不同测试的不同截止点附近具有较大的不连续性。但是,您将如何进行统计检验?他们尝试了插值法,然后比较了高于或低于该分数的分数,还对了高于或低于该临界值的5个分数进行了t检验。虽然明智,但这些都是临时的。谁能想到更好的办法? 链接: 学生和学校评估中的规则和自由裁量权:以纽约州摄政官考试为例 http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

5
根据经验数据生成随机多元值
我正在使用蒙特卡洛(Monte Carlo)函数对具有部分相关收益的几种资产进行估值。目前,我只是生成协方差矩阵并将其馈送到rmvnorm()R中的函数。(生成相关的随机值。) 但是,从资产收益的分布来看,它不是正态分布的。 这实际上是一个由两部分组成的问题: 1)当我拥有的只是一些真实世界的数据而没有已知分布时,我如何估算某种PDF或CDF? 2)我如何生成相关值(例如rmvnorm),但对于这种未知(非正态)分布呢? 谢谢! 分布似乎不适合任何已知的分布。我认为假设参数然后将其用于蒙特卡洛估计将非常危险。 我是否可以查看某种引导程序或“经验蒙特卡洛”方法?
10 mcmc  monte-carlo  pdf 

2
内核密度估计中的内核带宽
我正在进行一些内核密度估计,并在N维上设置了加权点(即,每个样本的权重都不是必需的)。而且,这些样本只是在度量空间中(即,我们可以定义它们之间的距离),而没有别的。例如,我们无法确定采样点的均值,标准差,也无法确定一个变量与另一个变量的比例。内核仅受此距离以及每个样本的重量的影响: f(x)=1.∑weightsi∗∑weightih∗Kernel(distance(x,xi)h)f(x)=1.∑weightsi∗∑weightih∗Kernel(distance(x,xi)h)f(x) = \frac{1.}{\sum weights_i} * \sum\frac{weight_i}{h} * Kernel(\frac{distance(x,x_i)}{h}) 在这种情况下,我试图为内核带宽找到一个鲁棒的估计,可能在空间上变化,并且最好在训练数据集x i上给出准确的重建。如有必要,我们可以假设函数相对平滑。hhhxixix_i 我尝试使用到第一个或第二个最近邻居的距离,但得出的结果很差。我尝试了留一法最优化,但是在Nd的这种情况下我很难找到一个最佳的方法来进行优化,因此它发现非常差的估计,尤其是对于训练样本本身。由于无法计算标准差,因此无法基于正常假设使用贪婪估计。我发现使用协方差矩阵来获取各向异性内核的引用,但同样,它在该空间中不成立... 有人有想法或参考吗?

3
评估PDF估算方法的最佳方法
我希望检验一些我认为比我所见过的更好的想法。我可能是错的,但我想通过更确定的观察来检验我的想法并消除怀疑。 我一直想做的事情如下: 分析性地定义一组分布。其中一些很简单,例如高斯,统一或高帽。但是其中有些必须是困难且具有挑战性的,例如Simpsons发行。 根据这些分析分布实施软件,并使用它们生成一些样本。 由于这些分布是经过分析定义的,因此,按照定义,我已经知道它们的真实PDF。这很棒。 然后,我将针对以上示例测试以下PDF估计方法: 现有的PDF估计方法(例如具有各种内核和带宽的KDE)。 我认为值得尝试的我自己的想法。 然后,我将根据真实的PDF测量估计的误差。 然后,我将更好地了解哪种PDF估计方法是好的。 我的问题是: Q1:我上面的计划有什么改进吗? Q2:我发现很难解析地定义许多真实的PDF。是否已经有了许多分析定义的真实PDF的完整列表,这些PDF在各种困难(包括非常困难的困难)下都可以在这里重用?

2
物流增长数据的误差分布是什么?
在生态学中,我们经常使用逻辑增长方程: ñŤ=ķñ0Ë[R Ťķ+ñ0Ër t − 1Nt=KN0ertK+N0ert−1 N_t = \frac{ K N_0 e^{rt} }{K + N_0 e^{rt-1}} 要么 ñŤ=ķñ0ñ0+ (K-ñ0)Ë- - [R ŤNt=KN0N0+(K−N0)e−rt N_t = \frac{ K N_0}{N_0 + (K -N_0)e^{-rt}} 其中是承载能力(达到最大密度),是初始密度,是增长率,是从初始开始的时间。ķKKñ0N0N_0[RrrŤtt 的值具有一个的上限和一个下限,下限为。ñŤNtN_t(K)(K)(K)(ñ0)(N0)(N_0)000 此外,在我的特定上下文中,使用光密度或荧光进行测量,这两者均具有理论最大值,因此具有很强的上限。ñŤNtN_t 因此,围绕的误差最好用有界分布来描述。ñŤNtN_t 在值,该分布可能具有很强的正偏度,而在值接近K时,该分布可能具有很强的负偏度。因此,该分布可能具有可以链接到的形状参数。ñŤNtN_tñŤNtN_tñŤNtN_t 方差也可以随着增加。ñŤNtN_t 这是一个图形示例 与 K<-0.8 r<-1 N0<-0.01 t<-1:10 max<-1 可以用 library(devtools) source_url("https://raw.github.com/edielivon/Useful-R-functions/master/Growth%20curves/example%20plot.R") 考虑到模型和提供的经验信息,围绕的理论误差分布是?ñŤNtN_t 此分布的参数与或时间值关系(如果使用参数,则该模式不能与直接关联,例如logis正态)?ñŤNtN_tñŤNtN_t 这个分布是否具有在实现的密度函数?[RRR 到目前为止探索的方向: …
10 r  distributions  pdf  ecology 

2
两个rv差异的统一PDF
是否有可能使两个iid rv的差异的PDF看起来像一个矩形(而不是说,如果rv取自均匀分布,则得到的三角形)。 也就是说,对于所有-1 <x <1,jk的PDF f(对于从某个分布中提取的两个iid rv)是否有f(x)= 0.5? 除j和k的分布没有限制外,最小值为-1且最大值为1。 经过一些试验,我认为这可能是不可能的。

2
将随机变量插入自己的pdf或cdf背后的直观含义是什么?
pdf通常写为,其中小写字母被视为具有该pdf 的随机变量的实现或结果。类似地,cdf被写为,其含义为。但是,在某些情况下,例如评分函数的定义以及cdf是均匀分布的推导,似乎随机变量插入了它自己的pdf / cdf中。这样,我们得到一个新的随机变量或x X F X(x )P (X &lt; x )X Y = f (X | θ )Z = F X(X )F X(X )= P (X &lt; X )F(x | θ )f(x|θ)f(x|\theta)XxxXXXFX(x )FX(x)F_X(x)P(X&lt; x )P(X&lt;x)P(X<x)XXX ÿ= f(X| θ)Y=f(X|θ)Y=f(X|\theta)ž= FX(X)Z=FX(X)Z=F_X(X)。我不认为我们可以再称它为pdf或cdf,因为它现在本身就是一个随机变量,在后一种情况下,“解释”对我来说似乎是胡说八道。FX(X)= P(X&lt; X)FX(X)=P(X&lt;X)F_X(X)=P(X<X) 此外,在上述后一种情况下,我不确定我是否理解“随机变量的cdf遵循均匀分布”的说法。cdf是函数,不是随机变量,因此没有分布。相反,具有均匀分布的是使用代表其自己的cdf的函数转换的随机变量,但是我不明白为什么这种转换有意义。评分函数也是如此,在评分函数中,我们将一个随机变量插入表示其自己的对数似然性的函数中。 数周以来,我一直在拼搏,试图在这些转变背后找到一种直观的含义,但我被困住了。任何见识将不胜感激!

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.