Questions tagged «markov-process»

在给定当前的情况下,具有以下条件的随机过程:未来有条件地独立于过去。

2
评估一阶马尔可夫链的聚类
我将数千个一阶马尔可夫链的数据集聚为大约10个聚类。 有什么推荐的方法可以评估这些集群,并找出集群中的项目共享以及它们与其他集群有何不同?因此,我可以这样说:“集群A中的进程一旦到达状态,往往会保持在状态Y,而其他集群中的进程则不是如此。” 这些马尔可夫链的过渡矩阵太大,以至于无法“看得见”。如果可以的话,它们相对稀疏。 我的想法是将所有过渡矩阵汇总为一个簇,对其求和并将其绘制为图片中的强度(从0到255的比例)。还有什么我应该尝试的“专业”吗?

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
给定连续M次,预期抛硬币的次数将连续N次
1月,Interviewstreet进行了第二次CodeSprint,其中包括以下问题。程序化答案已发布,但不包含统计解释。 (您可以使用Google信用登录到Interviewstreet网站,然后从此页面转到Coin Tosses问题,以查看原始问题和已发布的解决方案。) 投币 您有一个不偏不倚的硬币,您想要一直扔下去,直到获得N个连续的正面。您已经抛硬币了M次,令人惊讶的是,所有抛硬币都导致了正面的损失。 在您连续获得N个脑袋之前,需要进行的额外抛球次数是多少? 输入: 第一行包含个案T的数量。接下来的T行每一行包含两个数字N和M。 输出: 输出T行,其中包含相应测试用例的答案。打印答案,精确到小数点后两位。 样本输入: 4 2 0 2 1 3 3 3 2 样本输出: 6.00 4.00 0.00 8.00 示例说明: 如果N = 2且M = 0,则需要不断掷硬币,直到连续获得2个头。不难证明平均需要掷6枚硬币。 如果N = 2且M = 1,则需要连续2个头,并且已经有1个头。无论如何,都需要再次抛掷。在第一个折腾中,如果您有头脑,那就完成了。否则,您需要重新开始,因为连续计数器会重置,并且您需要不断掷硬币,直到获得N = 2个连续头。因此,预期的抛硬币次数为1 +(0.5 * 0 + 0.5 * 6)= 4.0如果N = 3且M = 3,您已经有3个头,因此您不再需要抛硬币。 …


2
马尔可夫链的中心极限定理
\newcommand{\E}{\mathbb{E}}\newcommand{\P}{\mathbb{P}}中心极限定理(CLT)规定,对于X1个,X2,…X1,X2,…X_1,X_2,\dots独立且分布相同(iid),E [ X一世] = 0E[Xi]=0\E[X_i]=0和Var(X一世)&lt; ∞Var⁡(Xi)&lt;∞\operatorname{ Var} (X_i)<\infty,总和收敛为n \ to \ infty的正态分布n → ∞n→∞n\to\infty: ∑我= 1ñX一世→ N( 0 ,n--√)。∑i=1nXi→N(0,n). \sum_{i=1}^n X_i \to N\left(0, \sqrt{n}\right). 取而代之的是,假设X_1,X_2,\点X1个,X2,…X1,X2,…X_1,X_2,\dots形成具有期望值为0和有界方差的固定分布\ P_ \ infty的有限状态马尔可夫链P∞P∞\P_\infty。对于这种情况,是否有CLT的简单扩展? 我在CLT上找到的关于马尔可夫链的论文通常会处理更一般的情况。我将非常感谢您提供有关总体结果的说明以及如何应用的解释。

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(&gt;|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
具有条件转移概率的马尔可夫模型
首先,让我预先承认,我对统计和数学的了解不如我所希望的那样。有人可能会说只有足够的知识才有危险。:DI抱歉,如果我没有正确使用术语。 我正在尝试对系统从一种状态转换为另一种状态的概率进行建模。一个简单的马尔可夫模型是一个好的开始。(状态集,初始状态概率集,状态之间的转移概率集。) 但是,我正在建模的系统要复杂得多。导致在时间T进入状态的转移概率最有可能取决于除T-1处的状态以外的变量。例如,当阳光明媚时,S1-&gt; S2的转换概率可能为40%,但是在下雨时,S1-&gt; S2的转换概率为80%。 评论者问题的其他信息: 状态是可观察的。 只有5-10个州。 尽管最终模型肯定会少于这个,但目前我们大约要研究30个协变量。 一些协变量是连续的,其他是离散的。 三个问题: 如何将条件转移概率纳入我的马尔可夫模型中? 或者,是否有我应该完全从另一个角度来解决这个问题? 另外,我应该在线搜索哪些关键字/概念以了解更多信息? 我已经在网上搜索“带有条件转移概率的马尔可夫模型”之类的东西,但是到目前为止,没有任何东西让我打耳光,说:“这是你的答案,假人!” 感谢您的帮助和耐心等待。

2
非平稳环境中的强化学习
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 13天前关闭。 问题1:一般而言,强化学习中是否有处理非固定环境的通用或公认方法? Q2:在我的网格世界中,当访问状态时,奖励功能会发生变化。每集奖励都会重置为初始状态。我希望我的代理学习的唯一内容是“除非真正需要,否则请不要回去”,但这会使环境不稳定。可以/应该将此非常简单的规则合并到MDP模型中吗?Q学习是解决此问题的最佳解决方案吗?有什么建议或可用的例子吗? Q3:我一直在研究具有经验重播的Q学习,作为应对非固定环境的解决方案,因为它可以消除连续更新的相关性。这是该方法的正确使用,还是更多地用于提高学习效率的方法?而且我只看到它与值近似一起使用。我不确定将其用于简单的离散状态空间(例如gridworld)是否过大,或者有其他原因。 即使您无法解决所有问题,也请随时回答或发表评论。


2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult &lt;- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn &lt;- function(data, indices){ data &lt;- data[indices, ] mod &lt;- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out &lt;- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

4
蠕虫和苹果期望值
一个苹果位于五边形顶点处,一个蠕虫位于相距两个顶点C处。每天,蠕虫以相等的概率爬行到两个相邻顶点之一。因此,一天后,蠕虫位于顶点B或D处,每个顶点的概率为1/2。两天后,该蠕虫可能会再次回到C位置,因为它没有存储以前的位置。当到达顶点A时,它停止进餐。AAAABCDEABCDEABCDECCCBBBDDD1/21/21/2CCCAAA (a)直到晚餐的天数是多少? (b)令p为天数等于或大于的概率。马尔可夫不等式对什么看法?100100100ppp 对于(a),令为随机变量,由直到晚餐的天数定义。因此XXXP(X=0)=0P(X=1)=0P(X=2)=1(52)⋮P(X=0)=0P(X=1)=0P(X=2)=1(52)⋮ P(X = 0) = 0 \\ P(X=1) = 0 \\ P(X=2) = \frac{1}{\binom{5}{2}} \\ \vdots 一般分布是什么? 对于(b),如果我们知道(a),则我们知道P(X≥100)≤E(X)100P(X≥100)≤E(X)100P(X \geq 100) \leq \frac{E(X)}{100}
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.