Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。


3
如何从非常大的数据集中快速选择重要变量?
我有一个约有2,000个二进制变量/ 200,000行的数据集,我正在尝试预测一个二进制因变量。在此阶段,我的主要目标不是提高预测的准确性,而是确定其中哪些变量是重要的预测因子。我想将最终模型中的变量数减少到100个左右。 是否有相对快速的方法来获取最重要的变量?randomForest似乎要花费很长时间。 我不必全部使用200,000个观察值,因此采样是表上的一个选项。

6
按时间序列测试稳定性
给定时间序列稳定后,是否有标准(或最佳)测试方法? 一些动机 我有一个随机动态系统,在每个时间步中输出一个值。该系统具有一定的瞬态行为,直到时间步长为止,然后稳定在某个平均值并带有一些误差。没有,,或错误都在我的面前。我愿意做一些假设(例如围绕高斯误差)XŤxtx_tt∈Nt∈Nt \in \mathbb{N}t∗t∗t^*x∗x∗x^*t∗t∗t^*x∗x∗x^*x∗x∗x^*例如),但我需要的先验假设越少越好。我唯一可以肯定的是,系统只会收敛到一个稳定点,并且稳定点周围的波动要比瞬变期间的波动小得多。这个过程也是单调的,我可以假设在附近开始并朝着爬升(在稳定在之前可能会有点过冲)。x0x0x_0000x∗x∗x^*x∗x∗x^* 该数据将从模拟来来了,我需要的稳定性试验,作为我的模拟静止状态(因为我只在过渡周期内感兴趣)。xtxtx_t 精确的问题 如果仅访问某个有限的时间值,那么是否有一种方法可以以合理的精度说出随机动态系统已经稳定在某个点?如果测试还返回,和附近的错误,则奖励点。但是,这不是必需的,因为有简单的方法可以在仿真完成后弄清楚这一点。x0...xTx0...xTx_0 ... x_TTTTx∗x∗x^*x∗x∗x^*t∗t∗t^*x∗x∗x^* 天真的方法 首先浮现在脑海中的幼稚方法(例如,我曾将其用作某些神经网络的获胜条件)是选择参数和,那么如果在最后的时间步长中没有和两点使得然后我们得出结论,我们已经稳定下来。这种方法很简单,但并不十分严格。这也迫使我猜测和应该是什么好值。TTTEEETTTxxxx′x′x'x′−x>Ex′−x>Ex' - x > ETTTEEE 似乎应该有一种更好的方法来回顾过去的某些步骤(或以某种方式对旧数据进行折价),从该数据中计算标准误差,然后测试是否需要其他步骤(或其他步骤)折扣方案)时间序列未超出此误差范围。我提供了一个稍微不太天真但仍然很简单的策略作为答案。 任何帮助,或对标准技术的引用,不胜感激。 笔记 我还将这个问题按原样交叉发布到MetaOptimize上,并在更具有仿真风格的计算科学中进行了描述。

1
最小角度回归使相关性单调递减并受束缚?
我正在尝试解决最小角度回归(LAR)问题。这是一个问题3.23页面上97的黑斯蒂等,统计学习的要素,第2位。ed。(第5次打印)。 考虑所有变量和响应均值为零,标准差为1的回归问题。还假设每个变量与响应具有相同的绝对相关性: 1N|⟨xj,y⟩|=λ,j=1,...,p1N|⟨xj,y⟩|=λ,j=1,...,p \frac{1}{N} | \left \langle \bf{x}_j, \bf{y} \right \rangle | = \lambda, j = 1, ..., p 令为上最小二乘系数,并令为。β^β^\hat{\beta}yy\mathbf{y}XX\mathbf{X}u(α)=αXβ^u(α)=αXβ^\mathbf{u}(\alpha)=\alpha \bf{X} \hat{\beta}α∈[0,1]α∈[0,1]\alpha\in[0,1] 要求我显示 ,我对此有疑问。请注意,这基本上可以说,随着我们向前进,每个与残差的相关性在大小上保持相等。1N|⟨xj,y−u(α)⟩|=(1−α)λ,j=1,...,p1N|⟨xj,y−u(α)⟩|=(1−α)λ,j=1,...,p \frac{1}{N} | \left \langle \bf{x}_j, \bf{y}-u(\alpha) \right \rangle | = (1 - \alpha) \lambda, j = 1, ..., p xjxjx_juuu 我也不知道如何显示相关性等于: λ(α)=(1−α)(1−α)2+α(2−α)N⋅RSS√⋅λλ(α)=(1−α)(1−α)2+α(2−α)N⋅RSS⋅λ\lambda(\alpha) = \frac{(1-\alpha)}{\sqrt{(1-\alpha)^2 + \frac{\alpha …

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
学习分层加固任务的结构
我一直在研究层级强化学习问题,尽管许多论文都提出了学习策略的算法,但他们似乎都假设他们事先知道了描述域中动作层次的图结构。例如,迪特里希(Dietterich)的MAXQ分层强化学习方法描述了一个简单的出租车域的动作和子任务图,但没有发现该图。您将如何学习该图的层次结构,而不仅仅是策略? 换句话说,以本文的示例为例,如果一辆出租车在没有先验知识的情况下漫无目的地行驶,并且只有原始的向左移动/向右移动等动作,它将如何学习更高级别的动作,例如去接乘客?如果我正确地理解了本文(可能不是),它会提出如何为这些高级操作更新策略,而不是从一开始就形成这些策略。

2
交叉验证实施是否会影响其结果?
如您所知,交叉验证有两种流行的类型,即K折和随机子采样(如Wikipedia中所述)。尽管如此,我知道有些研究人员正在撰写和发表论文,其中描述为K折的简历确实是随机的二次抽样,因此在实践中,您永远不知道所读文章的真实含义。 通常,差异当然并不明显,因此我的问题也是如此-当一种类型的结果与另一种类型的结果显着不同时,您能想到一个例子吗?

4
计算用于模型拟合/训练和验证的样本数据的比率
提供了我计划用来预测数据的样本量“ N”。有哪些方法可以细分数据,以便我使用其中的一些数据来建立模型,而其余数据可以用来验证模型? 我知道对此没有黑白答案,但是了解一些“经验法则”或通常使用的比率将很有趣。我知道在大学时,我们的一位教授曾经说过要在60%的情况下建模并在40%的情况下进行验证。

1
朴素贝叶斯与递归神经网络(LSTM)之间的区别
我想对文本进行情感分析,浏览了几篇文章,其中一些正在使用“朴素贝叶斯”,另一些是“递归神经网络(LSTM)”,另一方面,我看到了用于情感分析的python库,是nltk。它使用“朴素贝叶斯”(Naive Bayes)谁能解释使用两者的区别? 我也阅读了这篇文章,但对两者都不清楚。 贝叶斯网络,神经网络,决策树和Petri网之间的差异
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.