Questions tagged «classification»

统计分类是基于包含已知子种群的观测数据的训练数据集来确定新观测值所属的子种群的问题,其中子种群的身份未知。因此,这些分类将显示可变的行为,可以通过统计研究。

1
复制“统计学习要素”中的表18.1
统计学习元素中的表18.1 总结了14个类别数据集上几个分类器的性能。我正在将套索和弹性网的新算法与此类多类分类问题进行比较。 使用glmnet版本1.5.3(R 2.13.0),我无法复制表中的点7(惩罚的多项式),其中报告使用的基因数量为269,测试错误为13 54。使用的数据是此14癌症微阵列数据集。无论我如何尝试,我都会在170-180个基因附近使用性能最佳的模型,其54个测试错误中的16个。大号1个大号1个L_1 注意,在654页的18.3节的开头,描述了数据的一些预处理。 我已经联系了作者-到目前为止没有任何回复-请问是否有人可以确认复制表格是否存在问题或提供有关如何复制表格的解决方案。

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

3
受限制的玻尔兹曼机回归?
我正在跟我先前在RBM上提出的问题进行跟进。我看到很多描述它们的文献,但是没有一篇真正地谈到回归(甚至没有带有标记数据的分类)。我感觉它仅用于未标记的数据。是否有处理回归的资源?还是像在隐藏层之上添加另一层并上下运行CD算法那样简单?在此先感谢。

2
Logistic回归何时合适?
我目前正在自学如何进行分类,特别是正在研究三种方法:支持向量机,神经网络和逻辑回归。我想了解的是为什么逻辑回归会比其他两个更好。 根据我对逻辑回归的理解,这个想法是使逻辑函数适合整个数据。因此,如果我的数据是二进制的,则我所有带有标签0的数据都应映射到值0(或接近它),而我所有带有值1的数据都应映射到值1(或接近它)。现在,由于逻辑函数是连续且平滑的,因此执行此回归需要我所有的数据拟合曲线。决策边界附近的数据点没有受到更大的重视,所有数据点对损失的贡献程度不同。 但是,对于支持向量机和神经网络,只有决策边界附近的那些数据点才重要。只要数据点保留在决策边界的同一侧,它将造成相同的损失。 因此,为什么逻辑回归会比支持向量机或神经网络更胜一筹,原因是逻辑回归会“浪费资源”来使曲线拟合许多不重要的(易于分类的)数据,而不是只关注决策周围的困难数据边界?

2
为什么在文字语言识别中使用n-gram代替单词?
在两个流行的语言识别库中,C ++的紧凑语言检测器2和Java的语言检测器都使用了(基于字符的)n-gram提取文本特征。为什么不使用单词袋(单个单词/词典)?单词袋和n-gram的优缺点是什么? 另外,n-grams模型在文本分类中还有哪些其他用途? 哎呀 似乎这里有一个类似的问题: 关于使用bigram(N-gram)模型为文本文档构建特征向量 但是有人可以给出更全面的答案吗?在识别语言的情况下哪个更好? (希望我能正确理解n-gram和词袋的含义,哈哈,如果不能,请帮助我。)

2
如何计算Fisher标准权重?
我正在研究模式识别和机器学习,并且遇到了以下问题。 考虑一个具有相同先验概率的两类分类问题P(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} 以及每个类中实例的分布 p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} \right), p(x|D2)=N([44],[1001]).p(x|D2)=N([44],[1001]). p(x|D_2)= {\cal N} \left( \begin{bmatrix} 4 \\ 4 \end{bmatrix}, \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} \right). 如何计算Fisher标准权重? 更新2:我的书提供的计算权重为: 。W=[−43−29]W=[−43−29]W=\begin{bmatrix} \frac{-4}{3} \\ \frac{-2}{9} \end{bmatrix} …

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
如何训练HMM进行分类?
因此,我了解到,在训练HMM进行分类时,标准方法是: 将您的数据集分为每个类别的数据集 每班训练一名HMM 在测试集中比较每个模型对每个窗口进行分类的可能性 但是,我该如何在每堂课上训练HMM?我是否只是将有关一类的数据串联在一起?但是时间序列数据不是按顺序排列的吗?如果我这样做,那是说某些数据点是连续的,而不是连续的吗? 更具体地说,我有一些EEG数据,它是一个96xT矩阵,其中有96个特征向量,这些特征向量是来自不同通道的不同频率的功率谱密度,T是信号的时间长度(在某些采样率下) 可以将其划分为多个窗口,这些窗口可以从实验协议中得知(数据带有标签),因此我可以为每个类收集96 * t矩阵的集合。其中t小于T并表示每个窗口的大小。 然后如何在此数据上训练HMM?如果有帮助,我尝试使用pmtk3工具包,但我愿意使用任何东西-它必须能够处理实值观测值,因为功率谱密度是连续的而不是离散的(默认的MATLAB工具箱只能处理离散观察)。 目的是能够根据训练过的标记数据将脑电数据窗口分类为给定的心理状态。它是使用Berlin BCI Competition数据的人机界面问题。

3
朴素贝叶斯(Naive Bayes)功能概率:我应该对单词重复计数吗?
我正在为自己的Naive Bayes bag o'word模型制作原型,而我对计算特征概率有疑问。 假设我有两个类,我将只使用垃圾邮件,而不会使用垃圾邮件,因为这是每个人都使用的。让我们以“伟哥”一词为例。我的培训集中有10封电子邮件,5封垃圾邮件和5封非垃圾邮件。“ viagra”出现在所有5个垃圾邮件文档中。在其中一份培训文档中,它出现了3次(这是我的问题是关于的),因此,垃圾邮件总数达到了7次。在非垃圾邮件训练集中,它出现1次。 如果我想估计p(伟哥|垃圾邮件),是否简单: p(伟哥|垃圾邮件)= 5个包含伟哥的垃圾邮件/ 5个垃圾邮件总计= 1 换句话说,一个文件提到伟哥3次而不是一次的事实真的没有关系吗? 编辑:这是一篇博客文章,作者使用了我刚才列出的方法:http : //ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/ 这是一篇博客文章,作者说:p(viagra | spam)= 7个伟哥垃圾邮件提及次数/ 8个总提及次数 http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply朴素贝叶斯分类器到文档分类问题 然后,下面的答案之一应该是:p(viagra | spam)=垃圾邮件中提及7个伟哥/垃圾邮件中的术语总数 任何人都可以链接到对此有意见的来源吗?

2
为什么增加功能数量会降低性能?
我正试图了解为什么增加功能数量会降低性能。我目前正在使用LDA分类器,该分类器在某些功能中的双变量性能较好,但在查看更多功能时却较差。我的分类准确性是使用分层的10倍xval进行的。 是否存在一个简单的情况,即分类器在单维度上比双变量上更好地工作,以获得对这些更高维度中正在发生的事情的某种物理或空间直觉?


2
PCA和随机森林
对于最近的Kaggle竞赛,我(手动)为我的训练集定义了10个其他功能,然后将其用于训练随机森林分类器。我决定在具有新功能的数据集上运行PCA,以查看它们之间的比较。我发现〜98%的方差由第一个分量(第一个特征向量)承载。然后,我多次训练分类器,一次添加一个功能,然后使用交叉验证和RMS误差比较分类的质量。我发现,每增加一个附加功能,分类都会有所改善,并且最终结果(包含所有10个新功能)远远优于(带有)两个功能的首次运行。 鉴于PCA声称〜98%的方差在我的数据集的第一部分中,为什么分类的质量有了很大的提高? 这对其他分类器是否成立?RF跨多个内核扩展,因此训练速度比(例如)SVM要快得多。 如果将数据集转换到“ PCA”空间,然后在转换后的空间上运行分类器,该怎么办?我的结果将如何变化?


1
稀疏的训练集是否会对SVM产生不利影响?
我正在尝试使用SVM将消息分类为不同的类别。我已经从训练集中汇编了一些理想的单词/符号列表。 对于表示消息的每个矢量,我将相应行设置为1是否存在该单词: “语料库”是:[玛丽,小羊羔,星星,闪烁] 第一条消息:“玛丽有只小羊羔”-> [1 1 1 0 0] 第二条消息:“闪烁的小星星”-> [0 1 0 1 1] 我认为这在SVM中是相当常见的设置,但是我的问题是,如果集合中包含成千上万个单词,那么实际上每条消息仅显示1-2个单词会怎样?我的训练向量集的线性相关性是否会对算法的收敛能力产生不利影响?

2
将机器学习应用于DDoS过滤
在斯坦福大学的机器学习课程中, Andrew Ng提到了将ML应用于IT。一段时间后,当我在站点上获得中等大小的DDoS(大约2万个bot)时,我决定使用简单的神经网络分类器与之抗衡。 我已经在大约30分钟的时间内编写了这个python脚本:https : //github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos 它采用pyBrain,并采取3个nginx的日志作为输入,其中两个来训练神经网络: 很好的查询 与坏人 和一个日志进行分类 来自错误的查询 0.0.0.0 - - [20/Dec/2011:20:00:08 +0400] "POST /forum/index.php HTTP/1.1" 503 107 "http://www.mozilla-europe.org/" "-" ...好的... 0.0.0.0 - - [20/Dec/2011:15:00:03 +0400] "GET /forum/rss.php?topic=347425 HTTP/1.0" 200 1685 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9) Gecko/2008052906 Firefox/3.0" ...它构造了一个字典: ['__UA___OS_U', '__UA_EMPTY', '__REQ___METHOD_POST', '__REQ___HTTP_VER_HTTP/1.0', …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.