Questions tagged «natural-language»

自然语言处理是一组来自语言学,人工智能,机器学习和统计的技术,旨在处理和理解人类语言。


1
这种对稀疏性的解释准确吗?
根据软件包removeSparseTerms功能的文档,tm稀疏性是这样的: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less than sparse. 那么,是否正确解释是说如果sparse等于.99,那么我们要删除仅出现在最多1%数据中的术语?

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
为什么要增加一个反向文档频率?
我的课本将idf列为,其中log(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) NNN:文件数 ntntn_t:包含术语的文档数ttt 维基百科将此公式列为实际的平滑版本。我了解的一个:范围从到,看起来很直观。 但是从到似乎太奇怪了…… 我对语言建模的平滑知识有所了解,但是您会在分子中添加一些东西以及分母中,因为您担心概率质量。但是,只加对我来说没有意义。我们要在这里完成什么?log(Nnt)log(Nnt)log(\frac{N}{n_t})log(NN)=0log(NN)=0log(\frac{N}{N})=0∞∞\inftylog(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t})log(1+1)log(1+1)log(1+1)∞∞\infty111

1
在LSI中了解奇异值分解
我的问题通常是关于奇异值分解(SVD),尤其是关于潜在语义索引(LSI)。 假设我有一个,其中包含7个文档中5个单词的频率。Aword×documentAword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1, 1,6,0,1,7,0,1, 5,0,7,4,0,5,6, 7,0,8,5,0,8,5, 0,10,0,0,7,0,0), ncol=7, byrow=TRUE) rownames(A) <- c('doctor','car','nurse','hospital','wheel') 我得到的矩阵分解通过使用SVD:。AAAA=U⋅D⋅VTA=U⋅D⋅VTA = U \cdot D \cdot V^T s = svd(A) D = diag(s$d) # singular value matrix S = diag(s$d^0.5 ) # diag matrix with square roots of singular values. 在1和2中指出: WordSim=U⋅SWordSim=U⋅SWordSim = …

1
使用文本挖掘/自然语言处理工具进行计量经济学
我不确定这个问题在这里是否完全合适,否则请删除。 我是经济学研究生。对于一个调查社会保险问题的项目,我可以访问大量涉及资格评估的行政案例报告(> 200k)。这些报告可以链接到单个管理信息。我想从这些报告中提取可用于定量分析的信息,最好是使用grep/ awk等进行简单的关键字/正则表达式搜索。 自然语言处理对此有多有用?还有哪些其他有用的文本挖掘方法?据我了解,这是一个很大的领域,很可能某些报告必须进行转换才能用作语料库。是否值得花一些时间来熟悉文献和方法?会有所帮助吗,以前做过类似的事情吗?就回报而言,是否值得?也就是说,我是否可以使用NLP进行潜在的有用信息来进行经济学实证研究? 可能会有资金雇用某人来阅读和准备一些报告。这是一个较大的项目,有可能申请更多的资金。如果绝对必要,我可以提供有关该主题的更多详细信息。一种潜在的并发症是该语言是德语,而不是英语。 关于资格,我主要接受计量经济学方面的培训,并且在Hastie等人的水平上对计算统计有所了解。书。我知道Python,R,Stata,并且可能很快就会熟悉Matlab。给定这些库,我认为Python是为此选择的工具。如果相关的话,根本就不需要定性方法方面的培训,但是我知道我可以联系一些人。 我很高兴为此提供任何输入,即,如果这可能有用,那么,从哪里开始阅读,以及特别关注哪些工具。

1
文档摘要中的对数似然比
我最初是在堆栈溢出时问这个问题的,后来被提到这个站点,所以去了: 我正在实现基于内容选择/提取的文档摘要的一些无监督方法,我对我的教科书所说的“对数似然比”感到困惑。Jurafsky&Martin撰写的《语音和语言处理》一书对此进行了简要描述: 单词的LLR通常称为lambda(w),它是在输入语料库和背景语料库中观察w的概率(假设两个语料库中的概率相同)与在两个语料库中观察w的概率(假设存在不同概率)之间的比率。输入和背景语料库中的w。 分解一下,我们得到了分子:“在输入语料库和背景语料库中观察w的概率假设两个语料库中的概率相等”-如何计算在这里使用的概率? 分母:“在假设输入语料库和背景语料库中w的概率不同的情况下,观察w的概率”。-这是否像单词在输入中出现的概率乘以单词在语料库中出现的概率一样简单?例如: (数量(单词,输入)/输入中的单词总数)*(数量(单词,语料库)/语料中单词总数) 我一直在看我的书所引用的论文,《惊奇和巧合的统计的准确方法》(Dunning,1993年),但是我发现在基于提取的摘要中,很难为单个单词计算LLR值的问题。这里的任何澄清将不胜感激。

1
朴素贝叶斯与递归神经网络(LSTM)之间的区别
我想对文本进行情感分析,浏览了几篇文章,其中一些正在使用“朴素贝叶斯”,另一些是“递归神经网络(LSTM)”,另一方面,我看到了用于情感分析的python库,是nltk。它使用“朴素贝叶斯”(Naive Bayes)谁能解释使用两者的区别? 我也阅读了这篇文章,但对两者都不清楚。 贝叶斯网络,神经网络,决策树和Petri网之间的差异
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.