Questions tagged «natural-language-processing»

14
简单可靠地检测文本代码的方法?
GMail具有此功能,如果您尝试发送它认为可能带有附件的电子邮件,它将向您发出警告。 由于GMail检测到see the attached电子邮件中的字符串,但没有实际附件,因此当我单击“发送”按钮时,它会通过“确定” /“取消”对话框警告我。 我们在堆栈溢出方面有一个相关的问题。也就是说,当用户进入后像这样的: 我的问题是我需要更改数据库,但我不会创建 一个新的连接。例: 数据集dsMasterInfo = new DataSet(); 数据库db = DatabaseFactory.CreateDatabase(“ ConnectionString”); DbCommand dbCommand = db.GetStoredProcCommand(“ uspGetMasterName”); 该用户未将其代码格式化为代码! 也就是说,他们没有为每个Markdown缩进4个空格,也没有使用代码按钮(或键盘快捷键ctrl+ k)为他们这样做。 因此,我们的系统正在接受很多编辑,人们必须进入这些编辑区域,并手动为无法解决该问题的人们设置代码格式。这导致很多肚皮舞。我们已经多次改善了编辑器的帮助,但是由于没有赶到用户家并为他们按下键盘上的正确按钮,我们无所适从,不知道下一步该怎么做。 这就是我们考虑使用Google GMail样式警告的原因: 您是要发布代码吗? 您编写了我们认为看起来像代码的内容,但是没有使用工具栏代码按钮或ctrl+ k代码格式化命令通过缩进4个空格来将其格式化为代码。 但是,提出此警告要求我们检测问题中是否存在我们认为未格式化的代码。一种简单,半可靠的方法是什么? 根据Markdown的规定,代码总是缩进4个空格或在反引号内,因此任何格式正确的代码都可以立即从支票中丢弃。 这仅是警告,并且仅适用于声誉低下的用户提出第一个问题(或提供其第一个答案),因此,只要它们的错误率在5%或以下,就可以接受一些误报。 关于堆栈溢出的问题可以使用任何语言,尽管实际上可以将检查范围限制为“十大”语言。每个标记页面都是C#,Java,PHP,JavaScript,Objective-C,C,C ++,Python,Ruby。 使用Stack Overflow Creative Commons数据转储来审核您可能的解决方案(或仅在Stack Overflow 的前10个标签中选择几个问题),然后查看其效果。 伪代码很好,但是如果您想变得更加友好,我们可以使用c#。 越简单越好(只要可行)。吻!如果您的解决方案需要我们尝试用10种不同的编译器来编译帖子,或者需要一群人来手动训练贝叶斯推理引擎,那...就不完全是我们的初衷。

2
如何找到很难拼错名字的名字?
我认为这是一个可以通过一些数据挖掘和完善的算法解决的问题,但我不知道如何解决。欢迎提供有关使用哪些数据源以及应用哪种算法的任何指针。 背景:我是罗马尼亚-匈牙利人,他正在怀有波兰-乌克兰人的怀抱,并且还没有完全决定要定居哪个国家。正如您所期望的那样,选择一个给定的名称是最重要的,也是一个激烈的辩论。从我的角度来看,当我从一个国家搬到另一个国家时,有人拼错了我的名字时,我仍然要经历所有麻烦。例如,如果您被称为“ Adrian”,那么您在罗马尼亚会很幸运,只是发现您最终成为“ Adri e n”是一些法国官方文件。因此,我唯一的要求是在某些欧洲国家/地区极不可能使婴儿的名字拼写错误。 问题陈述:给定一组国家,例如法国,德国,瑞典,波兰和罗马尼亚,请查找适当发音的给定名称列表,这些名称不太可能被当地人拼写错误。 更正式地讲:令p(c,n)是一个函数,该函数返回名称n在国家c中拼写错误的可能性。给定C个国家集和 p₀个概率,找到N个给定名称集,使得 对于所有Ñ ∈ Ñ和Ç ∈ Ç,P(C,N)<P 0 初步思路:核心问题是如何实现p(c,n)。可以尝试用一种启发式方法来近似它。显然,在两种情况下,名称可能会拼写错误: 在那个国家很少使用。 它类似于一个不同的名称,在那个国家很少使用。 我不确定如何使用互联网(例如Wikipedia)有效回答这两个问题。一个人怎么会只列出一个国家中经常使用的名字?人们会如何寻找相似的拼写?

2
坚持自然语言处理解析数据
我最近开始使用斯坦福大学的CoreNLP进行自然语言处理(NLP)的实验,并且想知道为文本挖掘应用程序之类的东西存储NLP解析数据的一些标准方法是什么? 我认为可能有趣的一种方法是将子级存储为邻接列表,并充分利用递归查询(Postgres支持此功能,我发现它确实很好用)。 但我认为,根据多年来从事该领域工作的人员所进行的分析类型,可能有许多标准方法可以执行此操作。那么NLP解析数据的标准持久性策略是什么?如何使用它们?

6
如何教一个脚本来发现讽刺?[关闭]
按照目前的情况,这个问题并不适合我们的问答形式。我们希望答案得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 8年前关闭。 我当前正在构建一个有趣的脚本,该脚本基本上匹配给定的短语并根据匹配点给出预定义的响应。您可以要求它根据实时供稿检索一些信息,运行任务,讲述轶事或只是与她聊天。 我已经有内置的badwords和/或大写锁定检测功能。该程序有一个女孩的名字,我尝试从逻辑上讲尽可能接近一个女孩(例如:每个人都知道,大多数女孩花700ms来回答一个问题,当然是在开玩笑)。所以这是一个小例子: 客户:您有什么问题? 菊:不要使用与我同色的东西! 客户:####您 菊久:您为什么对我这么刻薄:/ 但是,我真的很想添加讽刺功能。因此,如果您用讽刺的方式写东西,那么她会发现并做出相应的回应。现在这是一个棘手的部分,您如何教脚本,什么是讽刺? 对我来说更具体。今天最常用的讽刺单词是什么?还是如何获得该统计数据?如何使脚本理解给定短语的上下文? 更新 由于这个问题引起了很多炒作,我认为应该多清理一些事情。很清楚,使脚本完全检测讽刺基本上是不可能的。至少在合理的事情上。但是,我确实相信可以发现一些可能的讽刺。 目前为止,我的脚本可以检测到非常有限的讽刺。我预定义了一些常见的讽刺词(但是,仅它们是无用的。)例如:诸如此类,是的,正确而伟大。然后首先匹配简单的东西,例如大写和quoted:THANKS you are so smart或oh you are so "SMART"。 由于脚本的主要功能是执行任务或检索信息,而后记它将询问您的意思。然后我想,添加“谢谢”作为特殊变量。因此yeah thanks还是whatever thanks触发了可能的讽刺,脚本将询问您:“我是否检测到讽刺?” 最好的选择就是说“对不起”,否则它将添加一个警告点,如果达到限制,它将开始无视您。 由于这些非常简单的算法似乎可以实际工作,因此,当然,在进行大量调整和调整之后,这种想法才有希望。但是,有很多人会更聪明地制作出具有相同想法的开源软件。然后,可以将此功能连接到Web上的许多功能。客户服务可能会最大程度地受益,但是,这种软件也可以用于检测“可疑”内容。

3
可以使用哪种算法来实现合理的下一个单词预测?
实现“下一个单词预测”的好方法是什么?例如,用户键入“我是”,并且系统建议“ a”和“ not”(或其他可能)作为下一个单词。我知道一种使用马尔可夫链和一些训练文本(显然)来或多或少地实现这一目标的方法。但是我在某处读到,该方法非常严格,适用于非常简单的情况。 我了解神经网络和遗传算法的基础知识(尽管从未在严肃的项目中使用过它们),也许它们可能会有所帮助。我想知道是否有任何算法可以在给定适当的培训文本(例如报纸文章和用户自己的打字)的情况下为下一个单词提出合理适当的建议。如果没有(链接到)算法,则欢迎使用一般的高级方法来解决此问题。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.