软件工程 natural-language-processing

14

GMail具有此功能，如果您尝试发送它认为可能带有附件的电子邮件，它将向您发出警告。由于GMail检测到see the attached电子邮件中的字符串，但没有实际附件，因此当我单击“发送”按钮时，它会通过“确定” /“取消”对话框警告我。我们在堆栈溢出方面有一个相关的问题。也就是说，当用户进入后像这样的：我的问题是我需要更改数据库，但我不会创建一个新的连接。例：数据集dsMasterInfo = new DataSet（）; 数据库db = DatabaseFactory.CreateDatabase（“ ConnectionString”）; DbCommand dbCommand = db.GetStoredProcCommand（“ uspGetMasterName”）; 该用户未将其代码格式化为代码！也就是说，他们没有为每个Markdown缩进4个空格，也没有使用代码按钮（或键盘快捷键ctrl+ k）为他们这样做。因此，我们的系统正在接受很多编辑，人们必须进入这些编辑区域，并手动为无法解决该问题的人们设置代码格式。这导致很多肚皮舞。我们已经多次改善了编辑器的帮助，但是由于没有赶到用户家并为他们按下键盘上的正确按钮，我们无所适从，不知道下一步该怎么做。这就是我们考虑使用Google GMail样式警告的原因：您是要发布代码吗？您编写了我们认为看起来像代码的内容，但是没有使用工具栏代码按钮或ctrl+ k代码格式化命令通过缩进4个空格来将其格式化为代码。但是，提出此警告要求我们检测问题中是否存在我们认为未格式化的代码。一种简单，半可靠的方法是什么？根据Markdown的规定，代码总是缩进4个空格或在反引号内，因此任何格式正确的代码都可以立即从支票中丢弃。这仅是警告，并且仅适用于声誉低下的用户提出第一个问题（或提供其第一个答案），因此，只要它们的错误率在5％或以下，就可以接受一些误报。关于堆栈溢出的问题可以使用任何语言，尽管实际上可以将检查范围限制为“十大”语言。每个标记页面都是C＃，Java，PHP，JavaScript，Objective-C，C，C ++，Python，Ruby。使用Stack Overflow Creative Commons数据转储来审核您可能的解决方案（或仅在Stack Overflow 的前10个标签中选择几个问题），然后查看其效果。伪代码很好，但是如果您想变得更加友好，我们可以使用c＃。越简单越好（只要可行）。吻！如果您的解决方案需要我们尝试用10种不同的编译器来编译帖子，或者需要一群人来手动训练贝叶斯推理引擎，那...就不完全是我们的初衷。

142 algorithms artificial-intelligence machine-learning natural-language-processing

2

如何找到很难拼错名字的名字？

我认为这是一个可以通过一些数据挖掘和完善的算法解决的问题，但我不知道如何解决。欢迎提供有关使用哪些数据源以及应用哪种算法的任何指针。背景：我是罗马尼亚-匈牙利人，他正在怀有波兰-乌克兰人的怀抱，并且还没有完全决定要定居哪个国家。正如您所期望的那样，选择一个给定的名称是最重要的，也是一个激烈的辩论。从我的角度来看，当我从一个国家搬到另一个国家时，有人拼错了我的名字时，我仍然要经历所有麻烦。例如，如果您被称为“ Adrian”，那么您在罗马尼亚会很幸运，只是发现您最终成为“ Adri e n”是一些法国官方文件。因此，我唯一的要求是在某些欧洲国家/地区极不可能使婴儿的名字拼写错误。问题陈述：给定一组国家，例如法国，德国，瑞典，波兰和罗马尼亚，请查找适当发音的给定名称列表，这些名称不太可能被当地人拼写错误。更正式地讲：令p（c，n）是一个函数，该函数返回名称n在国家c中拼写错误的可能性。给定C个国家集和 p₀个概率，找到N个给定名称集，使得对于所有Ñ ∈ Ñ和Ç ∈ Ç，P（C，N）<P 0 初步思路：核心问题是如何实现p（c，n）。可以尝试用一种启发式方法来近似它。显然，在两种情况下，名称可能会拼写错误：在那个国家很少使用。它类似于一个不同的名称，在那个国家很少使用。我不确定如何使用互联网（例如Wikipedia）有效回答这两个问题。一个人怎么会只列出一个国家中经常使用的名字？人们会如何寻找相似的拼写？

16 algorithms artificial-intelligence natural-language-processing data-mining

2

坚持自然语言处理解析数据

我最近开始使用斯坦福大学的CoreNLP进行自然语言处理（NLP）的实验，并且想知道为文本挖掘应用程序之类的东西存储NLP解析数据的一些标准方法是什么？我认为可能有趣的一种方法是将子级存储为邻接列表，并充分利用递归查询（Postgres支持此功能，我发现它确实很好用）。但我认为，根据多年来从事该领域工作的人员所进行的分析类型，可能有许多标准方法可以执行此操作。那么NLP解析数据的标准持久性策略是什么？如何使用它们？

12 database parsing persistence natural-language-processing

6

如何教一个脚本来发现讽刺？[关闭]

按照目前的情况，这个问题并不适合我们的问答形式。我们希望答案得到事实，参考或专业知识的支持，但是这个问题可能会引起辩论，争论，民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出，请访问帮助中心以获取指导。 8年前关闭。我当前正在构建一个有趣的脚本，该脚本基本上匹配给定的短语并根据匹配点给出预定义的响应。您可以要求它根据实时供稿检索一些信息，运行任务，讲述轶事或只是与她聊天。我已经有内置的badwords和/或大写锁定检测功能。该程序有一个女孩的名字，我尝试从逻辑上讲尽可能接近一个女孩（例如：每个人都知道，大多数女孩花700ms来回答一个问题，当然是在开玩笑）。所以这是一个小例子：客户：您有什么问题？菊：不要使用与我同色的东西！客户：####您菊久：您为什么对我这么刻薄：/ 但是，我真的很想添加讽刺功能。因此，如果您用讽刺的方式写东西，那么她会发现并做出相应的回应。现在这是一个棘手的部分，您如何教脚本，什么是讽刺？对我来说更具体。今天最常用的讽刺单词是什么？还是如何获得该统计数据？如何使脚本理解给定短语的上下文？更新由于这个问题引起了很多炒作，我认为应该多清理一些事情。很清楚，使脚本完全检测讽刺基本上是不可能的。至少在合理的事情上。但是，我确实相信可以发现一些可能的讽刺。目前为止，我的脚本可以检测到非常有限的讽刺。我预定义了一些常见的讽刺词（但是，仅它们是无用的。）例如：诸如此类，是的，正确而伟大。然后首先匹配简单的东西，例如大写和quoted：THANKS you are so smart或oh you are so "SMART"。由于脚本的主要功能是执行任务或检索信息，而后记它将询问您的意思。然后我想，添加“谢谢”作为特殊变量。因此yeah thanks还是whatever thanks触发了可能的讽刺，脚本将询问您：“我是否检测到讽刺？” 最好的选择就是说“对不起”，否则它将添加一个警告点，如果达到限制，它将开始无视您。由于这些非常简单的算法似乎可以实际工作，因此，当然，在进行大量调整和调整之后，这种想法才有希望。但是，有很多人会更聪明地制作出具有相同想法的开源软件。然后，可以将此功能连接到Web上的许多功能。客户服务可能会最大程度地受益，但是，这种软件也可以用于检测“可疑”内容。

11 algorithms natural-language-processing

3

可以使用哪种算法来实现合理的下一个单词预测？

实现“下一个单词预测”的好方法是什么？例如，用户键入“我是”，并且系统建议“ a”和“ not”（或其他可能）作为下一个单词。我知道一种使用马尔可夫链和一些训练文本（显然）来或多或少地实现这一目标的方法。但是我在某处读到，该方法非常严格，适用于非常简单的情况。我了解神经网络和遗传算法的基础知识（尽管从未在严肃的项目中使用过它们），也许它们可能会有所帮助。我想知道是否有任何算法可以在给定适当的培训文本（例如报纸文章和用户自己的打字）的情况下为下一个单词提出合理适当的建议。如果没有（链接到）算法，则欢迎使用一般的高级方法来解决此问题。

10 algorithms artificial-intelligence machine-learning natural-language-processing

Questions tagged «natural-language-processing»