Questions tagged «natural-language-processing»

5
寻找有趣的字谜
假设和是两个长度相同的字符串。两个字符串的拼写是双射映射这样每个。a1a2…ana1a2…ana_1a_2\ldots a_nb1b2…bnb1b2…bnb_1b_2\ldots b_np:[1…n]→[1…n]p:[1…n]→[1…n]p:[1\ldots n]\to[1\ldots n]ai=bp(i)ai=bp(i)a_i = b_{p(i)}iii 同一对字符串可能不止一个拼写。例如,如果 `abcab`和我们有和等。a=a=a=b=b=b=cababp1[1,2,3,4,5]→[4,5,1,2,3]p1[1,2,3,4,5]→[4,5,1,2,3]p_1[1,2,3,4,5]\to[4,5,1,2,3]p2[1,2,3,4,5]→[2,5,1,4,3]p2[1,2,3,4,5]→[2,5,1,4,3]p_2[1,2,3,4,5] \to [2,5,1,4,3] 我们要说的是,词法的权重 是一个人必须在第一个字符串中进行剪切的次数,才能获得可以重新排列以获取第二个字符串的块。形式上,这是的值个数,其中。也就是说,它是在该点的数量不会不正好1.适用于例如增加,和,因为切割一次,进入块和,和切口4次,分为五个大块。w(p)w(p)w(p)pppi∈[1…n−1]i∈[1…n−1]i\in[1\ldots n-1]p(i)+1≠p(i+1)p(i)+1≠p(i+1)p(i)+1\ne p(i+1)pppw(p1)=1w(p1)=1w(p_1) = 1w(p2)=4w(p2)=4w(p_2) = 4p1p1p_11234512345p2p2p_212345 假设存在两个字符串和的拼写。然后,至少一个词法必须具有最小的权重。可以说这是最轻的。(可能有多个最简单的拼写;我不在乎,因为我只对权重感兴趣。)aaabbb 题 我想要一种算法,给定存在两个字符串的两个字串,它们可以有效地产生两个字符串最轻的字串的精确权重。如果该算法还能产生最轻巧的字词排序,也可以,但不是必须的。 生成所有拼写并对其进行加权是一件相当简单的事情,但是可能会有很多,所以我宁愿直接找到轻型拼写的方法。 动机 引起该问题的原因如下。使计算机搜索字典并查找字谜(包含完全相同的字母的单词对)非常容易。但是产生的许多字谜没有意思。例如,在《韦伯斯特第二国际词典》中找到的最长的例子是: 胆囊 十二指肠造口术十二指肠胆囊造口术 这个问题应该清楚:这些都是索然无味,因为他们承认一个很轻的anagramming,简单地交流cholecysto,duedeno和stomy段,对于一个体重2.在另一方面,这种更短的例子是更令人惊讶和有趣: 海岸线 剖面 这里最轻的字谜权重为8。 我有一个程序使用此方法来定位有趣的字谜,即所有字谜的权重很高的字谜。但这是通过生成并加权所有可能的拼写来实现的,这很慢。

2
为什么C的void类型不同于Empty / Bottom类型?
维基百科以及我发现的其他来源都将C的void类型列为单位类型,而不是空类型。我觉得这很混乱,因为在我看来,它void更适合于空/底类型的定义。 void据我所知,没有价值观存在。 返回类型为void的函数指定该函数不返回任何内容,因此只能执行某些副作用。 类型的指针void*是所有其他指针类型的子类型。同样,void*在C中进行来回转换是隐式的。 我不确定最后一点是否可以作为void空类型的参数,void*或多或少是与无关的特例void。 另一方面,void它本身不是所有其他类型的子类型,据我所知,这是将类型作为底部类型的要求。
28 type-theory  c  logic  modal-logic  coq  equality  coinduction  artificial-intelligence  computer-architecture  compilers  asymptotics  formal-languages  asymptotics  landau-notation  asymptotics  turing-machines  optimization  decision-problem  rice-theorem  algorithms  arithmetic  floating-point  automata  finite-automata  data-structures  search-trees  balanced-search-trees  complexity-theory  asymptotics  amortized-analysis  complexity-theory  graphs  np-complete  reductions  np-hard  algorithms  string-metrics  computability  artificial-intelligence  halting-problem  turing-machines  computation-models  graph-theory  terminology  complexity-theory  decision-problem  polynomial-time  algorithms  algorithm-analysis  optimization  runtime-analysis  loops  turing-machines  computation-models  recurrence-relation  master-theorem  complexity-theory  asymptotics  parallel-computing  landau-notation  terminology  optimization  decision-problem  complexity-theory  polynomial-time  counting  coding-theory  permutations  encoding-scheme  error-correcting-codes  machine-learning  natural-language-processing  algorithms  graphs  social-networks  network-analysis  relational-algebra  constraint-satisfaction  polymorphisms  algorithms  graphs  trees 

9
编程语言是否越来越像自然语言?
此问题已从软件工程堆栈交换迁移,因为可以在计算机科学堆栈交换上回答。 迁移 6年前。 我们可以在语言学背景下学习编程语言吗?编程语言会以与自然语言类似的方式自然地进化吗? 尽管完全的合理性和数学上的一致性对于编程语言至关重要,但仍然需要(尤其是现代语言)使它们对人类可读并舒适。 编程语言是否正在发展以变得更加语言化并因此变得更加自然?例如,机器代码,打孔卡和汇编语言已被更易读的语言(如Ruby和Python等)所取代。 当我说计算机语言变得越来越自然时,我并不是说它们包含更多的“英语中的单词”,而是因为它们的语法复杂性和表达含义的能力似乎变得更像一种自然语言。 (例如,能够以理性和人类可理解的方式雄辩地描述来自数据库的查询)。 你们怎么想 编程语言是否变得越来越像自然语言,从而变得适用于语言学法则? 也许语言生活在一个范围内,一方面,您拥有极端理性的语言,另一方面,您拥有更多的创造力。也许编程语言和自然语言是完全相同的,并且两者都只是在这种语言范围内(它们唯一的区别,也许就是他们试图赋予其含义的“事物”)。 人类语言的(巴别塔效应)分离与计算机语言之间是否存在联系?它们是否由于相同的原因而变得更加多样化(即解决不断发展的计算机系统/文化系统等内部的不同问题)?

1
域名压缩
此问题是从Stack Overflow 迁移而来的,因为可以在Computer Science Stack Exchange上回答。 迁移 7年前。 我对如何紧凑压缩任意IDN主机名(由RFC5890定义)的域感到好奇,并怀疑这可能会成为一个有趣的挑战。Unicode主机或域名(U标签)由一串Unicode字符组成,通常取决于顶级域名(例如,下的希腊字母.gr),被限制为一种语言,该Unicode字符被编码为以xn--(一个标签)。 人们不仅可以根据以下正式要求来建立数据模型: 每个非Unicode标签都是一个字符串匹配^[a-z\d]([a-z\d\-]{0,61}[a-z\d])?$; 每个A标签都是一个字符串匹配^xn--[a-z\d]([a-z\d\-]{0,57}[a-z\d])?$;和 整个域的总长度(A标记和非IDN标记以“。”分隔符连接)不超过255个字符 而且还来自各种启发式方法,包括: 低阶U标签在某些自然语言中通常在词法,句法和语义上都是有效的短语,包括专有名词和数字(连字符除外,不加标点,去除空白并按Nameprep折叠),偏爱较短的短语;和 高阶标签是从SLD和TLD的字典中​​提取的,并为预测低阶标签中使用哪种自然语言提供了上下文。 我担心,如果不考虑数据的这些特定特征,很难对这样的短字符串进行良好的压缩,此外,现有的库将产生不必要的开销,以适应其更一般的用例。 阅读Matt Mahoney的在线书《Data Compression Explained》,很显然,可以利用许多现有技术来利用上述(和/或其他)建模假设,与不那么具体的工具相比,它们应该带来更好的压缩效果。 就上下文而言,此问题是SO上一个问题的分支。 最初的想法 令我惊讶的是,这个问题是脱机培训的绝佳选择,我设想了以下几行的压缩数据格式: 霍夫曼编码的“ 公共后缀 ”,其概率来自域名注册或流量的某些公开来源; 其余的U标签使用霍夫曼编码(自然语言)模型,并从给定的域后缀上下文中某些已发布的域注册或业务量来源中提取概率; 应用来自指定自然语言模型的一些基于字典的转换;和 U标签中每个字符的算术编码,其概率来自脱机训练(甚至可能是在线,但我怀疑数据可能太短而无法提供任何有意义的见解?)的上下文自适应自然语言模型。

2
识别与段落中日期有关的事件
是否存在一种算法方法来确定段落中给定的日期与段落中的特定事件(短语)相关? 示例,请考虑以下段落: 1970年6月,这位伟大的领袖宣誓就职。但是直到1972年5月国务卿去世后,他才接管了国家的the绳。在1980年中期之前,他一直得到民众的支持,但此后,他的影响力开始下降。 是否有一种算法(确定性或随机性)#可以生成2元组(日期,事件),而该段落暗示该事件发生在该日期上?在上述情况下: (1970年6月,伟大的领袖宣誓) (1972年5月,接任the绳) 甚至更好 (1972年5月,伟大的领导人接管了ins绳) (1980年,影响力下降) #后来加法

4
信息检索与信息提取之间的关系和区别?
来自维基百科 信息检索是从信息资源集合中获取与信息需求相关的信息资源的活动。搜索可以基于元数据或全文索引。 来自维基百科 信息提取(IE)是从非结构化和/或半结构化的机器可读文档中自动提取结构化信息的任务。在大多数情况下,此活动涉及通过自然语言处理(NLP)来处理人类语言文本。多媒体文档处理中的最新活动,例如从图像/音频/视频中自动注释和内容提取,可以看作是信息提取。 信息检索与信息提取之间的关系和区别是什么? 谢谢!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.