Questions tagged «tokenize»

令牌化是将字符串拆分为称为令牌的离散元素的行为。


16
使用字符串定界符(标准C ++)在C ++中解析(拆分)字符串
我正在使用以下方法在C ++中解析字符串: using namespace std; string parsed,input="text to be parsed"; stringstream input_stringstream(input); if (getline(input_stringstream,parsed,' ')) { // do some processing. } 使用单个字符定界符进行解析就可以了。但是,如果我想使用字符串作为分隔符怎么办。 示例:我想拆分: scott>=tiger 与>=作为分隔符,以便我可以得到斯科特和老虎。
360 c++  parsing  split  token  tokenize 




4
是否在寻找关于“ tokenizer”,“ parser”和“ lexers”是什么以及它们如何相互关联和使用的明确定义?
我正在寻找“ tokenizer”,“ parser”和“ lexer”分别是什么以及它们如何相互关联的明确定义(例如,解析器是否使用令牌器,反之亦然)?我需要创建一个程序,该程序将通过c / h源文件提取数据声明和定义。 我一直在寻找示例并可以找到一些信息,但是我真的很难掌握语法规则,语法分析树和抽象语法树等基本概念以及它们之间的相互关系。最终,这些概念需要存储在实际程序中,但是1)它们看起来像什么,2)是常见的实现。 我一直在浏览有关Lex和Yacc等主题和程序的Wikipedia,但是从未经历过编译器类(EE主修),我发现很难完全了解正在发生的事情。
151 parsing  lexer  tokenize 

5
一行Python代码可以知道其缩进嵌套级别吗?
从这样的事情: print(get_indentation_level()) print(get_indentation_level()) print(get_indentation_level()) 我想得到这样的东西: 1 2 3 代码可以这样读取吗? 我想要的只是更多嵌套代码部分的输出。以使代码易于阅读的方式,使输出易于阅读。 当然,我可以使用eg手动实现此功能.format(),但是我想到的是自定义打印功能,该功能print(i*' ' + string)在哪里i是缩进级别。这将是使终端上的输出可读的一种快速方法。 有没有更好的方法可以避免麻烦的手动格式化?


11
如何使用NLTK标记器消除标点符号?
我刚刚开始使用NLTK,但我不太了解如何从文本中获取单词列表。如果使用nltk.word_tokenize(),则会得到单词和标点的列表。我只需要这些词。我如何摆脱标点符号?同样word_tokenize不适用于多个句子:点号会添加到最后一个单词中。
125 python  nlp  tokenize  nltk 

13
在Oracle中将字符串拆分为多行
我知道使用PHP和MYSQL已经在某种程度上回答了这个问题,但是我想知道是否有人可以教我在Oracle 10g(最好是11g)和11g中将字符串(以逗号分隔)分成多行的最简单方法。 下表如下: Name | Project | Error 108 test Err1, Err2, Err3 109 test2 Err1 我要创建以下内容: Name | Project | Error 108 Test Err1 108 Test Err2 108 Test Err3 109 Test2 Err1 我已经看到了一些围绕堆栈的潜在解决方案,但是它们仅占了一个列(即逗号分隔的字符串)。任何帮助将不胜感激。
104 sql  string  oracle  plsql  tokenize 

4
如何从Lucene TokenStream获取令牌?
我正在尝试使用Apache Lucene进行令牌化,但我对从中获取令牌的过程感到困惑TokenStream。 最糟糕的部分是我正在查看JavaDocs中解决我的问题的注释。 http://lucene.apache.org/java/3_0_1/api/core/org/apache/lucene/analysis/TokenStream.html#incrementToken%28%29 不知何故,AttributeSource应该使用an而不是Tokens。我完全不知所措。 谁能解释如何从TokenStream获得类似令牌的信息?

1
Google Sites API全文搜索不适用于非西方语言
在我的JavaEE应用程序中,我使用基于Atom的Google Sites API从非公开的Google Site检索内容。本质上,我们将Google Site用作轻量级CMS,并且在应用程序中,我使用API​​检索网站内容以提供给我的在线帮助系统。我已经进行了一段时间的设置,并且工作顺利。 问题 在我的应用程序中,我需要向在线帮助系统添加全文搜索功能。我知道此功能请求有时会出现,因此在决定使用Google Sites托管我的内容时,我检查了Sites API是否支持全文搜索。确实如此。例如,以下URL将在整个站点中搜索my-site包含关键字的页面user。 https://sites.google.com/feeds/content/my.doma.in/my-site?q=user 这有效,并且给了我预期的结果页面。但这仅适用于用西方语言或更具体而言用空格和标点符号分隔标记/单词的语言编写的内容。当我对日语内容进行类似的搜索时,搜索关键字ユーザー: https://sites.google.com/feeds/content/my.doma.in/my-site?q=%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC 我只会得到结果页面,其中搜索词以裸字符串显示,即以空格或标点符号分隔。由于日语是用连续脚本编写的语言,因此这还不够。包含以下内容的页面: 情报自身のユーザー基本情报の确认 将不会显示在结果中。因此,似乎在幕后使用的搜索索引是根据“西方”词汇规则创建的,日语内容未正确标记。但是,当我从Google网站的“搜索此网站”字段中搜索相同的关键字时,我确实得到了正确的结果。我得出结论,存在正确的标记化索引,但是似乎无法将其用于基于API的搜索。 到目前为止我尝试过的 为了解决这种情况,到目前为止,我已经探索了以下几种途径: 我尝试在Google协作平台本身中查找语言设置。有一个通用的UI语言设置,该设置已设置为日语,并且对API查询结果没有影响。没有按页面或按模板的语言设置来强制索引器/标记器的手。 我尝试用双引号("ユーザー")引用搜索字符串。 我尝试过使用通配符(*ユーザー*)。 我尝试对其他Google API中常见的URL使用其他语言参数:lang,hl(界面语言),rl(结果语言),.. 我曾尝试创建Google自定义搜索引擎,但似乎无法使其在非公开的Google网站上正常工作。 所以... 我的想法很快就用光了。在最坏的情况下,我将不得不自己检索,标记和索引所有内容,并使其可搜索。由于这需要大量的精力,因此我想知道是否有人遇到相同的问题并找到了可接受的解决方法或解决方案。 更新1 我尚未找到解决此问题的理想解决方案,因此我在Google Apps API问题跟踪器上提出了一个缺陷:https : //code.google.com/a/google.com/p/apps-api-issues/issues / detail?id = 3780 更新2 经过一番来回的摸索,Google的工程师承认该问题确实存在,并已“内部提交”。缺陷票一直停留在被分流状态至今。如果您像我一样对解决此问题感兴趣,请花一点时间在Google的问题跟踪器上对其加注/投票。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.