12
从Unicode字符中删除变音符(criticalñṅṇṋṉȵȵ)
我正在研究一种算法,该算法可以在带有变音符号的字符(tilde,circumflex,caret,umlaut,caron)及其“简单”字符之间进行映射。 例如: ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> n á --> a ä --> a ấ --> a ṏ --> o 等等。 我想用Java做到这一点,尽管我怀疑它应该是Unicode-y,并且应该可以轻松地以任何语言进行操作。 目的:允许轻松搜索带有变音符号的单词。例如,如果我有一个网球运动员数据库,并且输入了Björn_Borg,我还将保留Bjorn_Borg,这样,如果有人进入Bjorn而不是Björn,我就可以找到它。