我正在研究一种算法,该算法可以在带有变音符号的字符(tilde,circumflex,caret,umlaut,caron)及其“简单”字符之间进行映射。
例如:
ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> n
á --> a
ä --> a
ấ --> a
ṏ --> o
等等。
我想用Java做到这一点,尽管我怀疑它应该是Unicode-y,并且应该可以轻松地以任何语言进行操作。
目的:允许轻松搜索带有变音符号的单词。例如,如果我有一个网球运动员数据库,并且输入了Björn_Borg,我还将保留Bjorn_Borg,这样,如果有人进入Bjorn而不是Björn,我就可以找到它。