视觉和听觉上清晰的拉丁字母子集?


13

假设您给某人一张卡片,上面印有代码“ 5SBDO0”。

在某些字体中,字母“ S”很难从视觉上与数字5区分开(例如,数字零和字母“ O”)。

大声朗读代码,可能很难区分“ B”和“ D”,必须说“ B代表男孩”,“ D代表狗”或使用“ 语音字母 ”。

在大多数情况下,大声朗读时字母和数字的最大子集是什么?


背景:

我们希望生成一个短字符串,该字符串可以编码尽可能多的值,同时仍易于通信。

假设您有一个6个字符的字符串“ 123456”。在基数10中,这可以编码10 ^ 6个值。

在十六进制“ 1B23DF”中,您可以用相同数量的字符对16 ^ 6个值进行编码,但是当大声读取时,这听起来可能会模棱两可。(“ B”对“ D”)

同样,对于任何N个字符的字符串,您将获得(字母的大小)^ N个值。

由于要很容易地容纳在人类工作记忆容量的范围内,因此该字符串的长度限制为大约六个字符。

因此,要找到我们可以编码的最大值数量,我们需要找到最大的字母/数字明确集合。我们没有理由不考虑字母GZ和一些常见的标点符号,但是我不想手动成对比较“ G听起来像A吗?”,“ G听起来像B吗?”,“是否我自己听起来像C”。我们知道这将是O(n ^ 2)个语言工作=)...


6
请注意,在不同的语言中,发音相似的字母可能会有很大差异……
Michael Borgwardt 2012年

此外,究竟是什么拉丁字母?
MSalters 2012年

另请参阅在相关StackOverflow问题中的答案
MSalters 2012年

为了视觉上的区别,Base 32是一种标准编码,用于限制符号的相似性。
barjak 2012年

@MSalters“拉丁文字”是一种语言学观点,就我们的目的而言,我的意思是“从已编码为Unicode的拉丁文字子集中选择”,例如en.wikipedia.org/wiki/ISO/IEC_8859-1
elliot42

Answers:


15

您应该通过视觉相似性将字母数字集划分为组,并从每个组中选择一个“最具标志性”的代表。尽管您可以在其上运行用户测试,但这有点主观。您做出的选择还取决于图形是打印还是手写的。例如:

  • { O0QD }

  • { IL1 }

  • { B8 }

  • { Z2 }

  • { S5 }

  • { 7T }

  • { UVY }

同样,通过名称发音的语音相似性来划分字符:

  • { A [ʔeɪ],8 [ʔeɪ(ʔ/ t)]}
    =以[ʔeɪ]开头

  • { P [pi:],B [bi:],V [vi:],D [di:],T [ti:],E [ʔi:]}
    =停止/摩擦+ [i:]

  • { G [ʤi:],C [si:],Z [zi:],3 [θɹi:]}
    =摩擦音/ 附属音(簇)+ [i:]

  • { M [ɛm],N [ɛn]}
    = [ɛ] +鼻

  • { S [ɛs],F [ɛf],X [ɛks]}
    = [ɛ] +擦音/倒带

  • { I [ʔaɪ],Y [waɪ],5 [faɪv],9 [naɪn]}
    =辅音+ [aɪ] +(辅音)

  • { Q [kjʉ:],U [jʉ:],2 [t(j)ʉ:]}
    =辅音+ [(j)ʉ:]

当然,这些并不是唯一可能的分区,而是目前想到的。无论如何,它们应该足以使您开始进行进一步的测试。此外,这些内容也不受任何专业人士的支持-我仅引用我在印刷和语音方面的爱好者背景。


3
首先,从听觉相似性的角度看一下无线电通信,例如空中交通管制操作手册(必须正确解释口头通信或导致人员死亡)和Ham Radio。例如5和9很容易混淆,因此被称为“ 5”和“ 9-a”
mattnz 2012年

@mattnz:谢谢,我忘记了5和9。音频质量也是一个重要因素:收音机,电话,录音室录音和面对面的交流都带来了自己独特的问题。
乔恩·普迪

1
从技术上讲,这是“尼娜”,四个是“较弱”。
Patrick Hughes


1

对于英语,soundexMetaphone算法编码哪些声音不明确。Soundex可能太简单了,但是Metaphone具有一些优点。是否需要序列“ OU”?这句话可以用多种方式来表达,因为这句话含混了;)


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.