视觉和听觉上清晰的拉丁字母子集？

13

假设您给某人一张卡片，上面印有代码“ 5SBDO0”。

在某些字体中，字母“ S”很难从视觉上与数字5区分开（例如，数字零和字母“ O”）。

大声朗读代码，可能很难区分“ B”和“ D”，必须说“ B代表男孩”，“ D代表狗”或使用“ 语音字母 ”。

在大多数情况下，大声朗读时字母和数字的最大子集是什么？

背景：

我们希望生成一个短字符串，该字符串可以编码尽可能多的值，同时仍易于通信。

假设您有一个6个字符的字符串“ 123456”。在基数10中，这可以编码10 ^ 6个值。

在十六进制“ 1B23DF”中，您可以用相同数量的字符对16 ^ 6个值进行编码，但是当大声读取时，这听起来可能会模棱两可。（“ B”对“ D”）

同样，对于任何N个字符的字符串，您将获得（字母的大小）^ N个值。

由于要很容易地容纳在人类工作记忆容量的范围内，因此该字符串的长度限制为大约六个字符。

因此，要找到我们可以编码的最大值数量，我们需要找到最大的字母/数字明确集合。我们没有理由不考虑字母GZ和一些常见的标点符号，但是我不想手动成对比较“ G听起来像A吗？”，“ G听起来像B吗？”，“是否我自己听起来像C”。我们知道这将是O（n ^ 2）个语言工作=）...

design

— elliot42
source

6

请注意，在不同的语言中，发音相似的字母可能会有很大差异……

— Michael Borgwardt 2012年

此外，究竟是什么的拉丁字母？

— MSalters 2012年

另请参阅我在相关StackOverflow问题中的答案。

— MSalters 2012年

为了视觉上的区别，Base 32是一种标准编码，用于限制符号的相似性。

— barjak 2012年

@MSalters“拉丁文字”是一种语言学观点，就我们的目的而言，我的意思是“从已编码为Unicode的拉丁文字子集中选择”，例如en.wikipedia.org/wiki/ISO/IEC_8859-1

— elliot42

15

您应该通过视觉相似性将字母数字集划分为组，并从每个组中选择一个“最具标志性”的代表。尽管您可以在其上运行用户测试，但这有点主观。您做出的选择还取决于图形是打印还是手写的。例如：

{ O，0，Q，D }
{ I，L，1 }
{ B，8 }
{ Z，2 }
{ S，5 }
{ 7，T }
{ U，V，Y }

同样，通过名称发音的语音相似性来划分字符：

{ A [ʔeɪ]，8 [ʔeɪ（ʔ/ t）]}
=以[ʔeɪ]开头
{ P [pi：]，B [bi：]，V [vi：]，D [di：]，T [ti：]，E [ʔi：]}
=停止/摩擦+ [i：]
{ G [ʤi：]，C [si：]，Z [zi：]，3 [θɹi：]}
=摩擦音/ 附属音（簇）+ [i：]
{ M [ɛm]，N [ɛn]}
= [ɛ] +鼻
{ S [ɛs]，F [ɛf]，X [ɛks]}
= [ɛ] +擦音/倒带
{ I [ʔaɪ]，Y [waɪ]，5 [faɪv]，9 [naɪn]}
=辅音+ [aɪ] +（辅音）
{ Q [kjʉ：]，U [jʉ：]，2 [t（j）ʉ：]}
=辅音+ [（j）ʉ：]

当然，这些并不是唯一可能的分区，而是目前想到的。无论如何，它们应该足以使您开始进行进一步的测试。此外，这些内容也不受任何专业人士的支持-我仅引用我在印刷和语音方面的爱好者背景。

— 乔恩·普迪
source

3

首先，从听觉相似性的角度看一下无线电通信，例如空中交通管制操作手册（必须正确解释口头通信或导致人员死亡）和Ham Radio。例如5和9很容易混淆，因此被称为“ 5”和“ 9-a”

— mattnz 2012年

@mattnz：谢谢，我忘记了5和9。音频质量也是一个重要因素：收音机，电话，录音室录音和面对面的交流都带来了自己独特的问题。

— 乔恩·普迪

1

从技术上讲，这是“尼娜”，四个是“较弱”。

— Patrick Hughes

3

您可以使用Mechanical Turk让真实的人对所有26 ^ 2对字母进行听觉和视觉相似度评定。好处是您甚至可以通过这种方式获取各种本地语言的数据。

— 迈克尔·博格沃特
source

1

对于英语，soundex和Metaphone算法编码哪些声音不明确。Soundex可能太简单了，但是Metaphone具有一些优点。是否需要序列“ OU”？这句话可以用多种方式来表达，因为这句话含混了;）

— 杂项
source

0

乔恩·普迪（Jon Purdy）的上述回答似乎是最正确的。出于实际目的，我正在尝试z-base-32一种非标准的base32编码，其设计时考虑了可通信性。它看起来很实用，尽管并不理想-例如，他们明确地没有专注于语音歧义消除。

http://philzimmermann.com/docs/human-iented-base-32-encoding.txt

http://pypi.python.org/pypi/zbase32/

— elliot42
source