从电报码到ASCII：字符编码的前世今生

当你敲击键盘输入字母A时，计算机内部存储的是一串数字01000001。这种将字符映射为数字的规则，我们称之为字符编码。今天，无论是发送短信、写代码还是阅读网页，背后都离不开一套稳定的编码系统。但你可能不知道，现代字符编码的源头，可以追溯到19世纪的电报时代。

从莫尔斯电码的点划组合，到博多码的5位二进制，再到ASCII的7位标准，字符编码的演进史，就是一部人类试图用机器高效传递文字信息的历史。

莫尔斯电码：二进制思维的启蒙

1837年，塞缪尔·莫尔斯发明了电报机和以其命名的莫尔斯电码。它将字母和数字映射为短促的“点”（dot）和稍长的“划”（dash）序列。例如，字母E是最短的·，而字母O是———。虽然莫尔斯电码不是等长编码，但它首次实现了将文字转换为电信号进行远距离传输，并让“编码”这个概念进入了人类视野。

莫尔斯电码中，SOS（国际求救信号）被编码为··· −−− ···，因为它的节奏简洁有力，易于识别。直到今天，许多在线工具仍能实现“文本与摩尔斯电码互转”，让普通人也能体验这种古老编码的魅力。

博多码：第一代实用数字编码

莫尔斯电码虽然有效，但长度可变、效率不高。1870年代，法国工程师埃米尔·博多发明了一种5位二进制编码，每个字符由5个等长的信号表示，这就是博多码。

5位二进制可以表示2^5=32种状态，对于26个英文字母来说勉强够用，但无法区分大小写，数字和标点也需要通过特殊控制字符来切换。博多码首次引入了“字符集”和“控制字符”的概念，例如专门用一个码位表示“切换到数字模式”。这种设计思想直接影响了后来的ASCII。

博多码广泛应用于电传打字机（Teletype），让文字可以像打字一样输入并传输。到20世纪中叶，电传打字机已成为计算机的标准输入输出设备，而它需要一个统一的编码标准。

ASCII的诞生：统一与妥协

1960年代，计算机厂商各自为政，IBM、AT&T等公司都有自家的字符编码方案。不同设备之间无法互通，给数据交换带来了巨大障碍。美国国家标准协会（ASA）决定制定一套统一的字符编码标准，这就是ASCII——美国信息交换标准代码。

1963年，第一版ASCII标准发布，1967年进行重大修订，最终形成了我们熟知的7位编码，128个字符。它包含：

33个控制字符（0-31及127）：如NUL空字符、LF换行、CR回车、TAB制表符。这些字符源自电传打字机的机械操作，却在数字时代被赋予了新的使命。
95个可打印字符（32-126）：包括空格、数字0-9、大写字母A-Z、小写字母a-z和标点符号。

ASCII的设计充满了精妙的数学美感。例如，数字0的码值是48（二进制0110000），1是49，以此类推，这样数字字符的低4位恰好等于数值本身，方便计算机进行快速转换。又如，大写字母A（65）和小写字母a（97）之间恰好相差32，这意味着只需修改一个比特位（第5位），即可实现大小写转换——这个技巧至今仍被编程语言广泛使用。

你可以打开任意一个ASCII码查询工具，输入字母A，会看到它的十进制是65，二进制是01000001；而a是97，二进制是01100001。区别只在于从右往左数第6位是0还是1，这正是编码设计者的匠心所在。

从ASCII到Unicode：永不满足的容量

ASCII解决了英语世界的编码问题，但当计算机走向全球时，7位128个字符显然不够用。法语的重音符号、德语的变音字母、中文的数万个汉字，都无法在ASCII中找到位置。

于是出现了扩展ASCII，利用字节的最高位（第8位），将编码范围扩大到128-255。不同国家定义了不同的扩展页，例如ISO 8859-1包含了西欧语言的字符，而ISO 8859-5则用于西里尔字母。但扩展ASCII的碎片化问题严重，同一个码值在不同语言环境中可能代表完全不同的字符。

最终，Unicode 和 UTF-8 的出现解决了这一困境。Unicode为世界上所有的字符分配唯一的码点，而UTF-8作为一种变长编码，完美兼容了ASCII——所有ASCII中的字符在UTF-8中的编码保持不变。这意味着，一份纯英文的ASCII文本，同时也是一份合法的UTF-8文本，无需任何转换。这种向后兼容的设计，让ASCII成为了现代编码体系的基石。

从电报线到光纤，编码从未改变本质

回顾历史，从莫尔斯电码的点划，到博多码的5位，再到ASCII的7位，人类对字符编码的探索始终围绕三个核心目标：标准化、高效性、可扩展性。

今天，当你用键盘敲下Hello World，背后默默运转的仍是半个多世纪前定下的ASCII规则。下次使用在线ASCII码表工具查阅编码时，不妨想一想：你正在触摸的，是一部跨越170年的信息编码史。