日期:2008-07-04 浏览次数:21334 次
原文地址:http://www.joelonsoftware.com/articles/Unicode.html
作者:Joel Spolsky
译文:http://local.joelonsoftware.com/wiki/Talk:Chinese_(Simplified)
你曾经能否觉得HTML中的"Content-Type"标签充满奥秘?虽然你知道这个东西必须出如今HTML中,但对于它到底干吗你可能一无所知。
你能否曾经收到过来自你保加利亚朋友的邮件,四处都是"???? ?????? ??? ????"?
我很失望,由于我发现许多软件开发人员到如今为止都还没有对字符集、编码、Unicode有一个清晰的认识,这是个理想。几年前,在测试FogBUGZ项目时,忽然想看看它能不能接收用日文写的电子邮件。这个世界上会有人用日文写电子邮件?我不知道。测试结果很蹩脚。我细心看了用来解析MIME (Multipurpose Internet Mail Extenisons)格式的邮件所用的ActiveX控件,发现了它在字符集上面做的蠢事。于是我们不得不重新写一段代码,先消弭Active控件的错误,然后再完成正确的转换。类似的事情在我研讨另一个商业库的时候同样发生了,这个库关于字符编码这部分的实现几乎糟透了。我找到它的开发者,把存在问题的包指给他,他却表示对于此无能为力。像很多程序员一样,他只希望这个缺陷会被人们遗忘。
理想并非如他所愿。由于我发现,像PHP这么流行的网页开发工具,竟然在实现上也完全忽略了多种字符编码的存在(译者注:这篇文章写于2003年,如今的 PHP可能曾经纠正了这个问题吧),盲目地只使用8个比特来表示字符,于是开发优秀的国际化的Web使用程序变成了一场梦。我想说,受够了。
我申明:在2003年,如果你是一个程序员,但你却对字符、字符集、编码和Unicode一无所知,那么你别让我抓到你。如果落在我手里,我会让你待在潜水艇里剥六个月的洋葱,我发誓。
另外,还有一件事:
在这篇文章里,我所讲的是每一个任务中的程序员都应该知道的知识。所有以为"纯文本 = ASCII码 = 一个字符就是8比特"的人不单单错了,而且错得离谱。如果你仍然坚持使用这种方式编写程序,那么你比一个不置信细菌的存在医生好不到哪里去。所以在你读完这篇文章以前,不要再写半行代码。
在我开始之前,必须说明白,如果你曾经了解了国际化,可能你会觉得这篇文章过于简单。没错,我的的确确是想架一座最短的桥,让任何人都可以理解发生了什么事,懂得如何写出可以在非英文言语环境是正常任务的代码。还得指出,字符处理仅仅是软件国际化中的一小部分,但一口吃不成个胖子,今天我们只看什么是字符集。