日期:2014-03-12  浏览次数:21204 次

  随着XML在工业界被广泛的采用,在不同的领域不同的行业,各自派生出了一些在一些特定领域适用的XML子集。在这一系列文章中中将要次要引见的VoiceXML就是其中之一。它和WML的地位非常类似。WML是使用于无线上网中的特种言语,VoiceXML是使用于语音浏览的特种言语。无线上网(WAP)和语音浏览是如今网络发展的两大热点,XML在它们身上都找到了用武之地。

  整篇文章将比较引见XML在语音中使用的一些重要环节。除了VoiceXML之外,还会引见一些XML在语音技术中使用的其他方面。在这一部分中次要是背景知识的引见。

语音浏览器,VoiceXML诞生的温床

  电话的出现是为了方便通信。电脑的出现是为了计算。进入“后PC时代之”后,“电脑”同“网络”这两个词越来越靠近。如今,很多买电脑的人得以达目的就是为了上网。网络成了信息交换共享的一条捷径,人们纷纷“中弹落马”。以致于通过电话上网也提上了日程。越是简单通用的,就越是遭到最广泛普通消费者的青睐。越是遭到最广泛普通消费者的青睐的就越是被工业界大力推崇。

  有一点是毫无疑问的,那就是如今的电话比电脑要多。随便走在一个城市的街道上,您会很轻易地发现公用电话。但我如今还不敢想象在大街上随处可见的“公用电脑亭”,五角钱三分钟上网。不光是在城市,电话并不是什么稀罕玩艺,而要买一台电脑,不少人还是要咬一咬牙。而且,电话比电脑的这种优势还在不断扩大。团体挪动电话的发展正处于史无前例的高峰时期,置信将来的单人对单机并不是什么神话。

  另外,电话远比电脑具有亲和力。我置信许多人对电脑的操作都具有一定工具心思。不是怕原有的界面被改动后无法还原,就是怕不知道应该在哪里去修正想要的设置。这对曾经是比较敌对的视窗界面就是如此了,更不要去说什么满屏黑的Unix之类。而电话就不一样了,只要非常无限的几个键,遇到麻烦把话筒一挂再重新拿起就是了。而且关键的是电话听筒里说的是“人话”。

  所以我们说通过电话访问网络是非常有前途的。再加上如今还有一种发展趋势就是把多种界面访问方式,比如是语音、图像和触觉等,一同结合在电话上成为名副其实的PDA(团体数字助理),我们不得不在这里再一次对电话的发展前途夸耀一番。人们将可以在任何时间任何地点通过随手可得的“电话”,通过简单易懂的操作方法连接到网络。

语音浏览是网络的一种全新浏览方式

  对于一家小有规模的公司来说,拥有一台电话总机并不是一件什么新颖事。电话用户可以通过数字按键联络到不同的员工。还有一种普遍的电话总机功用是用或通过数字按键游离层状目录结构来获取信息。而我们要在这里探讨的语音浏览和这里的方式上有类似之处。用户次要是通过语音来发送本人的信息。我们还可以把服务的对象扩大到提供内容服务的网站上去。使用的联络网络也不一定要是公用电话网,还可以是因特网。

什么是语音浏览器

  语音浏览器是以语音输入为次要输入渠道,其他方式为辅助输入渠道,翻译解释执行语音标记言语,并能产生语音输出的设备。

  上面这段味如嚼蜡的解释源于W3C。就像要用一句话把人描述出来一样,它颇费周折地概述了一些空泛的特性。双腿直立行走,用上肢劳动的哺乳类动物云云。语音浏览器想要实现的是通过最具有亲和力的交流方式,把来自具有最丰富资源的网络上的信息通过声音提供应用户。

  明眼人一看便知,设计完成一个语音浏览器还有语音识别、语音理解和语音合成上的技术壁垒。当用户要通过语音发出命令时,语音浏览器要知道用户在说些什么?比较简单的是命令式语音识别。系统要求你只能说“蚊子”或是“苍蝇”。其他的都认为是非法输入。复杂的要牵涉到对一段语音的理解。比如说当用户说“今天星期几?”或是“今天是一个星期中的第几天?”时要知道是同一回事。这样的话,用户就方便了不少。而这就需求语音理解技术来处理了。语音合成也是必不可少的。当你要把浏览到的信息传送给用户时时通过语音。这可以是一段事先录好的自然人语音,也可以是通过文字到语音的TTS语音合成系统。可以非常明确的说,上面要用到的技术都是需求大量的技术积累才能实现的,绝不是一日之功。对于绝大多数设计实现语音浏览器的开发上来说都会很自然的去采用一些在语音方面颇有底蕴的公司所提供的技术产品支持。次要的精力都在集成之上。

  语音浏览器的次要特点是非常鲜明的。在许许多多普通的场合之下,通过近似自然对话的方式来发布命令,通过一种不同于HTML两维的浏览方式,时间上线性地收取信息。只是非常有诱惑力的。有很多情况之下,基本就不允许用眼睛来监督,如在开车的时候。用户只要通过非视觉的方式来控制。

  网页浏览器提供了在不同叶面之间跳转的方法,语音浏览器也可以从一段对话跳转到另一段。网页浏览器提供了添取、发送表单的方法,语音浏览器页可以设定用户的一段语音为一次有目的的输入。理想上语音浏览器和HTML叶面浏览器有非常类似之处。用GRE类比题的方式来表示就是:语音浏览器:VoiceXML::HTML浏览器:HTML。  在这一部分中让我们来看一看语音方面现有的XML标准化进程。

W3C在语音浏览上所作的任务

  作为一个权威的标准化组织,W3C和早就看上了语音浏览(Voice Browser)。W3C于1998年的10月份成立了一个名为“语音浏览器”的任务站。大家在这里可以联想一下,XML是最早于1996年底被提上议案的。任务站的目标非常明确,制定语音浏览方面的标准,迎接即将来临的语音浏览热潮。任务站的任务次要基于以下一些方面,我们还要在后面对其中的部分任务放大研讨。

  语音标识言语对于对话的需求说明

  简单的说,为了语音浏览器能够方便的结合不同的输入输出方式,和谐的同用户交互“对话”,需求对用来表示对话数据的标识言语进行限制。可以想象,用于表现平面网页的HTML就不能胜任语音浏览器。不但是由于它繁杂混乱,而且它的二维性质也使得它不能表示交互式的对话。

  标识言语当中对可反复使用对话的要求说明

  好比高级程序文语编程一样,有一些小的模块会是被经常反复使用的。这些小的模块被设计成为函数或是过程,每当要用的时候就调用一次。在语音浏览器使用的标识言语当中需求有这样的类似机制,用来表示那些经常会被反复使用的部分。这一点可以在后面的文章中具体的体会到。经常会被反复使用的部分包括简单的确认、收集电话号码、日期、金额、信誉卡信息和地址的信息等。

  标识言语当中语音识别语法层表示的需求说明

  前面我们曾经提到过语音浏览器的实现和语音技术的使用密不可分。为了实现语音数据的识别输入,语音浏览器会用到现成的语音识别平台。不同的语音识别方法有着不同的平台要求。如果只是独立人的小词汇量识别,我们还可能不需花费太多的时间在识别之上。但只需求求一旦稍微放松一点,语音识别的难度一下子就会变得很高。对于非独立人的小词汇量、带语法结构的语音识别,就需求在语音识别平台的接口上对带识别的语音输入语法结构做出具体的描述。而这种情况是如今普通的语音浏览器所遇到的最普遍情况。W3C在这里定义了一套这样的语法标识表示。

  标识言语中对自然言语处理的需求说明

  这其实就是前面我们曾经提到的语音理解方面的问题。这同上面的一点一样,和语音技术密切相关。定义了对于自然言语理解在语音浏览器实现当中的标识表示需求说明。

  标识言语中对语音合成的需求说明

  为了实现语音的输出,人们必需要用到语音合成。简单的把事先录制好的声音拼凑起来回放也可以视为语音合成中的一种。而实际当中用的更多的还是TTS(Text To Speech)。怎样表示要合成的语句呢?不同的语音平台有着不同的方法。W3C正是在笼统出这些特征的特性。比如说一句话中的某一个词要重读,某一句话是男声发音。通过标识言语,我们就可以统一的描述一段待合成的文字。

  下面我们将对一些W3C的部分任务放大研讨。

语音合成

  前面我们曾经谈到了一些语音合成的问题。当语音浏览器需求将输出的结果由字符变成自然语音时,我们必须时间把语音读本的一些言语特征事先标示出来提供应语音合成器。语音浏览器中这是用XML言语来实现的。

  所示文字数据从语音浏览器的前段处理得到后,被一种转换机制变成标识言语。这里的转换机制其实就是代码的开销。符合语音合成器的标识言语被送入特定的语音合成器当中,最终用户就可以听到自然语音了。

  请留意,语音合成方式并不是独一的。还有简单的方法是把文字数据非拆成一些经常会被反复使用的短语段,然后通过婚配的方法读取事先录制好的语音段,拼合成为一段自然语音。但这种方法的缺点解释非常明显的。首先是对文字数据的范围限制很大,一定实效词汇量的,并且有着固