MSP分布式架构实现云时代语音应用开发_【华易动力

公司新闻

当前位置：首页 → 新闻中心 → 全部信息

MSP分布式架构实现云时代语音应用开发

更新时间：2014/6/5 点击：3447次

语音识别（Auto Speech Recognize，ASR）技术，是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术，目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜索、语音控制等全新应用领域的深入应用，语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。自动语音识别技术所要解决的问题是让计算机能够“听懂”人类的语音，将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色，相当于给计算机系统安装上“耳朵”，使其具备“能听”的功能，进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。

语音合成（Text To Speech，TTS）技术能够自动将任意文字实时转换为连续的自然语音，是一种能够在任何时间、任何地点，向任何人提供语音信息服务的高效便捷手段，非常符合信息时代海量数据、动态更新和个性化查询的需求。

iFLY Mobile Speech Platform（以下简称MSP）是一个应用于移动互联网的语音服务平台，其主要目标是：

1. 实现可面向移动2G/3G网络及互联网提供语音服务的服务器，在现有科大讯飞电信级语音服务平台ISP基础上为移动终端应用程序提供多路并发的语音合成、语音识别、语音听写功能，通过架设在互联网的语音应用服务器，用户可以随时随地获得高质量的语音服务；

2. 实现基于移动终端以及桌面平台的语音应用客户端，提供统一的语音应用开发接口，通过该接口用户可以便捷地开发语音应用；

MSP讯飞语音云平台采用基于互联网的C/S架构，基本拓扑结构如下图：

从上图可以看到， MSP系统部署在互联网上，通过运营商的三网接入，无论是传统的互联网终端还是移动互联网终端都能够通过网络获得语音服务。MSP在互联网上建立多个云服务中心，每个服务中心能够独立提供稳定的互联网语音服务，云服务中心之间自动同步数据。通过这种机制，用户可以获得高度可用、流畅的语音功能支持。

下图是MSP产品的主要功能组成模块和组成结构：

上图蓝色区域为MSP系统的实现范围，浅色区域是与MSP密切相关的组件或第三方角色。

MSP系统主要包括语音应用接口（Speech Programming Interface，SPI）、客户端（Mobile Speech Client，MSC）、服务器（Mobile Speech Server，MSS）和基础支撑（MSP Infrastructure）四个层次，这四个逻辑层从用户到服务器操作系统底层，共同构成了完整的MSP 系统架构。

应用接口是MSP系统提供的开发接口，集成开发人员应关注这些接口的定义、功能和使用方法。MSC负责实现这些接口，同时封装了网络通讯、音频编解码（Audio Codec）、语音检测（VAD）、协议解析（MSSP）等功能，同时为了便于开发和使用，系统在这一层提供了一系列高效、易用的工具。MSS提供语音服务的服务端实现，使用服务端的识别引擎提供语音功能，同时提供管理和维护功能；基础支撑层是MSP的服务基础，负责提供适合云计算架构的负载均衡、并行计算、数据存储等功能。

MSC为多种终端环境提供了语音开发接口，包括Android、iOS、Symbian、Windows Mobile/CE、MTK等。

[返回]