杂志信息网-创作、查重、发刊有保障。

语音识别技术的研究现状与展望论文怎么写

发布时间:2024-09-08 14:32:32

语音识别技术的研究现状与展望论文

1绪论1研究背景与研究目的意义中国互联网络信息中心(CNNIC,2018)发布了截至2018年12月的第43次中国互联网发展统计报告。根据该报告,截至2018年12月,中国互联网用户数量为29亿,并且每年保持在5000多万增量。而且这种趋势将在未来几年继续保持。5G时代的来临将会加快促进互联网与其他产业融合,网络规模必然会进一步增大。传统的网络管理系统以分布式网络应用系统为基础,采用软件和硬件相结合的方式。SNMP协议是目前网络管理领域运用最为广泛的网络管理协议,它将从各类网络设备中获取数据方式进行了统一化,几乎所有的网络设备生产厂商都支持此协议。然而传统的基于SNMP的网络管理软件大多基于C/S架构,存在着扩展性和灵活性差,升级维护困难等缺点,对网为网络的管理带来了一定程度的不便。因此,基于三层的网管系统己经成为发展趋势,随着Web技术迅猛发展,诞生了以Web浏览器和服务器为核心,基于B/S ( Browser/Server)架构的“Web分布式网络管理系统”,它具有不依赖特定的客户端应用程序,跨平台,方便易用,支持分布式管理,并且可动态扩展和更新等优点。本文将重点研究基于BP故障诊断模型,实现了一种以接口故障为研究对象的智能网络管理系统模型,并以此为基础,设计与实现基于web的智能网络管理系统,不仅可以通过对网络数据实时监控,而且基于BP网络故障诊断模型可以诊断通信网中的接口故障,在一定程度上实现网络故障管理的自动化。该系统在保证网络设备提供稳定可靠的网络服务同时,也可以降低企业在维护网络设备上的成本。2国内外研究现状网络设备管理是指对各种网络设备(如核心层、汇接层、接入层路由与交换设备、服务器和计算机)进行各种操作和相关配置,管理服务器(Manager)用来处理网络信息,配合管理服务器对网络信息处理并管理的实体被称为代理服务器(Agent),被管对象是指用于提供网络服务或使用网络服务等设备的全部资源信息,各种不同的被管对象构成了管理信息库。在实际的网络管理过程当中,管理服务器和代理服务器以及代理服务器和被管对象三种实体之间都是通过规范的网络管理协议来进行信息的交互(王鹤 2015)。相比国外的网络管理系统及产品,国内相应的网络管理系统和产品起步比较晚,但是随着互联网技术的发展网络管理软件发展势头迅猛,诞生了很多优秀的网络管理软件,这些软件已经广泛运用在我国网络管理领域。1国外研究现状目前国外大型网络服务商都有与其产品相对应的网络管理系统。从最初步的C/S架构逐步过渡到现在的B/S架构。比较著名的:Cabletron系统公司的SPECTRUM,Cisco公司的CiscoWorks,HP公司的OpenView,Tivoli系统公司的TH NetView。这些网络管理产品均与自家产品相结合,实现了网络管理的全部功能,但是相对专业化的系统依旧采用C/S架构。NetView这款管理软件在网络管理领域最为流行。NetView可以通过分布式的方式实时监控网络运行数据,自动获取网络拓扑中的变化生成网络拓扑。另外,该系统具有强大的历史数据备份功能,方便管理员对历史数据统计管理。OpenView具有良好的兼容性,该软件集成了各个网络管理软件的优势,支持更多协议标准,异种网络管理能力十分强大。CiscoWorks是Cisco产品。该软件支持远程控制网络设备,管理员通过远程控制终端管理网络设备,提供了自动发现、网络数据可视化、远程配置设备和故障管理等功能。使用同一家产品可以更好的服务,因此CiscoWorks结合Cisco平台其他产品针对Cisco设备可以提供更加细致的服务。Cabletron的SPECTRUM是一个具有灵活性和扩展性的网络管理平台,它采用面向对象和人工智能的方法,可以管理多种对象实体,利用归纳模型检查不同的网络对象和事件,找到它们的共同点并归纳本质。同时,它也支持自动发现设备,并能分布式管理网络和设备数据。2国内研究现状随着国内计算机发展迅猛,网络设备规模不断扩大,拓扑结构复杂性也随之日益增加,为应对这些问题,一大批优秀的网络管理软件应运而生。像南京联创OSS综合网络管理系统、迈普公司Masterplan等多个网络管理系统。华为公司的iManager U2000网络管理系统,北京智和通信自主研发的SugarNMS开源网络管理平台,均得到较为广泛应用。Masterplan主要特点是能够对网络应用实现良好的故障诊断和性能管理,适用于网络内服务器、网络设备以及设备上关键应用的监测管理。SugarNMS具有一键自动发现、可视化拓扑管理、网络资源管理、故障管理、日志管理、支付交付等功能,并提供C/S和B/S两种使用方式。iManager U2000定位于电信网络的网元管理层和网络管理层,采用开放、标准、统一的北向集成,很大程度上缩短OSS集成时间,系统运行以业务为中心,缩短故障处理时间,从而减少企业故障处理成本。近些年来,随着人工智能技术的崛起,越来越多的企业开始将人工智能技术应用在网络管理上面,替代传统的集中式网络管理方式。为了减小企业维护网络的成本,提高网管人员工作效率,智能化、自动化的网络管理系统成为许多学者研究的热点。3神经网络在网络管理中的适用性分析网络管理的功能就是对网络资源进行管控、监测通信网络的运行状态以及排查网络故障。管控网络资源,本质上就是管理员为了满足业务需求下发相关设备配置命令改变网络设备状态,以保证稳定的服务;监测网络运行状态一般是指周期的或者实时的获取设备运行状态进行可视化,以方便管理员进行分析当前设备是否正常运行。排查网络故障是管理员通过分析网络设备运行数据与以往数据进行比较或者根据自身经验进行分析,确定故障源头、故障类别、产生原因、解决方法。故障排除是针对前一阶段发现的网络故障进行特征分析,按照诊断流程得出结果,执行特定的指令动作来恢复网络设备正常运行(洪国栋,2016)。神经网络具有并行性和分布式存储、自学习和自适应能力、非线性映射等基本特点。当下最为流行的神经网络模型就是BP(Back-Propagation)神经网络,是一种按照误差逆向传播算法训练多层前馈神经网络,属于监督式学习神经网络的一种。该模型分为输入层、隐含层以及输出层,网络模型在外界输入样本的刺激不断改变连接权值,将输出误差以某种形式通过隐含层向输入层逐层反转,使得网络输出不断逼近期望输出,其本质就是连接权值的动态调整。BP神经网络拥有突出的泛化能力,善于处理分类问题。BP网络是目前常用的误差处理方式,在众多领域得到了广泛的应用,它的处理单元具有数据量大、结构简单等特点,并且神经网络以对大脑的生理研究成果为基础,模拟大脑某些机制与机理组成十分繁杂的非线性动力学系统,其在处理网络设备运行中的数据时以及在比较模糊信号问题的时候,能够自主学习并得出需要的结果。能够将模型中输入输出矢量进行分类、连接、来适应复杂的传输存储处理。因此,本文会基于现有网络管理技术结合BP神经网络去解决网络故障问题。4本文主要研究目标1本文研究目标针对传统网络管理中故障方案的问题与不足,本文探究基于BP神经网络的方法来构建基于通信网接口故障诊断模型。通过构建的通信网接口故障诊断模型可以有效的诊断接口故障并判别出故障类型。推动现有网络管理系统更趋近于智能化。以此为基础,分析、设计、实现基于三层架构的智能网络管理系统2技术路线智能网络研究首先要确定该系统的开发技术路线,课题研究的主要过程首先是在查阅相关科研资料的基础上,搭建实验环境。在保证网络正常通信的前提下采集各个端口的流入流出流量,记录设备的运行状态并对设备进信息进行管理。同时布置实验环境相应故障,包括:改变端口状态、更改端口ip地址、子网掩码,采集通讯网络接口故障发生时网络拓扑中产生的异常数据。查阅BP神经网络在故障在诊断方面的相关论文,基于网络通讯设备接口的常见故障以及相关故障文档构建BP神经网络故障模型,并判断故障模型的有效性。逐步地实现系统的全部功能。最后进行系统测试,得出结论,应用于实际。5本文组织结构本文主要由六个章节构成,各章节主要内容如下:第一章绪论。本章首先简要介绍了网络管理系统当前的发展及应用现状从而进一步分析出建立智能网络管理系统的重要意义。阐述了网络管理系统国内外研究现状。最后论述了本文研究目的与组织结构。第二章相关概念及相关技术。本章对SNMP的相关技术进行详细介绍,SNMP组织模型 、SNMP管理模型、SNMP信息模型、SNMP通讯模型。然后对前端框架Vue和绘图插件Echarts技术进行介绍,其次介绍了常见的故障分析技术,专家系统、神经网络等,最后对神经网络基本概念和分类进行简要描述。第三章基于BP神经网络故障推理模型。介绍了BP神经网络的基本概念、网络结构、设计步骤、训练过程,以接口故障为例详细介绍了BP神经网络故障模型的构建过程。第四章智能网络管理系统分析与系统设计。首先进行了需求分析,其次对体系结构设计、系统总体模块结构设计进行说明,对系统各个功能模块分析设计结合活动图进行详细说明,最后对数据库设计进行简要说明。第五章智能网络管理系统的实现。对整体开发流程进行了说明,对用户管理模块、配置管理模块、设备监控模块、故障诊断模块实现流程进行描述并展示实现结果。第六章系统测试与结论。并对系统的部分功能和性能进行了测试,并加以分析。第七章总结与展望。总结本文取得的研究成果和存在的问题,并提出下一步改进系统的设想与对未来的展望。2相关概念及相关技术1网络管理概述网络管理就是通过合适手段和方法,确保通信网络可以根据设计目标稳定,高效运行。不仅需要准确定位网络故障,还需要通过分析数据来预先预测故障,并通过优化设置来降低故障的发生率。网络管理系统的五大基本功能,分别为:配置管理、性能管理、故障管理、计费管理和安全管理:1)配置管理:配置管理是最重要和最基础的部分。它可以设置网络通讯设备的相关参数,从而管理被管设备,依据需求周期的或实时的获取设备信息和运行状态,检查和维护设备状态列表,生成数据表格,为管理员提供参考和接口以更改设备配置。2)性能管理:性能管理是评估系统网络的运行状态和稳定性,主要工作内容包括从被管理对象获取与网络性能相关数据,对这些数据进行统计和分析,建立模型以预测变化趋势、评估故障风险,通过配置管理模块修改网络参数,以确保网络性能最优利用网络资源保证通信网络平稳运行。3)故障管理:故障管理的主要功能就是及时辨别出网络中出现的故障,找出故障原因,分析并处理故障。故障管理一般分为四个部分:(1)探测故障。通过被管设备主动向管理站发送故障信息或者管理站主动轮询被管设备两种方式发现故障源。(2)发出告警。管理站发现故障信息之后,会以短信、信号灯等方式提示管理员。(3)解决故障。对故障信息进行分析,明确其故障原因和类型,找到对应方法得以解决。(4)保存历史故障数据。对历史故障数据进行维护备份,为以后的故障提供一定依据,使得处理网络故障更为高效。4)计费管理:计费管理主要功能是为客户提供一个合理的收费依据,通过将客户的网络资源的使用情况进行统计,例如将客户消费流量计算成本从而向客户计费。5)安全管理:目的就是保证网络能够平稳安全的运行,可以避免或者抵御来自外界的恶意入侵,防止重要数据泄露,例如用户的个人隐私泄露问题等。根据网络管理系统的体系结构和ISO定义的基本功能,基于Web的网络管理系统基本模型如图基于Web的网络管理系统基本模型所示,整个模型包括六个组成部分:Web浏览器,Web服务器,管理服务集,管理信息库,网络管理协议,被管资源。 2 SNMP协议简单网络管理协议SNMP(Simple Network Management Protocol),既可以作为一种协议,也可以作为一套标准。事实上SNMP己经成为网络管理领域的工业标准,从提出至今共有八个版本,在实践中得到广泛应用的有三个版本,分别是SNMPv1, SNMPv2c和SNMPv3(唐明兵2017)。最初的SNMPv1主要是为了满足基于TCP/IP的网络管理而设计的,但是随着网络管理行业的迅猛发展,第一版本的SNMP协议已经不适应网络行业的发展,身份验证、批量数据传输问题等暴露导致SNMPv1难以支持日益庞大的网络设备。第二版本就演变成了一个运行于多种网络协议之上的网络管理协议,较第一版本有了长足的进步,不仅提供了更多操作类型,支持更多的数据类型而且提供了更加丰富的错误代码,能够更加细致的区分错误,另外支持的分布式管理在一定程度上大大减轻了服务器的压力。但是SNMPv2c依旧是明文传输密钥,其安全性有待提高。直到1998年正式推出SNMPv3,SNMPv3的进步主要体现在安全性能上,他引入USM和VACM技术,USM添加了用户名和组的概念,可以设置认证和加密功能,对NMS和Agent之间传输的报文进行加密,提升其安全性防止窃听。VACM确定用户是否允许特定的访问MIB对象以及访问方式。1 SNMP管理模型与信息模型SNMP系统包括网络管理系统NMS(Network Management System)、代理进程Agent、被管对象Management object和管理信息库MIB(Management Informoation Base)四部分组成管理模型图如图所示:1)NMS称为网络管理系统,作为网络管理过程当中的核心,NMS通过SNMP协议向网络设备发送报文,并由Agent去接收NMS发来的管理报文从而对设备进行统一管控。NMS可以主动向被管对象发送管理请求,也可以被动接受被管对象主动发出的Trap报文。2)Agent相当于网络管理过程中的中间件,是一种软件,用于处理被管理设备的运行数据并响应来自NMS的请求,并把结果返回给NMS。Agent接收到NMS请求后,通过查询MIB库完成对应操作,并把数据结果返回给NMS。Agent也可以作为网络管理过程中的中间件不仅可以使得信息从NMS响应到具体硬件设备上,当设备发生故障时,通过配置Trap开启相应端口,被管设备也可以通过Agent主动将事件发送到NMS,使得NMS及时发现故障。3)Management object指被管理对象。一个设备可能处在多个被管理对象之中,设备中的某个硬件以及硬件、软件上配置的参数集合都可以作为被管理对象。4)MIB是一个概念性数据库,可以理解为Agent维护的管理对象数据库,里面存放了被管设备的相关变量信息。MIB库定义了被管理设备的一系列属性:对象的名称、对象的状态、对象的访问权限和对象的数据类型等。通过读取MIB变量的值, Agent可以查询到被管设备的当前运行状态以及硬件信息等,进而达到监控网络设备的目的。Agent可以利用修改对应设备MIB中的变量值,设置被管设备状态参数来完成设备配置。SNMP的管理信息库是树形结构,其结构类型与DNS相似,具有根节点且不具有名字。在MIB功能中,每个设备都是作为一个oid树的某分支末端被管理。每个OID(object identifier,对象标识符)对应于oid树中的一个管理对象且具有唯一性。有了树形结构的特性,可以高效迅速地读取其中MIB中存储的管理信息及遍历树中节点,读取顺序从上至下。目前运用最为广泛的管理信息库是MIB-Ⅱ,它在MIB-Ⅰ的基础上做了扩充和改进。MIB-Ⅱ结构示意图如3图如所示:(1)system组:作为MIB中的基本组,可以通过它来获取设备基本信息和设备系统信息等。(2)interfac组:定了有关接口的信息,例如接口状态、错误数据包等,在故障管理和性能管理当中时常用到。(3)address translation组:用于地址映射。(4)ip组:包含了有关ip的信息,例如网络编号,ip数据包数量等信息。(5)icmp组:包含了和icmp协议有关信息,例如icmp消息总数、icmp差错报文输入和输出数量。(6)tcp组:包含于tcp协议相关信息,例如tcp报文数量、重传时间、拥塞设置等。应用于网络拥塞和流量控制。(7)udp组:与udp协议相关,可以查询到udp报文数量,同时也保存了udp用户ip地址。(8)egp组:包含EGP协议相关信息,例如EGP协议下邻居表信息、自治系统数。(9)cmot组:为CMOT协议保留(10)transmission组:为传输信息保留(11)snmp组:存储了SNMP运行与实现的信息,例如收发SNMP消息数据量。2 SNMP通讯模型SNMP规定了5种协议基本数据单元PDU,用于管理进程与代理进程之间交换。(1)get-request操作:管理进程请求数据。(2)get-next-request操作:在当前操作MIB变量的基础上从代理进程处读取下一个参数的值。(3)set-request操作:用于对网络设备进行设置操作。(4)get-response操作:在上面三种操作成功返回后,对管理进程进行数据返回。这个操作是由代理进程返回给管理进程。(5)trap操作:SNMP代理以异步的方式主动向SNMP管理站发送Trap数据包。一般用于故障告警和特定事件发生。SNMP消息报文包含两个部分:SNMP报头和协议数据单元PDU。根据TCP/IP模型SNMP是基于UDP的应用层协议,而UDP又是基于IP协议的。因此可以得到完整的SNMP报文示意图如下:(1)版本号表示SNMP版本,其中版本字段的大小是版本号减1,如果SNMPv2则显示的字段值是1。(2)团体名(community)本质上是一个字符串,作为明文密钥在管理进程和代理进程之间用于加密传输的消息,一般默认设置成“public”。 (3)请求标识符(request ID)用于消息识别。由管理进程发送消息时自带一个整数值,当代理进程返回消息时带上该标识符。管理进程可以通过该标识符识别出是哪一个代理进程返回的数据从而找到对应请求的报文。(4)差错状态(error status)表示出现错误时由代理进程返回时填入差错状态符0~5中的某一数字,数字对应相关错误信息。差错状态描述符如下表:(5)差错索引(error index)表示在通信过程当中出现上表2的差错时,代理进程在应答请求时设置一个整数,整数大小对应差错变量在变量列表中偏移大小。(6)变量名-值对以key-value的方式存储变量名称和对应值。(7)trap报文是代理进程主动向管理进程发送的报文,不必等待管理进程下一次轮询。SNMPv2的trap报文格式较SNMPv1的trap报文格式更趋近于普通的SNMP响应报文,更加统一化。以SNMPv2为例的trap报文格式如下:trap类型已定义的特定trap共有7种,后面的则是由供养商自己定制。Trap类型如下表所示:3 SNMP组织模型SNMP代理组织分成分散式和集中式模型。在分散模型中,每一个服务器对应一个SNMP代理,可以理解为一一对应的关系,管理站分别与每个被管服务器上的代理进行通信。集中模型当中,在管理服务器上只创建一个SNMP代理。管理站只与管理管理服务器上的SNMP代理进行通信, SNMP代理接收来自某一固定区域的所有数据。如图6所示:3 Vue为实现前后端分离开发的理念,Vue应运而生。作为构建用户界面框架的Vjs简单易上手使得前端开发人员不必再编写复杂的DOM操作通过this来回寻找相关节点,很大程度上提高了开发的效率。通过MVVM框架,可以自动完成视图同步数据更新,在对实例new Vue(data:data)进行声明后data中数据将与之相应的视图绑定,一旦data中的数据发生变更,视图中对应数据也会发生相应改变。Vjs基于MVVM框架实现了视图与数据一致性,MVVM框架可以分为三个部分:Model、ViewModel、View。MVVM框架模式:Vjs的理念是“一切皆为组件”,可以说组件是Vjs的最强大功能。组件可以扩展HTML元素,将HTML、CSS、JavaScript封装成可重用的代码组件,可以应用在不同的场景,大大提高效率。它与传统的JavaScript相比,采用虚拟DOM渲染页面。当有数据发生变更时,生成虚拟DOM结构与实际页面结构对比,重新渲染差离部分,进一步提供了页面性能。4 EchartsEcharts(Enterprise Charts),它是由百度公司研发的纯JavaScript图表库,可以流畅的运行在PC和移动设备上。ECharts兼容当前主流浏览器,底层依赖轻量级Canvas库ZRender,Echarts提供直观、生动、交互性强、高度自定义化的可视化图标。ECharts包含了以下特性:1)丰富的可视化类型:既有柱状图、折线图、饼图等常规图,也有可用于地理数据可视化的热力图、线图等,还有多维数据可视化的平行坐标。2)支持多种数据格式共存:在0+版本中内置的dataset属性支持直接传入包括二维表中。3)多维数据的支持:可以传入多维度数据。4)移动端优化:特别针对移动端可视化进行了一定程度优化,可以使用手指在坐标系中进行缩放、平移。5)动态类型切换:支持不同类型图形随意切换,既可以用柱形图也可以用折线图展示统一数据,可以从不同角度展现数据。6)时间轴:对数据进行可视化的同时,可以分为周期或者定时进行展示,所有利用时间轴可以很好的动态观察数据的变化。5目前常见的故障诊断方法1基于专家系统的故障诊断方法专家系统是目前最常使用的诊断方法。通俗来讲,专家系统就是模拟人类专家去解决现实中某一特定领域的复杂问题。专家系统接收用户界面数据,将数据传递到推理引擎进行推理,做出决策并执行。专家系统作为人工智能的前身,从上世纪60年代开始到现在专家系统的应用已经产生了巨大的经济效益和社会效益,灵活可靠、极高的专业水平和良好的有效机制使得专家系统已经成为最受欢迎、最活跃的领域之一。2基于模糊理论的故障诊断方法在实际的工业生产过程当中,设备的“故障”状态与“正常”状态之间并没有严格的界限,它们之间存在一定的模糊过渡状态,并且在特征获取、故障判定过程中都中存在一定的模糊性。 因此,该方法不需要建立精确的数学分析模型,本质上是一个模式识别问题。 根据建议的症状参数,得出系统状态。 通常选择“择近原则”和“最大隶属原则”作为基本诊断原理(尤海鑫,2012)。3基于免疫算法的故障诊断方法通过模拟自然生物免疫系统的功能,即快速识别外来生物和外来生物,最后通过自我排斥将异物排出体外。生物免疫系统还建立了一套算法来测试各种条件,主要是在线检测,通过不合格的自我和外部组织消除系统来实现故障识别的能力。免疫算法的故障诊断方法属于并行处理能力,可以进行很多复杂的操作和处理。同时可以与遗传算法等其他智能优化算法结合使用,以增强自适应能力和自学习能力。从公开的文献中,学者们并不热衷于这种原理的方法。一般来说,在故障诊断领域,目前人工免疫理论的研究尚处于萌芽阶段。4基于神经网络的故障诊断方法神经网络是由大量简单的神经节点组成的复杂网络,以网络拓扑分布的方式存储信息,利用网络拓扑分布和权重实现对实际问题的非线性映射调整,并运用使用全局并行处理的方式,实现从输入空间到输出空间的非线性映射。该方法属于典型的模型诊断模式,不需要了解内部诊断过程,而是使用隐式方法完全表达知识。在获取知识时,它将自动生成由已知知识和连接节点的权重构成的网络的拓扑结构,并将这些问题完全连接到互连的网络中,有利于知识的自动发现和获取。并行关联推理和验证提供了便利的途径;神经网络通过神经元之间的交互来实现推理机制。

做好嘈杂环境的语音识别,难点是如何将杂音与人声分离。传统的音频识别需要人工设计模块,并依靠Hidden Markov Models,常常需要大量的人力和经验来调整模型噪音和语音变异。未来的主要研究方向是,通过深度学习来替代Hidden Markov Models,如基于递归神经网络的深度神经网络(DNN)进行声学建模,使得语音识别系统变得更为简单。日立公司宣称自己已经研发出一项新技术,利用对话音量比杂音变化较少的特点,将杂音与话音进行分离。

近几年来,特别是2009年以来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。1、技术新发展1)将机器学习领域深度学习研究引入到语音识别声学模型训练,使用带RBM预训练的多层神经网络,极大提高了声学模型的准确率。在此方面,微软公司的研究人员率先取得了突破性进展,他们使用深层神经网络模型(DNN)后,语音识别错误率降低了30%,是近20年来语音识别技术方面最快的进步。2)目前大多主流的语音识别解码器已经采用基于有限状态机(WFST)的解码网络,该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络,大大提高了解码的速度,为语音识别的实时应用提供了基础。3)随着互联网的快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。2、技术新应用近期,语音识别在移动终端上的应用最为火热,语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。目前,国外的应用一直以苹果的siri为龙头。而国内方面,科大讯飞、云知声、盛大、捷通华声、搜狗语音助手、紫冬口译、百度语音等系统都采用了最新的语音识别技术,市面上其他相关的产品也直接或间接嵌入了类似的技术。

论文编号:JD913 论文字数:10576,页数:38摘 要 目前,语音合成、语音识别、语音存储和回放技术的应用越来越广泛,尽管利用一般的单片机测控系统中都有的硬件电路(如A/D、 D/A、存储器等)能完成语音信号的数字化处理,但是功能比较单一、且效果不是很好。本文采用单片机AT89C52与语音芯片ISD2560组成的语音存储系统,实现了语音的分段录取、组合回放,结合LCD液晶显示模块OCMJ2X8,可实现简单的公交报站功能。系统硬件电路简单,调试方便,性价比高,实用性强。关键词:语音录放系统;单片机AT89C52 ;ISD2560Abstract At present, speech synthesis, speech recognition, voice storage and playback technology is more widely applied, despite the use of general monitoring and control system in the SCM have the hardware circuit (such as the A / D, D / A, memory, ) can be completed Voice of the digital signal processing, but a single function of comparison, and the effect is not very In this paper, SCM AT89C52 voice and the voice chip ISD2560 of storage systems, and the voice of the Sub-taking, portfolio intervals, with LCD liquid Crystal display module OCMJ2X8, can achieve a simple function of the bus station System hardware circuit is simple, easy adjustment, cost-effective and Key words: Voice recording system MCU AT89C52 ISD2560目 录摘 要 IAbstract II第1章 绪论 1导言 2数字语音录放系统的发展 1第2章 单片机控制系统 1单片机介绍 1总体方案论证 2器件选择 1单片机AT89C52 3 ISD2560语音芯片 3 OCMJ2×8 液晶模块 7第4章 系统硬件及软件设计 1 系统硬件电路设计 2 系统软件设计 1 ISD2560 内部地址单元寻址 2 系统软件总流程图 3录放音时 AT89C52 单片机对 ISD2560 的控制 3 显示部分 17第5章 系统仿真 23总 结 25致 谢 26参考文献 27附录一 28附录二 35

语音识别技术的研究现状与展望论文怎么写

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。  语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。  语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 任务分类和应用 根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。  根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。  另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。  语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。 前端前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征 声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。  * 倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。  * Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。  MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型 语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。  HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。  语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。  英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。 语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。  N-Gram:该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。  语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。 搜索  连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。  Viterbi:基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。  由于语音识别对当前时间点之后的情况无法预测,基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性,同一时刻的各条路径对应于同样的观察序列,因而具有可比性,束Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典,这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解,往往要利用一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析,进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。  N-best搜索产生一个候选列表,在每个节点要保留N条最好的路径,会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选,但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径,保留k条。词候选网格以一种更紧凑的方式给出多候选,对N-best搜索算法作相应改动后可以得到生成候选网格的算法。  前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后,搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中,因而可以使用启发式的A算法进行后向搜索,经济地搜索出N条候选。 系统实现   语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。  听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。  对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。 自适应与强健性   语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。  解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。  说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。  语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。 微软语音识别引擎   微软在office和vista中都应用了自己开发的语音识别引擎,微软语音识别引擎的使用是完全免费的,所以产生了许多基于微软语音识别引擎开发的语音识别应用软件,例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。 语音识别系统的性能指标   语音识别系统的性能指标主要有四项。①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。④正确识别率:平均正确识别的百分数,它与前面三个指标有关。  小结  以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。

回答 填写论文研究方向的原则:一、应与兴趣相合-一个人在日常生活里,没有兴趣的事,不会去做,如勉强去做,也会做不好。写论文的情形跟做事一样,能符合自己的兴趣才有可能写好。二、应考虑自己的能力在就读大学的这段期间内,是否有能力作某个论题的研究,也应好好考虑。论题如涉及太多外文文献,就要考虑自己的能力是否能胜任。三、范围应大小适中一般讨论论文写作的书,都强调论题不宜太大,或论题要小,笔者以为研究方向的大小应有其伸缩性,Gocheck论文检测系统认为,研究方向大小的选择,应以研究时间的长短、数据的多寡作为考虑的首要因素。四、资料是否容易取得一篇论文的好坏,除写作者的能力外,另一部分的因素是资料是否充足。当我们在选择研究方向时,就应把资料是否容易取得,列为重要的考虑因素。五、应能推陈出新一般论文写作规范,都强调论题要新,意思是前人可能没有研究过,或研究的水平不高。

提供一个开题报告范文范例,仅供参考,有什么不懂的地方可以问我,希望对你开题报告写作能有帮助。提供一个学校范文仅供参考:选题的目的和意义:中小企业是推动国民经济发展,构造市场经济主体,促进社会稳定的基础力量,对企业健康发展、培育壮大市场主体、扩大就业渠道、促进国民经济持续、稳定的发展具有十分重要的意义,对于占全国企业总数99%、工业产值60%、利税40%、就业机会75%的中小企业,现阶段不但是我国经济发展的重要力量,而且在对外贸易中占的比重也越来越大。中小企业在对外贸易中要选择适合自己的途径或策略探究中小企业的出口路径的意义中小企业能在国际市场大显身手,也能推动我国经济的可持续发展,有利于扩大企业市场,提高中小企业国际竞争力;有利于缓解中小企业资金短缺困难,可以利用出口获得发展资金,也可以吸引海外风投基金或者吸引外资合股以及从海外资本市场出口型中小企业是近年来我国贸易增长的中坚力量,是国民经济的生力军,其发展越来越关系到经济发展、社会稳定与和谐。产业集群化发展是目前世界经济发展中的一种重要经济现象,也是我国中小企业发展的必经之路,其对企业、区域、国家的经济发展都具有现实而深远的意义。对于我国出口型中小企业目前产业集群发展的现阶段而言,还存在很多问题,比较突出的一点就是集而不群,大而不强,缺乏整体协调发展的支持体系和战略部署。这一点,在当前全球经济危机的形势下尤为凸显。 目前我国对出口型中小企业的研究还不多见,远远落后于实践中的需要。本文将从经济学视角,以我国出口型中小企业集群作为研究对象,以促进我国出口型中小企业产业集群可持续发展、提高集群应对风险能力及集群竞争力为目标国内外研究现状自改革开放以来我国无论是选题研究的内容: 该论题研究的内容主要是以下几个方面:一、对“三网融合”背景下广电产业所面临挑战的研究(一)广电产业运营模式的转变(二)员工配置和技术能力的提高 (三)广电网络业务能力的提升二、对“三网融合”背景下广电产业所面临机遇及对策研究(一)机遇1、拓展电视传播的新渠道2、增强电视传播的互动性3、扩大电视传播受众群体(二)对策 1、加快广电网络的改造2、开办内容新颖的节目3、充分发挥自身的优势选题研究的技术路线、研究方法和要解决的主要问题:研究技术路线:首先,了解本论题的研究状况,形成文献综述和开题报告。其次,进一步搜集阅读资料并研读文本,做好相关的记录,形成论题提纲。第三,深入研究,写成初稿。最后,反复修改,完成定稿。研究方法: 运用文献分析法、文本细读法、比较法、综合分析法等进行研究。要解决的关键问题: (把自己的关键问题用两句话写下即可)研究与写作计划:2014年3月1日——3月6日  确定选题、收集相关资料2014年3月7日——3月10日   撰写开题报告与开题2010年5月1日——6月30日  收集资料,开展研究,形成写作提纲2010年7月1日——9月30日  深入研究,形成论文初稿2010年10月1日——10月30日  论文修改、定稿、打印、答辩

语音识别技术的研究现状与展望论文题目

你的选题我不懂,但是国内外研究现状其实就是文献综述,从你的选题可以看出你可以选择这样的架构1、关于网络组建的研究,这点又可分为国内和国外研究两块,国内上期刊网,国外的也可以上西文期刊网或者直接上雅虎的外文网站上查询;2、关于中小型企业的网络组建的研究,这点这要是中小型企业网络组建的必要性啊、怎么做啊之类的别人是怎么研究述说的。呵呵,隔行如隔山,我是学文的,还真不是很通啊

回答 首先,国内外研究现状是什么?顾名思义,国内外研究现状就是国内和国外对于一个研究对象的目前的研究现状。要注意的是,这个研究对象可以是应用,也可以是方法,也就是说,国内外研究现状可以从两方面去写,一个是基于应用的研究现状,一个是基于方法的研究现状。其次,为什么要写国内外研究现状?为了从针对该研究对象的历史研究中获取经验、教训,以及有哪些待研究的点。那么,国内外研究现状怎么写?正常来说,国内外研究现状需要大家去阅读大量的文献,然后总结学者的主要观点。这里有两个小技巧:一种是直接翻译文献摘要。因为一个学者的研究观点主要集中在摘要部分,这样的话吗,即便你不完整地阅读文章,也能知道文章地主要观点。另一种是直接从硕博学位论文里面去摘抄。可以找一些和自己题目一样或者关键词一样地硕士论文,在里面摘抄国内外研究现状,并把这个话改成自己的意思。但是注意,标注引用的时候,一定要找到最根本的文章,而不是你参考的这篇学位论文。 提问 论文题目是试论客人投诉的处理和酒店形象的树立 然后开题报告中的研究现状国内研究现状和国外研究现状怎么写 回答 处理顾客的投诉案件时,我认为要做到六点:1、听。在处理顾客投诉时我们首先要做到就是听。我们要做到冷静的去倾听,从顾客中了解投诉的原因,以及做到安稳顾客的情绪2、记。在听的过程中,要认真做好记录。尤其是客人投诉的要点,讲到的一些细节,要记录清楚,并适时复述,以缓和顾客的情绪,让顾客觉得正在被重视,及尊重。3、析。根据所闻所写,及时弄清事情来龙去脉,然后才能分析出客观及主观的原因,帮助我们作出正确的解决方案。4、报。对发生的事情,做出的决定或是难以处理的问题,及时上报领导,征求意见。5、答。征求了领导的意见之后,要把答案及时反馈给客人,如果暂无法解决的,应向客人致歉,并说明原委,请求客人谅解,不能无把握、无根据地向客人保证。6、取。当我们处理好客人的投诉,如果顾客提出了建议我们还要善于听取客人的建议及反馈,有好的建议或意见并要及时的收取。 提问 大哥我说的是开题报告中的研究现状国内研究现状和国外研究现状怎么写 回答 可以参考一下嘛 提问 开题报告中的研究现状国内研究现状和国外研究现状 更多7条 

你是要文献么?是的话给我你的邮箱

本人是老师,专业写作,推荐

语音识别技术研究论文

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。  语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。  语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 任务分类和应用 根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。  根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。  另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。  语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。 前端前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征 声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。  * 倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。  * Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。  MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型 语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。  HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。  语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。  英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。 语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。  N-Gram:该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。  语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。 搜索  连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。  Viterbi:基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。  由于语音识别对当前时间点之后的情况无法预测,基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性,同一时刻的各条路径对应于同样的观察序列,因而具有可比性,束Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典,这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解,往往要利用一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析,进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。  N-best搜索产生一个候选列表,在每个节点要保留N条最好的路径,会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选,但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径,保留k条。词候选网格以一种更紧凑的方式给出多候选,对N-best搜索算法作相应改动后可以得到生成候选网格的算法。  前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后,搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中,因而可以使用启发式的A算法进行后向搜索,经济地搜索出N条候选。 系统实现   语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。  听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。  对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。 自适应与强健性   语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。  解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。  说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。  语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。 微软语音识别引擎   微软在office和vista中都应用了自己开发的语音识别引擎,微软语音识别引擎的使用是完全免费的,所以产生了许多基于微软语音识别引擎开发的语音识别应用软件,例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。 语音识别系统的性能指标   语音识别系统的性能指标主要有四项。①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。④正确识别率:平均正确识别的百分数,它与前面三个指标有关。  小结  以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。

语音识别是一门交叉学科。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

要看语音识别最新研究状况的论文你这个具体多少字格式内容

你是要文献么?是的话给我你的邮箱

语音识别技术的发展史论文怎么写

NRK10语音识别芯片为广州九芯电子自主研发的一款高性能、低成本的离线语音识别芯片,具有语音识别及播报功能,需要外挂 SPI-Flash,存储词条或者语音播内容。他具有识别率高,工业级性能、简单易用,更新词条方便等优势。广泛应用在智能家居、AI人工智能、玩具等多种领域。

语音识别的发展历史 ——语音识别的研究工作大约开始于50年代,当时AT& T Bell实验室实现了第一个 可识别十个英文数字的语音识别系统——Audry系统。 ——60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动 态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模 型的问题,对语音识别的发展产生了深远影响。 ——70年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态 时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型 (HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识 别系统。 ——80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元 网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT& T Bell 实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为 更多研究者了解和认识。ANN和HMM模型建立的语音识别系统,性南嗟薄 ̄□钼箴患乱炯乱睛钼箴沪钼箴患乱峻□��□膻□剥□甏□�孀哦嗝教迨贝□睦戳伲�惹幸�笥镆羰侗鹣低炒邮笛槭易呦蚴叠□钼箴患乱峻□谩P矶喾⒋锕□胰缑拦□⑷毡尽⒑�□约剥□峦~{、Apple、AT&T、NTT等著名公司都 为语音识别系统的实用化开发研究投以巨资。 ——我国语音识别研究工作一直紧跟国际水平,国家也褐厥樱��汛蟠驶懔坑镆酤□钼箴患乱峻□侗鸬难芯苛腥搿剥□冻~{”计划,由中科院声学所、自动化所及北京大学等单位研究 开发。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新 加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水 平。因此,国内除了要加强理论研究外,更要加快从实验室演示系统到商品的转化

相关百科