首页

深度学习综述

1、定义和背景:

1.1 深度学习(DL)有各种相近的定义或者高层次描述

定义2:Deep Learning is a new area of Machine Learning research, which has been introduced with the objective of moving Machine Learning closer to one of its original goals: Artificial Intelligence. Deep Learning is about learning multiple levels of representation and abstraction that help to make sense of data such as images, sound, and text.(参见)

自2006年以来,深度学习(deep learning)(也通常叫做深层结构学习或分层学习)已经成为机器学习领域的一个新兴领域(Hinton et al., 2006; Bengio, 2009 ).在过去几年中,深度学习技术的发展已经对信号和信息过程领域产生广泛的影响,并将继续影响到机器学习和人工智能的其它关键领域;参见综述文章(Bengio et al., 2013; Hinton et al., 2012; Yu and Deng, 2011; Deng, 2011; Arel et al., 2010 ).最近,已有一系列的致力于关于深度学习以及应用的研讨会和特别会议。包括:

the 2013 ICASSP’s special session on New Types of Deep Neural Network Learning for Speech Recognition and Related Applications,

the 2010, 2011, and 2012 NIPS Workshops on Deep Learning and Unsupervised Feature Learning, the 2013 ICML Workshop on Deep Learning for Audio, Speech, and Language Processing;

the 2012 ICML Workshop on Representation Learning,

the 2011 ICML Workshop on Learning Architectures, Representations, and Optimization for Speech and Visual Information Processing,

the 2009 ICML Workshop on Learning Feature Hierarchies,

the 2009 NIPS Workshop on Deep Learning for Speech Recognition and Related Applications, the 2008 NIPS Deep Learning Workshop,

the 2012 ICASSP tutorial on Deep Learning for Signal and Information Processing, the special section on Deep Learning for Speech and Language Processing in IEEE Transactions on Audio, Speech, and Language Processing (January 2012), and the special issue on Learning Deep Architectures in IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI, 2013).

一些DL领域活跃的实验室和研究团队包括:

University of Toronto - (Geoff Hinton, Rich Zemel, Ruslan Salakhutdinov, Brendan Frey, Radford Neal)

Université de Montréal - (Yoshua Bengio, Pascal Vincent, Aaron Courville, Roland Memisevic)

New York University – ‘s and ‘ group

Stanford University – ‘s group

UBC – ‘s group – Jeff Dean, Samy Bengio, Jason Weston, Marc’Aurelio Ranzato, Dumitru Erhan, Quoc Le et al

Microsoft Research – et al

SUPSI – (Schmidhuber’s group)

UC Berkeley – ‘s group

University of Washington – ‘ group

IDIAP Research Institute - ‘s group

University of California Merced – ‘s group

University of Helsinki - ‘s Neuroinformatics group

Université de Sherbrooke – ‘s group

University of Guelph – ‘s group

University of Michigan – ‘s group

Technical University of Berlin – ‘s group

Baidu – ‘s group

Aalto University – ‘s group

U. Amsterdam – ‘s group

U. California Irvine – ‘s group

Ghent University – ‘s group

University of Tennessee – ‘s group

IBM Research – et al

University of Bonn – group

@ University College London – Maneesh Sahani, Yee-Whye Teh, Peter Dayan

(详见http://deeplearning.net/deep-learning-research-groups-and-labs/ ).

这些研究团队在DL的各种不同应用中取得经验性的成功,如计算机视觉、语音识别、语音搜索、语音识别、语音会话和图像特征编码、语义分类、手写识别话语、音频处理、信息检索、机器人学、甚至在分析可能导致新药的分子方面等等。许多优秀的经常更新教程、参考资料::

2.深度学习的发展历史:

传统机器学习和信号处理技术探索仅含单层非线性变换的浅层学习结构。浅层模型的一个共性是仅含单个将原始输入信号转换到特定问题空间特征的简单结构。典型的浅层学习结构包括传统隐马尔可夫模型(HMM)、条件随机场(CRFs)、最大熵模型(MaxEnt)、支持向量机(SVM)、核回归及仅含单隐层的多层感知器(MLP)等。例如,SVM用包含一层(使用核技巧)或者零个特征转换层的浅层模式分离模型。(最近已有将核方法与DL结合的新方法。如,Cho and Saul, 2009; Deng et al., 2012; Vinyals et al., 2012)。浅层结构的局限性在于有限的样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定制约。

神经科学研究表明,人的视觉系统的信息处理是分级的。人类感知系统这种明确的层次结构极大地降低了视觉系统处理的数据量,并保留了物体有用的结构信息。有理由相信,对于要提取具有潜在复杂结构规则的自然图像、视频、语音和音乐等结构丰富数据,深度学习能够获取其本质特征。受大脑结构分层次启发,神经网络研究人员一直致力于多层神经网络的研究。

历史上,深层学习的概念起源于神经网络的研究。带有多隐层的前馈神经网络或者多层感知器通常被成为深层神经网络(DNNs),DNNs就是深层构架的一个很好的例子。BP算法作为传统训练多层网络的典型算法,实际上对于仅含几层网络,该训练方法就已很不理想(参见 (Bengio, 2009; Glorot and Bengio, 2010). 在学习中,一个主要的困难源于深度网络的非凸目标函数的局部极小点普遍存在。反向传播是基于局部梯度下降,通常随机选取初始点。使用批处理BP算法通常会陷入局部极小点,而且随着网络深度的增加,这种现象更加严重。此原因在一定程度上阻碍了深度学习的发展,并将大多数机器学习和信号处理研究从神经网络转移到相对较容易训练的浅层学习结构。

经验上,有3种技术可以处理深层模型的优化问题:1.大量的隐藏的单元,2.更好的学习算法,3.以及更好的参数初始化技术。

使用带有大量神经元的DNN可以大大提高建模能力。由于使用带有大量神经元的DNN得到较差局部最优值的可能性要小于使用少量神经元的网络,即使参数学习陷入局部最优,DNN仍然可以很好的执行。但是,在训练过程中使用深而广的神经网络,对计算能力的需求要求很大。

更好的算法也有助于了DNNs的训练。例如,现在随机BP算法已经代替了批处理BP算法用来训练DNNs。部分原因是由于,当训练是单学习器和大训练集上进行时,随机梯度下降(SGD)算法是最有效的算法(Bottou and LeCun,2004)。但更重要的是SGD算法可以经常跳出局部最优。 其它算法,如 Hessian free (Martens 2010)或Krylov子空间方法(Vinyals and Povey 2011)有类似的能力。

很明显,对于高度非凸的DNN学习的优化问题,更好的参数初始化技术将导致更好的模型.然而,如何高效的初始化DNN的参数却不是很显然的事情。最近,学者们给出很好的结果(Hinton et al. 2006; Hinton and Salakhutdinov, 2006; Bengio,

2009;Vincent et al., 2010; Deng et al., 2010; Dahl et al., 2010, 2012; Seide et al. 2011).

最著名的DNN参数初始化技术就是无监督预训练(pre-training)技术的提出(Hinton et al. 2006; Hinton and Salakhutdinov, 2006). 在上述文章中,引入了一个被称作深层信念网(DBN)的深层贝叶斯概率生成模型。为了学习DBN中的参数,提出非监督贪心逐层训练算法,算法把DBN中的每两层作为一个限制玻耳兹曼机(RBM)。这使得优化DBN参数的计算复杂度随着网络的深度成线性增长。DBN参数可以直接用作MLP或DNN参数,在训练集较小的时候,可以得到比随机初始化的有监督BP训练要好的MLP或DNN。带有无监督DBN预训练,随后通过反向微调(fine-tuning)的DNNs有时候也被称作DBNs(e.g., Dahl et al., 2011; Mohamed et al., 2010, 2012). 最近,研究人员已经更小心区分DNNs 和DBNs(Dahl et al., 2012; Hinton et al., 2012) ,当DBN用于初始化一个DNN的参数,由此产生的网络叫做DBN-DNN(Hinton et al., 2012).

DBN预训练过程不是唯一有效的DNNs初始化方法。另一种效果同样好的无监督方法是通过把每两层作为一个去噪自动编码器来逐层预训练DNNs(Bengio, 2009; Vincent et al., 2010) .另一种方法是用收缩自动编码器,它对于输入变化的敏感度较低(Rifai et al., 2011).而且,Ranzato et al. (2007) 提出了稀疏编码对称机(SESM),它与RBMs非常类似,都作为一个DBN的构造模块。原则上,SESM也可以用来有效的初始化DNN训练。除了半监督预训练外,监督预训练(有时也叫作区别预训练)也被证明是有效的(Seide et al., 2011; Yu et al., 2011)

。在有标签样本数据充足的时候表现要优于无监督预训练技术。区别预训练的主要思想是从一个隐层MLP开始,用BP算法训练。然后,每次我们想要增加一个新的隐

藏层,我们通过随机初始化一个新的隐藏和输出层来代替原来输出层,再用BP算法训练这个新的MLP(或DNN)。与无监督预训练技术不同,区分与监督需要标签。

(注:常用的概念

深层信念网络(Deep belief network —DBN):包含多层随机隐藏变量的概率生成模型。最上面两层无向对称连接。低层之间自上而下有向连接。

波尔兹曼机(Boltzmann machine —BM):类神经元单元对称连接成的网络,通过类神经元打开或者关闭来做出随机决策。

深层神经网络(DNN):一个带有多隐藏层的多层感知器,它的权被完全连接,应用一个半监督或一个监督预训练初始化。

深层自动编码器(Deep auto-encoder):一个输出就是输入本身的深层神经网络。)

3.典型的深度学习结构

深度学习涉及相当广泛的机器学习技术和结构,根据这些结构和技术应用的方式,可以将其分成如下三类:a)生成性深度结构。该结构描述数据的高阶相关特性,或观测数据和相应类别的联合概率分布。b)区分性深度结构。目的是提供对模式分类的区分性能力,通常描述数据的后验分布。c)混合型结构。它的目标是区分性的,但通常利用了生成型结构的输出会更易优化

1.生成性深度结构 在生成性深层结构的不同子类中,最常见的是基于能量的深层模型(e.g., Ngiam et al., 2011; Bengio, 2009; LeCun et al., 2007).深层自动编码器的原始形式(Hinton and Salakhutdinov, 2006; Deng et al., 2010)就属于一个典型的生成模型。其他大部分的深层自动编码器自然也是生成模型,但是它们有着不同的性质和实现。例如,转换自动编码器(Hinton et al., 2010),预测性稀疏编码和它们间的堆叠,去噪自动编码器和它们的叠加版本(Vincent et al., 2010).具体说,在去噪自动编码器中,输入首先被破坏,例如,随机选择输入和将其归零的百分比。然后,用原始输入和重构输入的均方重构误差和KL距离来调整隐藏结点的参数去重构原始的,未破坏的数据。未破坏数据的编码表示转换形式将作为下一层堆叠的去噪自动编码器的输入。

另一个著名的生成模型是深层玻尔兹曼机(DBM)(Salakhutdinov

and Hinton, 2009, 2012; Srivastava and Salakhudinov, 2012).一个DBM包涵多个隐藏变量层,同一层之间变量没有连接。它是一般的玻尔兹曼机的特殊情形。虽然有简单的算法,但是一般BMs学习复杂而且计算缓慢。在一个DBM中,每一层捕获下层隐藏特征的复杂的,高阶的相关性。DBM有学习内部表示问题的潜力,而内部

表示问题对目标和语音识别问题的解决至关重要。此外,大量的无标记数据和非常有限的有标记数据可以构建高层表示,这样,高层表示可以用来微调模型。

当DBM的隐藏层的数目减少到1,我们就得到受限玻尔兹曼机(RBM)。和DBM相似没有层之间的连接。RBM的主要优点是通过组合多个RBMs,将一个RBM的特征激活作为下一层的训练数据,从而有效的学习多个隐藏层。这样组成了深信度网(DBN)。

标准的DBN已经被扩展,使其在底层是一个分解的高阶玻尔兹曼机,在电话识别中获得了很强的结果(Dahl et. al., 2010)。这个模型被称作mean-covariance RBM或mcRBM,标准RBM在表示数据的协方差结构是有局限的。然而,训练mcRBM,把它用在深层构架的高层都是很困难的。 另一个深生成架构的是和-积网络或SPN(Poon and Domingo, 2011; Gens and Domingo, 2012). 一个SPN是一个深层构架中的有向无环图,数据作为叶子,和运算和积运算作为内部节点。“和” 节点给出混合模型和“积”节点建立特征层次结构。SPN的学习是结合反向传播使用EM算法。学习过程始于一个密集的SPN,然后通过学习它的权值来寻找一个SPN结构,权值为零表示移除这些连接。SPN学习的主要的困难是,当传播到深层,学习信号(也就是梯度)会迅速的稀释。已经提出了经验的解决办法来克服这种困难(Poon and Domingo, 2011).然而,有学者指出,尽管SPN中有许多可取的生成性质,但是很难用区分的信息来微调参数,从而限制了其在分类任务上的有效性。随后, (Gens and Domingo, 2012),在这篇文章提出一个有效的反向传播式区分训练算法克服了这个困难。

递归神经网络Recurrent neural networks (RNNs)是另一类重要的深层生成构架,RNN的深度与输入数据序列的长度相当。RNNs对于序列数据建模非常有效(例如,语音和文本)。但是RNNs还没有被广发的应用,部分原因是由于“gradient explosion”问题,导致它极难被训练。Hessian-free 优化的最新进展(Martens, 2010) 它使用近似二阶信息或随机曲率估计,部分的克服了这个难题。通过Hessian-free 优化训练得到的RNNs,在特征水平语言模型任务中,被用作一个生成式的深层构建。这样的生成式RNN模型被证明具有很好的生成文本字符序列的能力。最近,Bengio et al. (2013) and Sutskever (2013)研究了在训练生成式RNNs过程中,各种随机梯度下降优化算法。这些算法要优于Hessian-free 优化方法。Mikolov et al. (2010)将RNNs用于语言模型,取得了非常好的结果。

2. 区分性深度结构

在信号和信息过程中许多区分性技术都是浅层结构,例如隐马尔科夫过程(HMMs),条件随机域(CRFs).最近,通过堆叠每个低层CRF的输出和原始输入到更高层,得到深层结构CRFs(Yu et al., 2010a)。各种深层结构的CFRs成功的应用于电话识别(Yu and Deng, 2010),自然语言处理(Yu et al., 2010)和口语识别(Yu et al., 2010a)。但是至少在电话识别任务上,深层CRFs还不能超过含有DBN的混合性结构。

Morgan (2012)给出一个好的综述,关于现存的应用于语音识别的区分性模型,主要

基于传统的神经网络或MLP结构,使用带有随机初始化的后向传播方法。他认为增加神经网络每一层的宽度(width)和深度(depth)是重要的。

最近(Deng et. al, 2011; Deng et al., 2012a; Tur et al., 2012; Lena et al.,

2012; Vinyals et al., 2012)发展了一个新的学习构架,有时称深度堆叠网络(Deep Stacking Network或DSN),以及DSN的张量变体(Hutchinson et al, 2012, 2013)和核版本(Deng et al., 2012)。

前面说过,递归神经网络(RNNs)已经被成功用作生成性模型。它们也可以用作一个输出是一个关于输入序列的标签序列的区分性模型。

另一个区分性深度构架是卷积神经网络(convolutional neural network 或CNN),每一个模块包含一个卷积层和一个池层(pooling layer)。通常,这些模块一个堆叠在另一个之上,或者用一个DNN堆叠在它之上来形成一个深度模型。卷积层共享许多权值,池层对卷积层的输出进行次采样。在卷积层共享权值,结合适当的池选择,这样就使得CNN具有某种不变的性质(如,转换不变性)。这样限定不变性或等方差,对于复杂的模式识别任务是不合适的,需要可以处理广泛的不变性的原则性方法(Hinton et al., 2011). 然而,CNN已经发现非常有效且常被用于计算机视觉和图像识别(Bengio and LeCun, 1995; LeCun et al., 1998; Ciresan et al., 2012; Le etal., 2012; Dean et al., 2012; Krizhevsky et al., 2012). 最近,考虑到语音特性,适当的变化为图像分析设计的CNN,表明CNN在语音辨别方面也是有效的。(Abdel-Hamid et al., 2012; Sainath et al., 2013;

Deng et al., 2013)

需要指出的是,用于早期语音识别延时神经网络是CNN的一类特殊情形和原型,当权值共享被限制为时间维度。最近发现,对于语音识别,(Abdel-Hamid et al., 2012; Deng et al., 2013)时间维度不变性不如频率不变性重要。分析了根本原因并提出了新的方法来设计CNN的池层,在电话识别方面,得出了比以前CNNs更有效的方法。

分层时间记忆模型(HTM, Hawkins and Blakeslee, 2004; Hawkins et al., 2010; George, 2008) 是CNN的另一个变体和扩展,扩展主要包括以下方面:1.引进了时间维度来“监督”信息用于区分:2,采用自底而上和自顶而下的信息流,而CNN只采用自底而上的方式;3,用贝叶斯概率形式来融合信息和决策。

3. 混合性模型

混合性模型同时包含或利用生成性和区分性模型部分。现有的混合性模型里,主要利用生成性部分来辅助区分,混合性模型的最终目的是区分性的。生成性模型可以辅助区分性模型,主要有一下两个原因。

1. 从优化的角度看,在高度非线性参数估计问题中,生成性模型可以提供较好的初始点(在深度学习里引入,常用术语“预训练”,就是这个原因)。

2. 从正则化观点看,生成性模型可以更有效的控制总体模型的复杂性。

研究报告(Erhan et al., 2010) 给出了深刻的分析和实验数据支持以上两个观点。 DBN可以被转换用作DNN的初始模型,然后进一步区分的训练或微调。

另一个混合性深层构架的例子是由(Mohamed et al., 2010) 提出,DNN权值也从一个生成性DBN初始化得来,但是随后的微调用过序列水平(sequence-level)准则,而不是通常使用的框架水平(frame-level)准则(如,交叉熵cross-entropy)。

这是一个静态DNN和一个CRF的浅层区分性构架的结合。可以指出这个DNN-CRF和一个DNN和HMM混合深层构架是等价的,这个DNN和HMM混合深层构架在整个标签序列和输入特征序列之间使用全序列最大交互信息准则,来联合学习参数。相关的浅层神经网络序列训练方法(Kingsbury, 2009) 和深层神经网络序列训练方法(Kingsbury et al., 2012) 被提出。

沿用这样方法,如上面HMM训练的例子,在生成模型中,用区分性法则来训练参数。我们讨论应用同样的方法来学习其他生成性构架.在(Larochelle and Bengio,

2008), 当标签向量与输入数据向量连接来形成RBM的所有可视层,使用类别(标签)后验概率区分性准则来学习RBM生成模型。最近在(Ranzato et al., 2011) 的工作,学习一个最底层带有封闭的马尔科夫随机域(MRF)的深层DBN模型来进行特征提取,然后进行困难图像分类。DBN的生成能力有助于发现所捕获到的信息和在在深层模型中每一层表示的损失。一个相关的工作(Stoyanov et al., 2011).,用经验风险区分准则来训练深层图模型。

混合性深层构架的另一个例子是使用一个生成模型预训练深层卷积神经网络(deep CNNs)(Lee et al., 2009, 2010, 2011). 像全连接DNN一样,预训练也有助于提高基于随机初始化的深层CNNs的表现。

最后一个混合性深层构架是基于(Ney, 1999; He and Deng, 2011)的思想和工作。考虑的是一个区分任务(如,语音识别)产生的输出(文本),这个输出有作为第二个区分任务(如,机器翻译)的输入。整个系统,提供了语音翻译的功能(将一种语言输入语音翻译成另一种语言的文本)是一个两阶段的深层构架,它包涵了生成和区分两个部分元素。语音识别模型(如HMM)和机器翻译(如短语映射和非单调校准)都是生成式的。但是它们的参数都是用区分式学得的。(He and Deng, 2011)中描述的框架,在整个深层框架中,可以端对端(end-to-end)地使用统一的学习框架执行优化,这种混合深度学习方法不仅可以应用于语音翻译也可以应用于语音为中心的其他信息过程任务,例如语音信息检索,语音理解,跨语言语言(或文本)理解和检索,等等(e.g., Yamin et al., 2008; Tur et al., 2012; He and Deng, 2012, 2013).

4.总结:

深度学习已成功应用于多种模式分类问题。但是,它仍存在某些不适合处理的特定任务,譬如语言辨识,生成性预训练提取的特征仅能描述潜在的语音变化,不会包含足够的不同语言间的区分性信息;虹膜识别等每类样本仅含单个样本的模式分类问题也是不能很好完成的任务。深度学习目前仍有大量工作需要研究。模型方面是否有其他更为有效且有理论依据的深度模型学习算法,探索新的特征提取模型是值得深入研究的内容。此外有效的可并行训练算法也是值得研究的一个方向。在深度学习应用拓展方面,如何充分合理地利用深度学习在增强传统学习算法的性能仍是

目前各领域的研究重点。

参考文献:

Abdel-Hamid, O., Mohamed, A., Jiang, H., and G. Penn, “Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition,” Proc. ICASSP, 2012.

Arel, I., Rose, C., and Karnowski, T. “Deep Machine Learning - A New Frontier in Artificial Intelligence,” IEEE Computational Intelligence Mag., Nov., 2010.

Bengio, Y. “Learning deep architectures for AI,” in Foundations and Trends in Machine Learning, Vol. 2, No. 1, 2009, pp. 1-127.

Bengio, Y., Boulanger, N., and Pascanu. R. “Advances in optimizing recurrent

networks,” Proc. ICASSP, 2013.

Bottou, L. and LeCun. Y. “Large scale online learning,” Proc. NIPS, 2004.

Cho, Y. and Saul L. “Kernel methods for deep learning,” Proc. NIPS, pp. 342–350, 2009.

Ciresan, D., Giusti, A., Gambardella, L., and Schmidhuber, J. “Deep neural networks segment neuronal membranes in electron microscopy images,” Proc. NIPS, 2012.

Dahl, G., Ranzato, M., Mohamed, A. and Hinton, G. “Phone recognition with the

mean-covariance restricted Boltzmann machine,” Proc. NIPS, vol. 23, 2010, 469-477.

Dahl, G., Yu, D., Deng, L., and Acero, A. “Context-dependent DBN-HMMs in large vocabulary continuous speech recognition,” Proc. ICASSP, 2011.

Dahl, G., Yu, D., Deng, L., and Acero, A. “Context-dependent, pre-trained deep neural networks for large vocabulary speech recognition,” IEEE Trans. Audio, Speech, & Language Proc., Vol. 20 (1), pp. 30-42, January 2012.

Dean, J., Corrado, G., R. Monga, K. Chen, M. Devin, Q. Le, M. Mao, M. Ranzato, A. Senior, P. Tucker, Yang, K., and Ng, A. “Large Scale Distributed Deep Networks,” Proc. NIPS, 2012.

Deng, L. “An Overview of Deep-Structured Learning for Information Processing,” Proceedings of Asian-Pacific Signal & Information Processing Annual Summit and Conference (APSIPA-ASC), October 2011.

Deng, L., Abdel-Hamid, O., and Yu, D. “A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion,” Proc.

ICASSP, 2013.

Deng, L., Seltzer, M., Yu, D., Acero, A., Mohamed, A., and Hinton, G. “Binary coding of speech spectrograms using a deep auto-encoder,” Proc. Interspeech, 2010.

Deng, L., Tur, G, He, X, and Hakkani-Tur, D. “Use of kernel deep convex networks and end-to-end learning for spoken language understanding,” Proc. IEEE Workshop on Spoken Language Technologies, December 2012.

Deng, L., Yu, D., and Platt, J. “Scalable stacking and learning for building deep architectures,” Proc. ICASSP, 2012a.

Erhan, D., Bengio, Y., Courvelle, A., Manzagol, P., Vencent, P., and Bengio, S. “Why does unsupervised pre-training help deep learning?” J. Machine Learning Research, pp. 201-208, 2010.

Gens, R. and Domingo, P. “Discriminative learning of sum-product networks,” NIPS, 2012.

George, D. “How the Brain Might Work: A Hierarchical and Temporal Model for Learning and Recognition,” Ph.D. thesis, Stanford University, 2008.

Glorot, X. and Bengio, Y. “Understanding the difficulty of training deep feed-forward neural networks” Proc. AISTAT, 2010.

Glorot, X. and Bengio, Y. “Understanding the difficulty of training deep feed-forward neural networks” Proc. AISTAT, 2010.

Hawkins, G., Ahmad, S. and Dubinsky, D. “Hierarchical Temporal Memory Including HTM Cortical Learning Algorithms,” Numenta Tech. Report, December 10, 2010.

Hawkins, J. and Blakeslee, S. On Intelligence: How a New Understanding of the Brain will lead to the Creation of Truly Intelligent Machines, Times Books, New York, 2004.

He, X. and Deng, L. “Optimization in speech-centric information processing: Criteria and techniques,” Proc. ICASSP, 2012.

He, X. and Deng, L. “Speech recognition, machine translation, and speech translation – A unifying discriminative framework,” IEEE Sig. Proc. Magazine, Vol. 28, November, 2011.

He, X. and Deng, L. “Speech-centric information processing: An optimization-oriented approach,” Proc. of the IEEE, 2013.

Hinton, G. “A better way to learn features,” Communications of the ACM,” Vol. 54, No. 10, October, 2011, pp. 94.

Hinton, G. “A practical guide to training restricted Boltzmann machines,” UTML Tech Report 2010-003, Univ. Toronto, August 2010.

Hinton, G. and Salakhutdinov, R. “Discovering binary codes for documents by learning deep generative models,” Topics in Cognitive Science, pp. 1-18, 2010.

Hinton, G. and Salakhutdinov, R. “Reducing the dimensionality of data with neural networks,” Science, vol. 313. no. 5786, pp. 504 - 507, July 2006.

Hinton, G., Deng, L., Yu, D., Dahl, G., Mohamed, A., Jaitly, N., Senior, A., Vanhoucke, V., Nguyen, P., Sainath, T., and Kingsbury, B., “Deep Neural Networks for Acoustic

Hinton, G., Osindero, S., and Teh, Y. “A fast learning algorithm for deep belief nets,” Neural Computation, vol. 18, pp. 1527-1554, 2006.

Hinton, G., Krizhevsky, A., and Wang, S. “Transforming auto-encoders,” Proc. Intern. Conf. Artificial Neural Networks, 2011.

Hinton, G., Srivastava, N., Krizhevsky, A., Sutskever, I., and Salakhutdinov, R.

“Improving neural networks by preventing co-adaptation of feature detectors,” arXiv: 1207.0580v1, 2012.

Hutchinson, B., Deng, L., and Yu, D. “A deep architecture with bilinear modeling of hidden representations: Applications to phonetic recognition,” Proc. ICASSP, 2012.

Hutchinson, B., Deng, L., and Yu, D. “Tensor deep stacking networks,” IEEE Trans. Pattern Analysis and Machine Intelligence, 2013.

Kingsbury, B., Sainath, T., and Soltau, H. “Scalable minimum Bayes risk training of deep neural network acoustic models using distributed Hessian-free optimization,” Proc. Interspeech, 2012

Krizhevsky, A., Sutskever, I. and Hinton, G. “ImageNet classification with deep convolutional neural Networks,” Proc. NIPS 2012.

Larochelle, H. and Bengio, Y. “Classification using discriminative restricted Boltzmann machines,” Proc. ICML, 2008.

Le, Q., Ranzato, M., Monga, R., Devin, M., Corrado, G., Chen, K., Dean, J., Ng, A. “Building High-Level Features Using Large Scale Unsupervised Learning,” Proc. ICML 2012.

LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, Vol. 86, pp. 2278-2324, 1998.

LeCun, Y., Chopra S., Ranzato, M., and Huang, F. “Energy-based models in document recognition and computer vision,” Proc. Intern. Conf. Document Analysis and Recognition (ICDAR), 2007.

Martens, J. “Deep learning with Hessian-free optimization,” Proc. ICML, 2010.

Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., and Khudanpur, S. “Recurrent neural network based language model,” Proc. ICASSP, 2010, 1045–1048.

Modeling in Speech Recognition,” IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82-97, November 2012.

Mohamed, A., Dahl, G. and Hinton, G. “Acoustic Modeling Using Deep Belief

Networks”, IEEE Trans. Audio, Speech, & Language Proc. Vol. 20 (1), January 2012. 86

Mohamed, A., Yu, D., and Deng, L. “Investigation of full-sequence training of deep belief networks for speech recognition,” Proc. Interspeech, Sept. 2010.

Ney, H. “Speech translation: Coupling of recognition and translation,” Proc. ICASSP, 1999

Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., and Ng, A. “Multimodal deep learning,” Proc. ICML, 2011.

Poon, H. and Domingos, P. “Sum-product networks: A new deep architecture,” Proc. Twenty-Seventh Conference on Uncertainty in Artificial Intelligence, 2011. Barcelona, Spain

Ranzato, M., Boureau, Y., and LeCun, Y. “Sparse Feature Learning for Deep Belief Networks,” Proc. NIPS, 2007.

Ranzato, M., Susskind, J., Mnih, V., and Hinton, G. “On deep generative models with applications to recognition,” Proc. CVPR, 2011.

Rifai, S., Vincent, P., X. Muller, X. Glorot, and Y. Bengio, “Contractive autoencoders: Explicit invariance during feature extraction,” Proc. ICML, 2011, pp. 833-840.

Sainath, T., Mohamed, A., Kingsbury, B., and Ramabhadran, B. “Convolutional neural networks for LVCSR,” Proc. ICASSP, 2013.

Salakhutdinov R. and Hinton, G. “Deep Boltzmann machines,” Proc. AISTATS, 2009. Seide, F., Li, G., and Yu, D. “Conversational Speech Transcription Using

Context-Dependent Deep Neural Networks,” Interspeech 2011, pp. 437-440.

Seide, F., Li, G., Chen, X., and Yu, D. “Feature engineering in context-dependent deep neural networks for conversational speech transcription,” Proc. ASRU 2011, pp. 24-29.

Srivastava, N. and Salakhutdinov R. “Multimodal learning with deep Boltzmann machines,” Proc. NIPS, 2012.

Stoyanov, V., Ropson, A. and Eisner, J. “Empirical Risk Minimization of Graphical

Model Parameters Given Approximate Inference, Decoding, and Model Structure,” Proc. AISTAT, 2011.

Sutskever. I. “Training Recurrent Neural Networks,” Ph.D. Thesis, University of Toronto, 2013

Tur, G., Deng, L., Hakkani-Tür, D., and X. He. “Towards deep understanding: Deep convex networks for semantic utterance classification,” Proc. ICASSP, 2012.

Vincent, P. “A connection between score matching and denoising autoencoder”, Neural Computation, Vol. 23, No. 7, pp. 1661-1674, 2011.

Vincent, P., Larochelle, H., Lajoie, I., Bengio, Y., and Manzagol, P. “Stacked denoising autoencoders: Leaning useful representations in a deep network with a local denoising criterion,” J. Machine Learning Research, Vol. 11, 2010, pp. 3371-3408.

Vinyals, O., Jia, Y., Deng, L., and Darrell, T. “Learning with recursive perceptual representations,” Proc. NIPS, 2012

Yamin, S., Deng, L., Wang, Y., and Acero, A. “An integrative and discriminative

technique for spoken utterance classification,” IEEE Trans. Audio, Speech, and Language Proc., 2008.

Yu, D. and Deng, L. “Accelerated parallelizable neural networks learning algorithms for speech recognition,” Proc. Interspeech 2011.

Yu, D. and Deng, L. “Deep learning and its applications to signal and information processing,” IEEE Signal Processing Magazine, January 2011, pp. 145-154.

Yu, D. and Deng, L. “Deep-structured hidden conditional random fields for phonetic recognition,” Proc. Interspeech, Sept. 2010.

Yu, D., Wang, S., Deng, L., “Sequential labeling using deep-structured conditional random fields”, J. of Selected Topics in Signal Processing, 2010a.

Yu, D., Wang, S., Karam, Z., Deng, L. “Language recognition using deep-structured conditional random fields,” Proc. ICASSP, 2010, pp. 5030-5033.