孔江平：《Laryngeal Dynamics and Physiological Model》

2010-03-22 作者：孔江平来源：sinoss

　　成果名称 　　Laryngeal Dynamics and Physiological Model汉译：<<动态声门与及生理模型>>
　　成果类型 　　著作类
　　出版时间 　　2007年11月
　　出版单位 　　北京大学出版社

　　成果内容简介
　　1.基本观点、篇章结构
　　人类言语的产生、演化和形成基于人类发音器官生理的进化，由于人的直立行走使喉头下垂，在生理上形成和奠定了现代人类语言的重要基础。过去人们一直以为语音的产生主要是舌、软腭等的运动，因而在语音学、言语声学甚至语音通讯中都只注重“调音”的研究，因此，我们在研究语言的共时系统和历史音变中，许多基本现象往往很难解释，例如，声母清浊和声调的关系，直至声调的起源。又如，由于语音学的知识的欠缺，在现代通讯编码中也只用简单脉冲模拟声源。
　　随着语音学研究的发展，人们发现很多语言都使用不同的发声类型来表示语言学意义，特别是在中国境内的民族语言中，如，彝语、哈尼语、景颇语、载瓦语等，都有许多具有语言学意义的发声类型，这使我们认识到语音的发声在人类的语言中具有十分重要的普遍意义。但作者在对中国民族语言发声类型长期的语音学研究中发现，单纯的声学分析很难揭示语言发声的本质，非具有更科学的理念和采取更先进的技术不可。作者基于这种基本观点和多年对中国民族语言发声类型的田野调查以及语音学的研究，利用目前世界上最为尖端的技术，对语言中最为常见的发声类型进行了基础科学的研究。
　　本书主要分为三个部分，十个章节。第一部分（第一、二章）主要介绍了国际上基于高速数字成像的语言发声类型的研究背景、研究技术和本项研究的分析系统。第二部分（第三至七章）主要分析研究了常见的语言发声类型和汉语普通话声调的发声类型及声带振动模式。第三部分（第八至十章）主要介绍了基于高速数字成像的语言发声的生理模型、嗓音生理参数合成和研究前景。
　　第一章“引言”主要介绍了这本书的研究目的、研究方法和研究背景，同时还介绍了读本书所必备的喉部生理解剖知识。第二章“图像处理和参数提取”主要研究介绍了高速数字成像系统的参数、文件格式、图像处理、声门面积检测、录像帧间漂移的校正、参数提取方法和参数定义。第三章“正常嗓音”主要研究了“正常嗓音”、“低音调嗓音”和“高音调嗓音”声带的振动方式和相关的声学性质。第四章“特殊嗓音”分别研究了“假声”、“气泡音”、“气嗓音”、“双音调嗓音”和“吸气音”声带的振动方式和声学性质，还特别讨论声带不对称振动的方式、特性和声学结果。第五章“变调嗓音和汉语普通话四声的嗓音”主要研究了“变调嗓音”和“汉语普通话四声发声类型”声带的振动方式和声学特性。第六章“声门的性质”主要介绍了“七种声门脉冲类型”，定义了“八种声带振动周期类型”，并研究了声门面积和声门气流的关系。第七章“统计分析”主要对不同的发声类型进行了相关和聚类分析。第八章“动态声门模型”首先介绍了目前世界上最重要的八种嗓音声学模型，然后研究和讨论了建立生理模型的不同层次、静态声门模型、声门控制函数和动态声门的生理模型。第九章“嗓音声源的合成”主要讨论嗓音声源的生理合成，包括不同声门脉冲的合成、不同声门生理参数的合成、不同发声类型的生理合成和声门的生理合成方法。第十章“结论和进一步研究的建议”主要总结了全书研究所有的结论和提出了这一领域未来的研究方向。
　　由于目前国内还没有大学和研究单位拥有声带高速数字成像系统，本项研究的资料主要采集于日本东京大学医学院，由于样本采集上的困难和声带高速数字图像信号参数提取的方法一直在完善，本项研究前后历时七八年的时间才完成。
　　2.主要创新和学术价值
　　传统语音学的研究是为了记录不同语言的语音，研究方法主要是通过耳听和口头模仿，所以称为“口耳之学”。语音学在研究方法上的第一次飞跃是由于X-光的发现，这使人们能观察到舌头的运动，从而使语音学的研究进入了科学的轨道，并逐渐形成了现代语音学。语音学的第二个飞跃是第二次世界大战后声谱仪的出现，它奠定了语音学的声学基本方法和理论基础。
　　现代言语声学理论将语音的产生主要分为两个部分，一个部分是共鸣，对应到语音学是“调音(articulation)”，即舌位运动形成的不同声道所引起的不同共鸣产生的语音，如[a，i，u]等。另一个部分是声源，对应到语音学是发声（phonation），即利用声带不同的振动方式表示不同的语言学意义，如中国民族语言中的松音、紧音、气嗓音等。调音的研究无论从生理还是声学上发展的都比较完善，而发声的研究却一直滞后，最主要的原因是由于声带深藏在声道内部，而且振动速度很高，所以观察、记录和分析都十分困难。上个世纪七、八十年代出现了高速数字成像技术，使我们能够真正观察和记录声带的振动方式和过程，这使得嗓音生理学、嗓音病理学和语音学才有可能对发声进行科学的定量研究，形成了语音学研究方法上的第三次飞跃。
　　本书的创新在于它完全是一项原创性研究，是国际国内第一本从语音学的角度，利用高速数字成像（每秒钟4000帧图像）和信号处理技术定量研究语言主要发声类型的学术专著，也是第一个研究和发表了汉语普通话四声的声带振动过程和声学特性的著作。
　　本书的学术价值主要是奠定了“现代发声语音学”的科学基础，这为我们研究和认识语言的共时语音系统和研究语言的历史音变，特别是研究和认识声调的起源过程，提供了新的研究方法和理论基础，也为嗓音医学研究提供了科学的研究方法和语音学理论基础。
　　3.研究方法
　　现代语音学是一门文理交叉的学科，特别是在语音学的某些前沿领域，如生理语音学、心理语音学等，涉及大量医学、脑科学和声学的研究方法。本项研究是从语音学的角度出发，主要采用了目前医学上研究和诊断声带病变的高速数字成像系统和言语工程技术中的图像信号处理和语音信号处理的方法。研究中主要采用了声带振动的高速数字视频信号、声门阻抗信号（EGG）和语音声学信号。基于研究的结果，最终使用了建立声带（声门）模型和嗓音合成的方法，通过合成不同的语言发声类型来验证研究结果的正确性。
　　4.学术影响或社会效益等
　　本项研究是生理语音学中研究语言发声的一项非常基础的科学研究，具有很大的超前性。由于该设备非常昂贵，目前北京的医院和各大学的医学院都还没有这种设备，也没有从事这个领域研究的团队。本书发表以后主要在国际上有这种设备的大学、医院和科研机构中得到了比较大的反响，如，日本东京大学Saji Niimi教授的团队、美国Ron Baken教授的团队、香港大学Edwin Yiu教授的团队、加拿大维多利亚大学Esling教授的团队等。也成为了这些研究机构科研人员和研究生的必读参考书。
　　虽然本书的初衷是为了语音学和语言学的研究，特别是为了研究语言历史音变中嗓音发声类型的作用，但研究的结果不仅仅为发声语音学奠定了科学基础，同时基于本书的研究成果和我们的计算机嗓音分析系统，其研究成果在嗓音医学的诊断、术前方案设计和病变嗓音模拟上都有很大的潜在效益，相信随着嗓音高速数字成像系统成本的降低和在我国的大学、科研机构和医院的引进和使用，本书的社会效益会慢慢体现出来。

　　成果社会反映
　　著名语言学家王士元教授在给作者的信中写道，“我刚刚看到了你这本水平一流的著作，……,它标志着人们对语言发声的认识向前迈进了巨大的一步，是中国语言学家的骄傲。……,我希望能有更多的年轻人跟随你创导的这个领域，继续深化这个领域的知识。”对本著作的评价，特别是语言学方面的评价都写在了他为本书写的序言里。

　　成果引用或被采纳情况
　　本著作为2007年出版，但由于某种原因，2008年上半年才印刷出厂。目前除了国内外有关科研机构和大学的同行及朋友来信索取外，在正式的出版物中还未见到引用。
　　美国的著名的言语嗓音生理学家Ron Baken教授已告知作者要为本专著写书评，王士元教授已同意将书评登在他主编的“Journal of Chinese Linguistics”(《中国语言学报》)上.