法庭語音學(Forensic Phonetics)     

簡介

    人與人溝通的最佳工具即是語言,人們藉由說話,經由聲音的傳送,更可以拉近彼此之間的距離,由於發音狀況、發音習慣因人而異,因此每個人發音、說話的聲調及特性便會有所不同,所以,藉由分辨聲音的差異,我們可用作者識別(Speech recognition)的依據。

     辦案講究的是證據,聲音是偵查犯罪的一項有力證據,而「法庭語音學」(Forensic Phonetics)的精髓及最終目的即是在此,「法庭語音學」可以在一件陷入膠著的案情中成為破案的最佳幫手及重要關鍵。語句擷取和語音樣本就像採取指紋樣本一樣有時效性,採取的時間愈短,其效果愈顯著;反之,如果時間愈長期效果失真的可能性便會愈大。如果要利用「法庭語音學」成為偵查犯罪的有利幫手,未來迫切需要的就是一套自動化的語者鑑定系統,能在最短時間內發揮正確辨識的功效,且能在警方偵辦某些特定案情上有更大的幫助。  


相關案例:

1. 東京沙林毒氣事件 (1994)

2. 吳敦義緋聞錄音帶事件 (1998年)                                                                            

3. 呂秀蓮副總統與新新聞事件 (2000年)

4. 相關綁票案

  從以上相關案例,我們知道「語音鑑定」是扮演著極為重要的角色,它也是還原真相的唯一依據。那到底「語音鑑定」的內容為何以及在刑事偵察上如何應用,則是我們接下來所要討論的重點。現在,我們以 三個部分來加以分別闡述:

壹.歷史演進
        聲紋研究緣起於1867年,Melville Bell出版的“可見的語言“一書,研究一套英文注音符號,其主要目的是為語言學的研究及教育聾者,因而促成其子Alexander Grahem Bell發明電話。1934年,語言學家田柏格提出一篇應用聲音儀器來從事語言學相關研究。1941年,第二次世界大戰其間,美國軍方為軍事目的,聲紋圖譜研究計畫被提出來。1954,Pollack等人共同提出一篇有關利用聲音來鑑定個人之研究報告。1950~1960其間,美國有許多大城市 常常發生以電話來從事不法活動或犯罪案件來困擾治安機關。1961年FBI因為航空公司常遭受電話炸彈威脅,遂要求卡司達設計以刑事偵查為目的的一種能辨別聲音之儀器,遂發明聲譜儀,同時並發表一篇人聲音各不相同,且可用聲譜儀將聲音以可見的圖譜式表現出來的文章;並提出英文常用的的十個單字為鑑定的關鍵字,即the, to, and, me, on, is, you, I, it, A等,且報告如藉五字比對之方法比對聲譜時,聲音鑑定之準確性可達99.5%

        在1960~1970年間,杜茜博士驗證卡式達所提倡聲紋比較之正確可靠性,在另一方面,有些科學家懷疑其可靠性,認為它可能受年齡及改變環境學習新的腔調等影響,可能並不像指紋般的永久不變性。柏特等人也指出,聲紋不同於指紋,使用上要非常審慎小心。1976年,瑞斯認為模擬聲及誇大鼻音等非常態所發出之聲音,其比鑑效果不好。另外,羅力爾也予以指出,在有經驗專家之鑑定下,經過15個月之語音,有80%語音可以比鑑出來,而無錯誤產生。在最近幾年來,美國司法機構委託洛克維爾公司的電子研究部研究發展出一套半自動語音鑑定系統,鑑定可性度可達98%。德國方面,西德聯邦刑事局技術研究中心亦正從事利用電腦來作聲紋比較而鑑識語音之比較。在美國,已有7/8州上訴法院法庭承認聲紋有價值採為證據。軍事法庭也採為證據。在日本,西德,加拿大也使用聲紋為證據。由上敘可知,聲紋在刑事偵查上之價值已被執法當局所肯定,甚至可在法庭當作證據使用。

貳.生理依據
    呼吸氣流是聲音的原動力。語言的呼吸與呼吸是分不開的,我們說話系列用從肺呼出來的氣流,經過支氣管氣管後,在喉下腔增加壓力衝出聲門,再由喉鼻共鳴,並由舌唇等之位置及形狀的變化改變音調,自口或鼻流出產生空氣的疏密波。此疏密波就是音波成為聲音,由之構成種種有意義的言語,則正由許多器官的互相協同而產生。
    由上可知,構成聲音之獨特性原因有二,為音腔與發音器官兩種;兩人具有同樣大小的音腔及同形式的連接方式之可能性很小;另一為說話時使用的發音器官,發音器官係控制明瞭發音之相互作用,包括唇齒及口蓋,清晰的發音並非天生,而是經由不斷學習改變錯誤而形成。兩人以同樣方式運用其發音器官是微乎其微的,每個人發出聲音不同,已為各界所承認。因此,鑑定聲紋之獨特性之學理依據即是基於不同個人不可能具備相同的音腔大小及同樣的發音器官運作方式。

參.語音鑑定
   
語音鑑定的方法有聽聲音,看圖譜,唯看圖譜的一般評論並不是甚好,主要是因為這項技術上有許多矛盾及混淆,而且從事該技術者並未提出評估鑑定報告,以致缺乏足夠研究支持。聲紋的鑑定方法是建立在t-f-a(時間-頻率-強度)的圖譜上,鑑定員以相當粗略的形態比對圖譜,以進行是否相似性的判定。
        聲音鑑定除了聲音本質性的外在因素,鑑定者往往也考慮其他因素,舉一案例來說:在加拿大某一學校,對校內印第安學生有歧視,有一陣子 ,校區接到數通炸彈威脅的電話,校區即把電話錄音交給家騎警,加拿大警方靠聆聽方式找出某一印第安學生,把證物交給加拿大的聲紋鑑定專家定為非同一人聲音,同樣檢體又送美國鑑定結果係同一人,結果那名年輕人被判兩年,出獄後,他要求重驗,雖然三名法官有兩名維持原判,但第三名有不同看法,他指出:

  1. 熟識該學生的老師,認為錄音帶的聲音不是該名學生的聲音。

  2. 該恐嚇電話打入學校前幾分鐘,有學校人員還看到該

  3. 該名學生若打恐嚇電話在校區,那時正好是學校午餐時間,唯恐嚇電中並沒有午餐自助餐的吵雜聲。

  4. 明顯,恐嚇電話是由數英里外打入的。
     

        另外,由錄音帶所錄聲音可研判何種電話機型,恐嚇電話由歐洲式的話機傳出與校區內的公共電話不同,所以認為該名學生不可能打那通電話,因此,在做聲紋鑑定時,一些情況證據亦須掌握。聲紋鑑定另受爭議是自成一團體,Frye測驗是指唯有經過公認的科學團體承認方法才被認可,而且可重複接收考驗。但聲紋測驗卻是以自定成員條件成立一團體並要求須承認聲紋技術下加入,以其可信度值得商議。
        聲紋鑑定是一種值的分析而非量的分析,所以在分析上容易傾向主觀的知覺判定所以爭議處就多。在改善以機器為基礎的語音鑑定方法有兩點:

1. 有系統的研究

2. 不斷測試

        基礎的語音鑑定系統架構是使用許多向量或元素,向量可組成任何所假設的分析,將有助成為鑑定的線索。向量也可以是一群參數所組成,用來描述語言信號內基頻或相關測量的特徵點以鑑定。當然,沒有足夠向量資料是無法有效鑑定的,因此,必須在語言信號分析時做相互測試排除無關元素。在使用有系統有組織的研究程式中,先對所選擇的向量做一連串偵測了解是否有代表性,以求在大目標內分別語者。一旦可行,就應評估什麼狀況出現什麼扭曲,如電話頻率變化或語言偽裝,本步驟必須不斷測試直到系統合乎鑑定要求以及在何種情況下正確性最高或何種情況會干擾鑑定。最初的過程須花很多時間來完成,在第二階段中向量的組合以增加系統能力。
        在第二階段中要完成一組四個向量的可能組合,需要十一個分開的研究計畫,每一個含正常情況即扭曲狀況下的複雜實驗,為增進該系統,須做多次修正,在這個階段中很可能會完全排除掉原先所假設的向量,但同時我們也可以發現這套系統更管用了。系統改進的最後一項是測試程序,有兩種方法可以使用一是模擬犯罪狀況,二是系統應用到真實案例中並據以提出系統的信度及效度。若能整合每一含數個參數的向量,在語者有強調或扭曲的部份,有時各向量有抵消的功能反而有助於鑑定。一般有用的語音特徵有: 基頻,聲門面積速度,聲陣頻率/帶寬,暴音及鼻音等。在量化應用有:


1. LTS: The long-term Speech Spectra Vector

LTS的偵測能力較強,正確性較高不受受測者緊張或通過波域條件有限之影響。目前FFT Realtime Spectrum Analyzer配合電腦來分析更多組參數之向量涵蓋之頻率可達60~1000HZ。但一般而言,本法對偽裝音的效果較差。

2. SFF : The Speaking Fundamental Frequency Vector

基頻是鑑別語音的一項很好分析工具,利用SFF可計算基頻的平均值及標準差。

3. VFT : The Vowel Formant Tracking Vector

計算F1/F2及F2/F3即第一,二聲振比及第二,三聲振比值,可不受系統扭曲或干擾影響。

4. TED: The Temporal Vector

其中包含五個部份
a. TST: Total Speech Time
b. S/T: Speaking Time Ratio
c. SI: Silent Internal
d. SR: Speed Rate
e. C/V: Consonant/Vowel

        將上述量化的特徵參數計算並系統性比較,可以得到較客觀且可靠的證明。不可諱言的,語言鑑定不是只靠單一聽聲音或看圖譜或將圖譜量化即行,它還需要考慮案情,錄音狀態,在輔以量畫圖譜資料,儘可能多角度考量再進行判別。
          <補充>:在本土研究方面,賴錫欽先生研究指出,國語常用字的我,你,他,有,的,不,是這七個字,經發音實驗結果顯示人各不相同,因此,將來刑事鑑識機關從事比鑑工作時,可以先予考慮這七個字。

   摘錄自盧佐昇《聲音鑑定—由吳敦義緋聞錄音帶談起》  


國內相關學校或系所:

1. 中央警察大學

    1.1鑑識科學研究所

    1.2刑事警察研究所                                                     

2. 各校語言所或電機相關科系

3.成功大學法醫學科  


常見關鍵字及其解釋:

語音(Speech Sound):語音就是語言的聲音部分。它是經由發音器官所產生,以振動著的音波,傳達到聽話對方的一種物理現象。從人們口裡發出的聲音並不都是語音,正如鳥叫、蟲鳴,嬰孩啼笑不能算是語言一樣,只有當它和意義相結合時,這個聲音才成為語言的一部份,這種聲音就叫做語音。語言藉助於它的聲音,體現了它的交際功能。語音是語言的外在形式,人類藉著生理器官才能形成不同的語音。我們呼吸時,從肺裡呼出來的氣流,經過喉頭和口腔時,受到各種節制和調節,就發出各種不同的聲音。事實上我們可以發出千千萬萬種不同聲音,但我們卻只利用幾十個不同的聲音來作說話的基本單位。從聲學方面來分析,語言中就有音質、音高、音強、音長等四個要素。每種語言都有一定數目的音素(元音和輔音),其結合方式有一定的規律,構成這個語言的特點和語音系統。例如漢語具有聲調,是它的一大特點。我們通常所接受的語言是由一段段的語音段落所組成。把語串分析成音段,把音段分析成音節、音素、音位等單位;現代語言學家又把音素分析成更小的「辨音成分」,如國音符號中的ㄅ([p])這個音素,就含有唇、塞、清等成分。研究人類語言的聲音系統,以及它的變化和變化規律,就是語音學。 

音高(Pitch:聲音的高低。由音波振動的快慢來決定。振動快,音就高;振動慢,音就低。語音上的音高,決定於聲帶的長短、鬆緊、厚薄,長、鬆、厚的,音就低;短、緊、薄的,音就高。漢語裡音高變化有區別詞義的作用,如「媽、麻、馬、罵」四個字的聲調不同,即「音高」的不同。

聲譜Spectrogram):這是常使用在聲學語音學這門領域的一項重要機器。它可以把聲學特徵(聲學特徵是組成聲音的重要元素)顯示出來。這種機器是以三次元的方式呈現,橫軸代表時間,直軸代表頻率,而黑色標記部分代表音的強弱(能量)。

語音識別(Speech Recognition):  語音識別是在接受語音時,大腦將其語音解碼的第一個階段。近年來,它已經獨立發展成語音學的一支,主要的領域就是把聲學語音學及語音認知這方面的研究資料研發成一套電腦系統,而此系統可以對其輸入的語音形式有所反應;這套系統也稱為『自動語音識別』(automatic speech recognition)。

語者識別(Speaker Identification): 語者識別就是把一個說話者的語音和另一個說話者的語音互相作個比較,如此就可以去判定這兩個說話者是否為同一個人。「語者識別」一直都很廣泛地使用在「犯罪案件」這個層面上,因為這項技術可以藉由對聲譜圖的分析,進而協助鑑識人員去判斷該說話者的聲音是否和嫌犯為同一個人。

語者識別(Speaker Recognition):  語者識別,它是屬於語音學的一個分支。在這個領域裡,鑑識人員藉由分析個體的聲音而去斷定這聲音是否為同一個人發出。

語音辨識(Speaker Verification: 當個體發出語音時,電腦會藉由聲學上的分析去和它裡面所儲存的語音作個比對,去檢查這二種聲音的相似度為何。這項技術通常都使用在以下的情況:某人要進去大樓時,大樓門口都有這樣的語音辨識系統,只要此人所發出的語音和此系統所儲存的語音相符合,他就可以自由進出。


相關書籍:

Atkinson, James E. 1976. Inter-and Intraspeaker variability in fundamental  voice frequency. Journal of the Acousitical Society of America. Vol.: 60.

D. B. Fry. 1979.The Physics of Speech. Cambridge Univ Pr.

Fry, Dennis Butler.1979. The Physics of Speech. New York: Cambridge University Press.

 

 

 The Physics of Speech
by D. B. Fry (Author)

Editorial Reviews
Book Description
The mechanism of speech is a very complex one and in order to undertake any analysis of language it is important to understand the processes that go to make up the message that a speaker transmits and a listener receives. Professor Fry therefore first takes the reader through the various stages of the speech chain: from language units to nerve impulses to muscle movements to sound waves, and vice versa as the message is received and decoded. He then explains the basic physical principles involved in the generation and propagation of sound energy and in the phenomenon of resonance. These principles are then applied to the speech mechanism itself and to the particular kinds of sound which constitute speech. There is a fully illustrated account of the use of the sound spectrograph in acoustic analysis and chapters dealing with the acoustic features of English sounds and with the way we recognise speech sounds by the acoustic cues inherent in a particular language. Professor Fry gave courses on the physics of speech to students of applied as well as theoretical linguistics and to speech therapists, and his clear account will therefore provide a basic textbook for such courses as well as being of interest to people working in departments of speech and in communications generally.

Hollen, Harry. 1990. The Acoustics of Crime. The New Science of Forensic Phonetics, New York: Plenum Press. P54-59.

Hollien, Harry. 2001. Forensic Voice Identification. Academic Press

 

 

Forensic Voice Identification
by Harry Hollien

 

Editorial Reviews
Book Description
Eleven years after the publication of his seminal book, The Acoustics of Crime, Dr. Harry Hollien returns to share the benefit of over 40 years of experience in the field of forensic acoustics. Forensic Voice Identification fills the need for a new, comprehensive reference for professionals who work with recorded evidence, covering key areas such authentication of speech recordings, voice stress analysis, and speaker identification.

This practical, hands-on guide covers the basic sciences behind voice identification, and outlines many applications unique to this forensic specialty. For instance, one chapter covers everything the reader needs to know about coordinating "ear witness" lineups and another discusses the ins and outs of using professional consultants in an investigation.

The field has advanced significantly since the publication of Dr. Hollien's first book, and he has been at the forefront of research and the development of new techniques and technologies. In this new book, readers will learn how to use Hollien's own SAUSI (Semi-automatic Speaker Identification) system, and learn about both the latest high-tech machinery available for forensic voice identification and the classic methods and techniques on which they are based.

Lawrence R. Rabiner et al. 1978. Digital Processing of Speech Signals. Prentice Hall.

 

 

 Digital Processing of Speech Signals
by Lawrence R. Rabiner, Ronald W. Schafer

Editorial Reviews

The publisher, Prentice-Hall Engineering/Science/Mathematics
The purpose of this text is to show how digital signal processing techniques can be applied to problems related to speech communication. The book gives an extensive description of the physical basis for speech coding including fourier analysis, digital representation and digital and time domain models of the wave form. It goes on to discuss homomorphic speech processing, linear predictive coding and digital processing for machine communication by voice.

From the Back Cover

The purpose of this book is to show how digital signal processing techniques can be applied to problems related to speech communication. The book gives an extensive description of the physical basis for speech coding including fourier analysis, digital representation and digital and time domain models of the waveform. It goes on to discuss homomorphic speech processing, linear predictive coding and digital processing for machine communication by voice.

Rabiner, Lawrence and Juang, Biing-Hwang.1993. Fundamentals of speech recognition.

Rose, Philip. 2002. Forensic Speaker Identification (Forensic Science). Taylor & Francis

Editorial Reviews
Book Description

A voice is much more than just a string of words. Voices, unlike fingerprints, are inherently complex. Forensic Speaker Identification explains what FSI involves, and clarifies the problems of inferring identity from speech under the less than ideal conditions typical in forensics. This book has been written for forensic scientists, the legal profession and law enforcement officers. It's accessible to those with no previous knowledge of FSI, or of phonetics or acoustics. It can also be used as a base for teaching tertiary level courses in aspects of phonetics. This practical, lucid text takes the reader through all the underpinning knowledge necessary, and will bring much needed clarity to an important technique.

About the Author
Phil Rose is of the Australian National University in Australia.

Tosi, Oscar. 1979.Voice Identification: Theory and Legal Application. University Park Press.

賴錫欽(民79)。語音鑑識之探討。《警學叢刊,第123期,125-126

宋宏賓(民79)。語者辨識之探討。《電子發展月刊,第153期,1-9

陳榮貴等(民83)。動態規正法應用於國語單音辨識的研究。電信研究季刊,第211期,41

徐健民許清桂(民83)。語音基頻特性之分析。刑事科學,第38期。

王仁華(民84)人機語音通信。聯經出版社。 

謝秀琴(民85)數位語音訊號基本原理。全華科技圖書股份有限公司。

徐遠齡犯罪偵查學。台灣中央警官學校第5版,134~135。

喬頌昌法庭中之聲譜鑑。《科學與技術》,28期,37。


相關網站
 

1. IAFP -- International Association for Forensic Phonetics 

The International Association for Forensic Phonetics (IAFP) seeks to foster research and provide a forum for the interchange of ideas and information on practice, development and research in forensic phonetics as well as to set down and enforce standards of professional conduct and procedure for those involved in forensic phonetic casework.

2. Forensic Phonetics (http://metz.une.edu.au/~hfraser/forensic.htm)

這個網站的內容非常豐富,包括介紹何謂「法庭語音學」,討論法庭語音學的重要議題等等。此外,這網站也提供了法庭語音學的相關詞彙及其解釋。

3.http://www-personal.une.edu.au/~hfraser/forensic.htm#What%20is

The website of Dr Helen Fraser, from University of New England. Here is the content of this website:

Contents of this Site

4. http://www.corpus-delicti.com/criminal.html

This is the website that introduce more relating books about forensic phonetics or science.