2009年度 第8回研究会(講演会)

日 時: 2009年12月5日(土)17:15〜19:35
会 場: 早稲田大学(早稲田キャンパス)14号館 6階 610教室
参加者: 松坂、中野、矢野 ┃ 浅利、安藤、磯田、大場、亀田、小林(潤)、
佐藤、残間、柴田、下山、鈴木、松坂、村上、山口、湯舟、渡辺
  [敬称略 会員19名(一般参加者 2名) 計21名]
『峯松研究室で取り組む外国語発音教育の技術支援
〜シャドーイングから構造表象まで〜』

発表者: 峯松 信明 氏[東京大学]
司会者: 湯舟 英一 氏[東洋大学]
【概要】

 峯松研究室で取り組む外国語発音教育の技術支援について紹介する。

 近年、聴取した音声をそのまま追唱するシャドーイングと呼ばれる学習法が注目を浴びている。英語聴取時に発声を課すことで認知負荷を高め、英語聴取の自動化を促進する学習法である。学習者のシャドーイング音声は崩れたものとなりやすいが、逆に、英語習熟度が直接的に反映された音声と解釈することもできる。このシャドーイング音声を分析することで TOEIC スコアを推定する研究について紹介する。

 母語話者の音声を繰り返し真似ることで発音の学習は行われるが、この時、母語話者の声帯模写をする必要は無い。音そのものを真似る必要はない。音の何を真似るべきなのだろうか?音声の構造的表象は、発声から、その話者の体格、年齢、性別などの静的な情報を消し去る技術として提案されており、これを用いた発音評価の枠組みについても紹介する。大人、子供の差異も消えてくるため、小学生の発音と大柄な太い声の母語話者発音とを比較する技術が構築されている。

参考文献

【司会者後記】

 今年最後のTALKは、東京大学大学院情報理工学研究科の峯松研究室(以下、峯松研)の峯松信明准教授をお招きし、音声認識研究の新しいパラダイムと、シャドーイングによる英語能力判定テスト開発について、主に文系のTALK会員にも分かりやすくご説明頂いた。内容の魅力もさることながら、田辺先生から松坂先生へ続くTALKのハードコアでもある音声教育を工学技術として支援することに取り組む、峯松先生の研究に対する姿勢や熱意に大いにインスパイアされた会であった。

 峯松先生は、都立戸山高校を出られ、東大の駒場時代はESSの英語劇の舞台にいた思い出しかない、というほどの英語好きで、実際英語教師になることも考えておられたそうである。そういう意味では、峯松先生と早稲田のTALKには共通点も多く親近感を感じる。実際、峯松先生には例会の後の忘年会にも最後までお付き合い頂き、さらに突っ込んだ講演の続きを聞くことができ、「土風炉」の料理ともども大変有意義な忘年会であった。

英語シャドーイング時の発音自動評価システムの開発研究について

 峯松研では、現在、学習者のシャドーイング音声を独自のデータベースにより構築したGOP (Goodness of Pronunciation) の指標により評定し、英語能力の簡易判定に応用する試みが行われている。峯松研で開発されたGOPは、隠れマルコフモデル(Hidden Markov Model: HMM)を利用した自動判定法により求められる。HMMとは音声のような比較的短時間の定常信号を認識できる確率モデルとして音声認識の分野では多く利用されている学習アルゴリズムである。HMMによる音声認識プログラムの特徴として、パラメータの数や種類が特定されていない状況下でも自動的にトレーニング可能であり、比較的単純で計算量も多くないが、入力信号が長くなると計算量が増え実用的でなくなるとされる。

 峯松研の開発現状では、この新たなGOPの算出方程式に加え、辞書や統語などの言語情報に依存せず物理的音声信号のみを手がかりに自動的に各音素にセグメントする技術を用いた場合と、言語情報の助けを借りて入力音声を各音素にセグメントする技術を用いた場合との二通りのシャドーイング評価技術を構築している。さらに、日本人学習者に対して、テキスト難易度の異なる「シャドーイング」、「文字付きシャドーイング」、「音読音声」を収録し、自動評定スコアとTOEICスコアとの相関分析を行ったところ、シャドーイング評価は音読より学習者の総合的語学能力を反映しやすいことが示された。とりわけ、中難易度すなわち学習者に適切な難易度のテキストであれば0.8レベルの相関が得られている。峯松先生ご本人も、数千円もするTOEICを受験させるよりも、このシャドーイング評価システムを利用してゼミ生を選抜できそうだと期待している。このシャドーイングテストが実用化されれば、プレースメントテストの経費をバッサリ仕分けられてしまった学校に勤務する者にとっては何とも嬉しいニュースとなるかもしれない。

音響的普遍構造に基づく音声認識

 かつてチョムスキーは、人間言語の本質は文法にあるとした。すなわち、言語を持つ動物は他にもいるが、「語順」によって意味を生み出す言語は人間の言語だけというわけだ。その結果、その後の心理言語学はもっぱら文法研究を対象とし、「音声の本質とは何か」という問題がこの半世紀、忘れられていた感がある。峯松先生の研究はまさにこの問題を、時代を超えて解き明かそうとするものである。

 ところで、音声学には「音素と異音」という考え方がある。すなわち音声には、「抽象化された本質(音韻論)」と「ノイズを含む現実の物理的な音(音声学)」の対立が存在する。では、人間の幼児はどのようにして「音韻」を獲得するのであろうか。峯松先生によれば、音声信号には声色を形作る様々な情報が含まれており、声帯の大きさや形、気管の太さ長さ、口の大きさや形などの情報が渾然としている。にも拘わらず、幼児はそれらの個人情報を切り捨て、意味に対応する音素のみを抽象化することができる。すなわち、幼児は音列の「普遍的構造」、あるいは「ゲシュタルト」を真似ているのであって、九官鳥のように話者情報を含む音声のすべてを真似ているわけではない。とりわけ、母音の獲得においては、各母音の周波数特性のうち、F1(主に舌の高さ)とF2(主に舌の前後)の情報を、絶対量でなくそれらの関係性(コントラスト)として獲得する能力またはその一部が、おそらく生得的に備わっていると考えられる。

 上のことを支持する根拠として、親の話す言葉だけを聞いて育った子供でも、他人の話す言葉を用意に理解できるし、さらに極論すれば、我々は日本中のすべての人の話す声を聞いていなくても、初めて会った人の言葉は理解できる。このことは、チョムスキーや他の生得論者の言う「プラトンの問題」、すなわち、限られた言語データから完全な文法(体系)を獲得するには生得的な機能が備わっている必要があるとする仮説が、人間の音韻獲得にも影を落としているように思われる。ただその臨界期(または敏感期)は音声獲得の方がはるかに年少(6歳程度)と考えられている。

 ところで、ふつう我々は、あるメロディーを変調しても同じメロディーだと認識する。これは、厳密な音程よりも音階を認識するように脳がチューンされているためで、周波数の絶対量ではなく、各音の関係性としてのゲシュタルトを認識しているのである。調が変わっただけで違う曲だと認識してしまうより、フォントが変わっただけで読めなくなってしまうより、はたまた、昨日の服装と違う人を別人と認識してしまうより、人間が生きていくのにはきっとその方が都合がいいはずである。

 峯松研では、このように、多様な音声の音響特性にも拘わらず、人間が不変な表象として音列を認識できるメカニズムを解き明かし、数式化することを目指している。峯松先生は、言語構造の普遍性を探求するという点では、ソシュール、ヤコブソン、チョムスキーそのものである。人間の言葉はいつも不正確で、文脈に埋もれ、ノイズの衣で出来ている。しかし、彼らが見つけようとしてきた「答え」はいつも、本質であり普遍的な何かである。