大学概要【2022年度実施分】IoTを活用した表現教育モデル
外国語学部
2018年度より始まったNTT西日本との本産学連携プロジェクトは、IoT/ICTの活用による学生の学びの質向上を目指す課題解決プロジェクトである。口頭発表、発話中の表情や目線といった視覚情報と、声質など音声情報を可視化することの有用性についての取り組みを行っている。視覚情報、音声情報を「見える化」することで、より効果的なフィードバックの生成、学生にとっての客観的な振り返りを促すための活用デザインを模索している。
ACTIVITY
音声ラベリング評価の結果報告
2022/12/20
2021年度の活動で行った、音声に対する評価(ラベリング:声の「印象」「明るさ」「澄み具合」「落ち着き」「迫力」などを参加者学生が判定する)の結果に関して、NTTコミュニケーション科学基礎研究所の田中氏より報告を受けました。加えて、改めて昨今の合成音声を取り巻く社会背景に関して講義を頂きました。画像・動画データだけではなく、音声データに関してもディープフェイク(悪意ある捏造など)が技術的に可能になってきている中、自分が耳にする音声が実際の話者のものなのか、人為的に作られたものなのか、音声技術の現在(いま)に関しても理解を深めることができました。
また、今回は参加学生の音声を収録し、実際にどのような評価が出るのかを試験的に実施しました。ipadを使って簡易的に吹き込んだ音声のため、データ素材としてのばらつきがあったものの、自分の音声にどのような評価が付くのかを体験し、自らの発話を客観視することができました。今回は簡易的な音声収録だったため、収録環境を調整しながら音声データを作成し、それがどのように評価されるのかを今後見ていきます。
異なる種類の音声を収録し、自分の声(音声)がどのように評価されるのか準備中
2023/01/13
今回、異なる文章の種類を準備し、異なる発話で収録を行いました。文章には(1)評価システム構築で使われている音声資源からのサンプルを5件、(2)オリジナルの短文を3件、(3)オリジナルの文章を1件、(4)原稿などのないフリースタイルの発話を2種類、(5)英語の文章1件を準備しました。
音声評価は[印象][明るさ][澄み具合][落ち着き][迫力]の5つで行われるため、上記のサンプルを学生自身が「ふつう」に読んだものと、意図的に「印象良く聞こえるように」読んだものの2パターンを収録しました。
音声録音そのものはスマートフォンなどで個人的に行うことが日常となり、またマイクを使った発話はZOOMなどで以前よりも一般的なものになりました。しかし、本格的なナレーション録りのように、自分の声と向き合って音声収録する体験は学生には新鮮であり、これまで意識しなかった自分の発声法や、世の中にあふれる収録音声の背景を知る学びとなりました。
総括セッション
2023/02/24
本活動は、NTT西日本との産学連携プロジェクトとして、口頭発表などの場面で自分自身の顔の表情や声がどう相手に伝わっているのかをIoTを使って「見える化」する試みです。前回の活動では、学生自身がさまざまな文章を「ふつう」に発話した時と、「印象が良くなるよう」に意識をして発話した時とで収録し、音声がどのように評価されるか(「見える化」されるか)の準備を行いました。
今回は活動の総括として、実際に収録した音声データに対する評価をもとにNTT研究所の田中氏よりフィードバックを受け、「声から受ける印象」に関して客観的に考えるきっかけとなりました。たとえば、意識的に印象を変えた発話が評価データに表れたものもあれば、ほとんど違いが出ないものもありました。これは、今回の評価は「音声」そのものだけに焦点を当てているため、実際に私たちが話す場面ではいかに「間(ま)」の取り方なども大きく影響しているのかという、極めて基本でありながらも重要な点が明確になりました。
まとめとして、現在のAI技術やICT、IoTなどの技術発展によって音声評価・自動生成は社会にとって望ましいものにも、また脅威にもなることが田中氏より語られました。フェイク画像、フェイク動画だけではなく、こうした技術革新によって音声も真偽の難しいものが簡単に作られるように変化していきます。総括セッションでは、AI時代のメディアリテラシーと、私たちがどのように最新技術と向き合っていくべきかについても話し合うことができました。