研究業績リスト
その他
非侵襲型脳波を用いた言語・非言語音声合成による次世代コミュニケーション技術の確立
作成日時 01/04/2024–31/03/2029
Offer Organization: 日本学術振興会, System Name: 科学研究費助成事業, Category: 基盤研究(A), Fund Type: -, Overall Grant Amount: - (direct: 36800000, indirect: 11040000)
その他
作成日時 01/04/2023–31/03/2026
Offer Organization: 日本学術振興会, System Name: 科学研究費助成事業, Category: 基盤研究(C), Fund Type: -, Overall Grant Amount: - (direct: 3600000, indirect: 1080000)
その他
音声スペクトルを対数的に表現する浅層ニューラルネットに関する研究
作成日時 04/2021–03/2024
Offer Organization: Japan Society for the Promotion of Science, System Name: Grants-in-Aid for Scientific Research, Category: Grant-in-Aid for Scientific Research (C), Fund Type: competitive_research_funding, Overall Grant Amount: - (direct: 960000, indirect: 3200000)
本研究では,音声の表現に適した新しい機械学習手法として,確率的な浅層ニューラルネットである制限ボルツマンマシン(RBM)をベースに,対数振幅スペクトルと位相のデータ構造を適切に表現する音声技術を確立する.深層学習とは異なり,RBMはコンパクトで解釈性があり,データの確率分布を陽に仮定できるため,より適切に音声を表現することができると期待される.初年度である本研究期間では,対数振幅スペクトル表現に着目し,モデル定義と実装・評価実験及び論文執筆を行なった.具体的には,可視素子として振幅スペクトルと対数振幅スペクトルを用いたRBMを定義することで,結果的に隠れ素子が与えられた時の可視素子の条件付き確率が,隠れ素子で定まる2種の分布パラメータを持つガンマ分布で表現されることを導出した.評価実験では,振幅スペクトルを従来のガウス型RBMで表現したモデルと,対数振幅スペクトルを従来のガウス型RBMで表現したモデルよりも,上記提案モデルの方が,PESQ及びSTOIに基づく客観評価基準と,自然性に関するMOS(5段階評価)に基づく主観的基準において高い精度で音声の符号化・復号化が可能であることを示した.従来研究においても,音声のスペクトルを表現する分布として正規分布よりもガンマ分布の方が適しているという報告がなされていたが,本研究では,その根拠として振幅スペクトルと対数振幅スペクトルの両方の存在確率を同時に表現しているからと考えることができるという,新しい解釈ができたという点においても意義がある.本研究成果に関して,権威のある国際論文誌であるIEEE/ACM Transactions on Audio Speech and Language Processingに1件投稿し,採択された.また本研究に関連して9件の国内会議発表,1件の特許出願を行なった.
その他
音響的分析と聞き手の心理評価に基づく表情豊かな英語スピーチ力の育成
作成日時 04/2020–03/2025
Offer Organization: 日本学術振興会, System Name: 科学研究費助成事業, Category: 基盤研究(C), Fund Type: competitive_research_funding, Overall Grant Amount: - (direct: 100000, indirect: 30000)
スピーチを行う場合、話し手は言語情報だけでなくパラ言語情報(意図的に表出する感情・意図・態度)をも伝達することで聞き手に伝わる表情豊かなスピーチとなる。本研究では、日本人英語学習者が英語でスピーチを行うときに、その音声にどのような音響的特徴が現れればパラ言語情報が聞き手によりよく伝わるようになるのかを明らかにすることを目的とする。本研究では独自に作成したスピーチ原稿と教材音声で英語学習者の発話訓練を行う計画である。訓練前後の音声の音響的特徴と聞き手の心理的評価結果について多変量解析を行い、どのような音響的特徴がパラ言語伝達に関連するのかを明らかにする予定である。得られた知見は、英語教育の現場で英語スピーチの指導に役立てることができると期待される。
感情表現にフォーカスした英語スピーチ力を育成するという上記で述べた本研究の最終的な目的を念頭におき、まずは実験用のスピーチスクリプトを作成する参考とするため、実験参加者が感情を込めやすい状況やスピーチ内容について情報を収集する計画を立てた。本実験では日本人英語学習者の大学生を対象として実験を行う計画であるため、情報収集においても日本人大学生を対象に、特定の感情が湧いた状況をヒアリングすることとし、ヒアリング用のアンケートの作成を行った。研究代表者の山下がアンケート項目のドラフトを作成し、分担者の冬野が11名の学生を対象にパイロット実験を実施した。パイロット実験で特に問題が見られず、アンケートの有用性が確認できた。その後、石井が117名の学生を対象に本実験を行った。
モデル音声作成の研究課題では、英語学習者の英語訓練を促進することを目的とし、スピーチの訓練を受けた英語母語話者の収録音声と、その音声に対するパラ言語情報のラベリングを用いて得られる、パラ言語情報の評価値と音響的特徴の相関の高いモデル音声を作成し、声質変換システムを用いて自分の声質をモデル音声へ変換する。本研究期間ではモデル学習のための事前実験として英語学習者および英語母語話者の現場での実環境音声収録、音響解析のための環境整備と声質変換モデルの考案を実施した。後者については具体的には入力特徴量中の指定属性を軽減させた潜在特徴抽出が可能なFaderNetworkを応用して、入力される英語学習者音声から得られるアクセント属性を軽減した特徴量と、英語母語話者のアクセント属性を復号器に通すことで学習者の話者性を保持したまま英語母語者のアクセントを持つ音声を合成する手法を検討しており、話者変換タスクにおける簡単な動作確認を行った。
その他
制限ボルツマンマシンの複素数拡張モデルにおける最適化アルゴリズムとMRI画像への応用
作成日時 01/04/2018
Offer Organization: 中島記念国際交流財団, System Name: -, Category: -, Fund Type: competitive_research_funding, Overall Grant Amount: - (direct: 0, indirect: 0)
その他
作成日時 01/04/2017
Offer Organization: 電気通信普及財団, System Name: -, Category: -, Fund Type: competitive_research_funding, Overall Grant Amount: - (direct: 0, indirect: 0)
その他
作成日時 01/04/2018–31/03/2021
Offer Organization: Japan Society for the Promotion of Science, System Name: Grants-in-Aid for Scientific Research, Category: Grant-in-Aid for Early-Career Scientists, Fund Type: competitive_research_funding, Overall Grant Amount: - (direct: 3200000, indirect: 960000)
In speech signal processing, few methods have been established to simultaneously perform multiple different tasks such as speaker recognition and emotion recognition. In this research, we focused on the Boltzmann machine, which has the property of representing the relationships between various factors with its high potential ability, and examined the effectiveness of simultaneously realizing speaker recognition, emotion recognition, speaker conversion, and emotion conversion with it. From the experimental results, it was found that speaker recognition, emotion recognition, speaker conversion, and emotion conversion can be achieved using only a Boltzmann machine. We also revealed that the Boltzmann machine that simultaneously represents speakers and emotions outperformed the Boltzmann machine that represents either speakers or emotions in recognition and voice conversion accuracy.
その他
平成30年度「大学の世界展開力強化事業(JUSST)」短期受入生(Michel Pezzat Morales)
作成日時 2018–2018
その他
平成30年度「大学の世界展開力強化事業(JUSST)」短期受入生(Scheck Kevin)
作成日時 2018–2018
その他
平成29年度「大学の世界展開力強化事業」短期受入生(Eduardo PICHARDO MORALES)
作成日時 2017–2017