研究業績リスト
その他
作成日時 10/2015–03/2018
Offer Organization: -, System Name: -, Category: -, Fund Type: competitive_research_funding, Overall Grant Amount: - (direct: 1900000, indirect: 570000)
その他
Non-lexical Sounds : a New Interface Modality for Voice-based Information Delivery Systems
作成日時 1999–2000
Offer Organization: Japan Society for the Promotion of Science, System Name: Grants-in-Aid for Scientific Research, Category: Grant-in-Aid for Scientific Research (C), Fund Type: -, Overall Grant Amount: - (direct: 2500000, indirect: -)
The papers collected in this report describe research performed under a grant entitled "Non-lexical Sounds : a New Interface Modality for Voice-based Information Delivery Systems" funded for fiscal 1999--2000.
*er the past 5 years interactive voice response (IVR) systems have become ubiquitous in the United States and are making inroads in Japan. Indeed, it is becoming impossible to get train schedules, apartment information, call routing, flight information, weather information, and so on from a real person. One reason these systems are universally hated is the need to listen to menus, navigate through them, and push buttons to select content, but this difficulty is being resolved thanks to the deployment of speech recognition technology. The second problem with these systems is that the information provided is given in fixed chunks, lasting from a few seconds to a few tens of seconds, and the user is essentially forced to listen as the system plays back a chunk.
In contrast, people providing information over the telephone are much more flexible. One aspect of this is that they are responsive to feedback from the listener. In particular, in many dialog types the listener frequently produces back-channels, such as uh-huh, uh, yeah-yeah, oh, ummmm and so on, and the information provider adapts his presentation in response.
Thus the aim of this project was to discover the meanings and functions of such non-lexical conversational sounds, and to exploit them in voice-based information delivery systems.
The first component of the project was basic research into the meanings and functions of non-lexical sounds in conversation in two languages, Japanese and English. This led to a new understanding of these sounds. For English, this was formalized as a model in which these items are explained, not as fixed words, but as dynamic creations, generated by a simple model consisting of 10 component sounds and 2 combining rules. The semantic component of the model is sound-symbolic : each of these component sounds bears some meaning or function * is fairly constant across grunts and across contexts, and the meaning of a conversational grunt is largely the sum of the meanings of its phonetic components.
The second component of the project was an use of these sounds in a tutorial system. This system produced non-lexical sounds, suitably varied according to context, demonstrating their utility in goal-oriented dialogs.
The third component of the project was a study of the use of non-lexical sounds in a real-time control application, in which the computer responded in real-time to non-lexical advice from the user, such as mm--mm--mm or ack! .
Topics which remain on the agenda are : 1. a model of the meanings of the prosodic features of non-lexical sounds, 2. a model of non-lexical sounds in conversational Japanese, 3. a system which responds to these sounds during number-giving in a directory-assistance type IVR system, and 4. a spoken dialog salestalk-type system which adapts its presentation based on these sounds.
その他
Passive Automatic Animation of C programs in Program Paper Slide Show
作成日時 1999–2000
Offer Organization: Japan Society for the Promotion of Science, System Name: Grants-in-Aid for Scientific Research, Category: Grant-in-Aid for Scientific Research (C), Fund Type: -, Overall Grant Amount: - (direct: 2900000, indirect: -)
We designed and implemented a source code animation system "Program Paper Slide Show" suitable for students learning programming.
Overlapping slides and their smooth motions help the user to trace the control of the program.
To make the system easy to use for novice users, we tried to keep the interaction as simple as possible.
Starting from this basic implementation, we added VCR-like buttons to control the animation.
This extension made our system helpful for program comprehension by not-novice programmers.
We applied our system to Java multithread programs. For coarse-grained programs, our system is suitable because it animates each thread graphically.
We introduced our system to 2-nd year students in our programming course. This evaluation showed our system is preferred to the traditional 'print' debug method.
We opened a Web Page for our system in Dec.2000, which has had more than 2300 accesses and 300 downloads of the system.
その他
作成日時 1997–1997
Offer Organization: 日本学術振興会, System Name: 科学研究費助成事業, Category: 重点領域研究, Fund Type: -, Overall Grant Amount: - (direct: 1400000, indirect: -)
これまでわれわれは、ソフトウェアを題材として、抽象的なモデルを現実感を持って表現する研究を行なってきた。昨年までに、プログラムの動作を三次元グラフィクスを用いて視覚化するシステムを作成し、プログラムの動的な視覚化によって、プログラム作成者が持つイメージを表現することを試みてきた。
今年度は、プログラムの静的構造、すなわちプログラムテキストとして表現される情報構造を対象とすることにした。モジュールを構成するような関連性の強い関数群を自動的に発見し、人間の理解を助けるような形で視覚化することを目標とする。さらに、そのようにして得られた視覚イメージとしてのプログラムの構成図式を、コンピュータネットワークを利用して複数ユーザの間で共有することで、グループによるソフトウェアの理解や開発に役立てることができると考えた。そのために必要となる基礎技術として、関数の相互関係の抽出とその効果的な視覚化があげられる。
関数間の関係を知る尺度として、関数/変数に対する参照関係をとりあげることとした。個別の参照関係から相互関係を導くために、呼びだし関係を推移的に拡張する。たとえば同じ関数から呼び出される関数群や、逆に同じ関数を呼び出す関数群にも、たとえ直接的な呼びだし関係がなくても一定の関連性のスコアを与えるのである。
つぎに、そのようにして算出した相互関連性を視覚化するために、それを距離と考えて空間に配置することを試みた。この場合、利用者にとっては関連性の強い関数群を、近い場所に配置するのがもっとも自然な視覚化ではないかと考え、適当な緩和計算を繰り返すことで、平面上に近似的な配置を得ることができた。(いわゆるバネモデル)。三次元空間への配置も同様のアルゴリズムによって可能である。
その他
ソフトウェア開発者のためのプログラム実行モデルへの体験/参加システム
作成日時 1996–1996
Offer Organization: 日本学術振興会, System Name: 科学研究費助成事業, Category: 重点領域研究, Fund Type: -, Overall Grant Amount: - (direct: 2200000, indirect: -)
本年度は昨年度の公募研究の結果得られた知見化に基づき,Schemeという一種の関数型言語によるプログラムの3次元視覚とそれに対する操作システムの実装を行なった.
視覚化の方式は,プログラムにおける関数呼び出し履歴をあらわす木構造を,3次元空間内の入れ子になった箱として実現した.これによって,視点の移動は箱の内部への移動となり,利用者に対してより強い臨場感を与える.さらに,Scheme言語特有の制御構造である継続(continuation)を,実行履歴の一点に対する印(旗)として視覚化することで,理解を容易にした.評価実験によれば,コルーチンの実現など継続を利用した高度なプログラムについて,理解が容易になったとの声が得られている.
実行モデルに対する操作としては,すでに実行済みの式の値を,直接操作によって他の値に変更することを可能にした.この操作によって,その時点からの計算が再実行され,変更を反映した結果を得ることができる.この操作は,対話的に,繰り返し行なうことが可能であるから,プログラムの動作の理解に非常に有効である.
ただ,本研究は視覚化/操作のためのモデルの構築が主目的であるので,その提示や操作方法については十分に対応したとはいえない.実際,実行モデルに対する操作や視点移動はすべてマウスやキ-を用いて行なっている.人工現実感の観点からは,より多様な入力手段を用いることがのぞましく,本重点領域研究の他の研究成果の利用を進めていきたい.また,画像の提示についても,現状では3次元グラフィクスによる通常のCRTディスプレイへの表面であるので,より臨場感のある提示媒体を使用していきたい.
その他
直接操作メタファによるプログラム言語実行モデルの構築とデバッグへの応用
作成日時 1995–1995
Offer Organization: 日本学術振興会, System Name: 科学研究費助成事業, Category: 重点領域研究, Fund Type: -, Overall Grant Amount: - (direct: 2400000, indirect: -)
本研究で対象としたプログラム言語は,Schemeである.Schemeには,プログラムの実行を高度に制御するコンティニュエーションというデータ構造があり,その機能ゆえに理解が難しい点を研究のターゲットとした.
まず,コンティニュエーションの実行モデルとして,関数呼び出しの木構造を取り上げ,その視覚化から研究を開始した.具体的には,StkなるScheme処理系において,アプリケーションプログラムを一部変更して,関数呼びだし関係のデータを採取可能にした.
さらに,それとは独立したデータを集計/表示するためのプログラムを試作した.この表示プログラムは,一組の関数呼びだしデータに対していろいろな表示方式を選択できるため,モデルの視覚的表現法の検討の手段として有用であった.
コンティニュエーションの呼びだしは,過去に存在した関数呼びだしフレームへの制御の移動としてとらえられるので,このモデル上ではアニメーションとして表現が可能となっている.
研究計画の後半の中心であったモデルへの操作については,現状ではマウスクリックによって視覚表現からデータを選び出す,ある呼びだしフレームにおけるクリックによって,そのフレームに対応するコンティニュエーションを実行することなどが可能である.変数の値の変更など,実行モデルそのものへの介入にはなお研究を進めている.
その他
音声言語理解の意味フイ-ドバックにおいて複数知識の統合制御のための学習メカニズム
作成日時 1995–1995
Offer Organization: 日本学術振興会, System Name: 科学研究費助成事業, Category: 重点領域研究, Fund Type: -, Overall Grant Amount: - (direct: 1400000, indirect: -)
本研究の目的は、日々進歩している既存システムを改良するのではなく、全く新しい技術を探しだし、提案することであった。
そして、現在主流となっている音声認識技術の代わりに、1970年代に代表的であった音声人工知能アプローチを基としてこれを拡張し、現在広がりつつある人工知能音声理解システムを上回るシステムを構築する計画であった。
本研究を進めていくなかで行なった調査の結果、この研究中の音声人工知能アプローチは、現在主流の音声認識技術によるシステム以上のものを構築するための原型とはならないであろうと判明した。
そのため、基としていた音声人工知能アプローチをあきらめ、これに代わる技術を探しだし研究を続けていく予定である。
その他
作成日時 1994–1994
Offer Organization: 日本学術振興会, System Name: 科学研究費助成事業, Category: 重点領域研究, Fund Type: -, Overall Grant Amount: - (direct: 1600000, indirect: -)
本年度の研究では,昨年度まで行なってきた相関値による顔の確認の応用として,読唇を行なった.
処理の原理は,相関値を用いて個々の入力画像を平面上にマッピングし,その(x,y)座標値をニューラルネットの入力として用いて判別を行なった.
昨年度の実験から,母音の認識は可能であるとの結果を得ていたが,本年度は,いくつかの子音(b,m,p)の認識と,さらに実時間(ビデオレート)の認識に成功した.実時間化にあたっては,トランスピュータ4台による並列処理を行ない,画像追跡,相関計算,平面配置処理をパイプライン化することで,達成できた.平面配置計算はその内部に反復計算を含むが,より初期値を与えることでその反復回数を大幅に削減できる.処理の高速化によって,口唇の動きを連続的に把握できるようになったため,前回の配置結果を次の初期値とすることで,さらなる高速化が可能になった.また,テンプレートを平面配置した結果として,相互の関係が明らかになるため,類似したテンプレートをはぶくことで,相関値計算も高速化できた.
認識精度については,話者や照明条件への依存性が高いものの,母音だけであれば80%程度,子音ひとつを含んだ場合には60%程度の成績を得ている.
3年間の研究によって,表情や口唇など不定型な対象の認識に対しては,テンプレートマッチングを拡張した相関値による配置方式が有力となることが示せたと考えている.
その他
並列的かつ数値的な意味解釈推論モジュールを用いた音声対話システム
作成日時 1994–1994
Offer Organization: 日本学術振興会, System Name: 科学研究費助成事業, Category: 重点領域研究, Fund Type: -, Overall Grant Amount: - (direct: 1900000, indirect: -)
提案した意味解釈推論システムのプロトタイプを開発した。
以上の意味解釈推論システムとすでに開発した音声言語システムを結合。
ICSLP'94大学関係展示で「音声理解のための計量パ-ザ」を中心にデモした。
これは音声理解システムと密に統合するために適切なパ-ザである。パ-ザへの入力は単語仮説のラテイスであり、出力は意味解釈に必要なスコア付けされた手がかりの集合である。さらに、出力はフイ-ドバックのためにも使われる。このパ-ザは、文法的に何がどこにあるべきかについての相互に独立で、スコア付け可能な“construction hypotheses"(構造仮説)を利用している。
理解の正確率とフイ-ドバックの有効性を評価。
パ-ザによりフイ-ドバックが可能になる。このことは、意味解釈を改善する情報を用いることが出来るように、単語仮説を再度スコア付けすることである。もう一度行なうことによって意味解釈を修正することになる。このことは、このシステムが意味情報を用いることが出来ることと意味し、シンタックスや単語仮説を再び推論することが出来る。数値的にも、意味論的知識に基づくフイ-ドバックは全般的にエラーを減らすことが出来る。
音声言語の理解を発達するにはどんなコーパスが要求されているかを検討して、コーパスの具体案を作成した。
その他
Exploiting Speech Understanding in Intelligent Interfaces
作成日時 1994–1995
Offer Organization: Japan Society for the Promotion of Science, System Name: Grants-in-Aid for Scientific Research, Category: Grant-in-Aid for international Scientific Research, Fund Type: -, Overall Grant Amount: - (direct: 4200000, indirect: -)
We are interested in the use of spoken language in human-computer interaction. The inspiration is the fact that, for human-human interaction, meaningful exchanges can take place even without accurate recognition of the words the other is saying --- this being possible due to shared knowledge and complementary communication channels, especially gesture and prosody. We want to exploit this fact for man-machine interfaces.
Therefore we are doing three things :
1. Using simple speech recognition to augment graphical user interfaces, well integrated with other input modalities : keyboard, mouse, and touch screen.
2. Building systems able to engage in simple conversations, using mostly prosodic clues. To sketch out our latest success :
We conjectured that it would be possible for Japanese to decide when to produce many back-channel utterances based on prosodic clues alone, without reference to meaning.
We found that
neither vowel lengthening, volume changes, nor energy level (to detect when the other finished speaking) were by themselves good predictors of when to produce an aizuchi. The best predictor was a low pitch level.
Specifically, upon detection of the end of a region of pitch less than.9 times the local median pitch and continuing for 150ms, coming after at least 600ms of speech, the system predicted an aizuchi 200ms to 300ms later, providing it had not done so within the preceding 1 second.
We also built a real-time system based on the above decision rule. A human stooge steered the conversation to a suitable topic and then switched on the system. After swich-on the stooge's utterances and the system's outputs, mixed together, produced one side of the conversation. We found that none of the 5 subjects had realized that his conversation partner had become partially automated.
3. Building tools and collecting data to help do 1 and 2.