研究テーマ
本研究室で行っている研究テーマを紹介します。あくまで代表的なテーマのみを紹介しており、ここで紹介している研究テーマ以外にも様々な課題に取り組んでいます。
テキストデータやアクセスログなどの膨大なデータに対して、自然言語処理や機械学習を用いることで、知識抽出に関する研究を行っています。具体的な研究内容について以下について紹介します。
研究テーマ例
大規模言語モデルのタスク適応
大規模言語モデルは膨大な訓練データによる事前学習により、適切な指示(プロンプト)を与えることで、様々な自然言語処理タスクを解決できるようになっています。しかし、どのようにして適切な指示を与えるかについては利用者のスキルに依存する部分が多く、特定のタスクに大規模言語モデルを適応させることはまだまだ多くの課題が残っているというのが現状です。本研究では、大規模言語モデルをより使いやすくサービスに利用できることを目的として、研究開発を行なっています。
協調型メディアコンバージョンシステムの開発
ChatGPTが登場し、プロンプトによりテキストの要約生成などが高精度に行える環境となってきています。しかし、画像や動画などの異なったメディアの情報をテキストに変換するメディアコンバージョンに関してまだまだ取り組まなくてはいけない課題が残されています。研究室では、深層学習を用いた画像や動画などから特徴量抽出とその特徴量に基づき、人と共同して注目点を指定するニューラル言語モデルを用いたキャプションを生成するシステムを開発しています。他にも、JSON形式などのセンサーデータなども扱っています。

IoTを利用した環境把握
COVID-19の流行や大きなイベントでの群衆事故の発生により、群衆がどのように行動しているのかということを把握することが、感染状況の把握や事故の発生予見のための基礎情報として重要であることが明らかになってきています。しかし、監視カメラの設置や携帯デバイスの利用はプライバシーの保護という観点から大きな問題点を含んでいます。研究室では監視カメラなどの個人の肖像権侵害や取得データの他目的への利用の懸念を回避し、携帯電話などの個人端末ののトラッキングによるプライバシー問題の回避や専用端末の携帯によるコスト及び負担の増加を避けるため、WiFi電波の伝送状況に基づいた環境監視技術の開発を行なっています。

データからの知識発見
ビッグデータやデータサイエンスという言葉が数年前に流行っていましたが、今はAIや深層学習という言葉に取って代わられた印象があります。しかし、Webのアクセスログなどに関するデータ解析自体は古い印象を受けますが、情報系以外の分野に関しては十分浸透しているとは言い難い状況です。例えば、環境に関する情報はセンサーの設置によりデータの収集が行われていますが、機械学習的なデータ解析はまだ十分とは言えない状況です。このような状況において、昔のようなインターネット上の電子化された(普通のPCのメモリには乗らない規模の)ビッグデータではなく、他分野の様々な形式保存された(人手での解析が難しい規模の) ビッグデータの解析に取り組んでいこうと考えています。また、他分野との連携を前提としているので、機械学習での相関に基づいた知識発見ではなく、因果関係に基づいた知識発見を行なっていきます。
