JSAI2023 4日目感想 : 自然強化学習における動的な目的水準の調整

背景

エージェントと環境の相互作用により学習を行う強化学習は、状態数の増加に伴い計算コストが増大する問題があった。それに対し自然強化学習は、目的水準を定めることで強化学習よりも簡単な弱教師あり学習を可能にしている。

先行研究

RSは上述の通り目的水準を設定し、それを満たすかどうかで行動を行うアルゴリズムで、目的水準を適切に設定しさえすれば、既存手法よりも素早い学習と同等以上の性能を発揮できる。

GRCはRSの問題点である、各状態に対して目的水準を設定することが計算上難しいという点を解消したもので、タスク全体の目的水準をベースとして設定し、各状態における目的水準をそこから算出する仕組み。

これらの目的水準は固定値であった。なら動的に設定しようというのが本研究の試み。

提案手法

タスク中において目的水準の調整を行う。1エピソードごとに目的水準を引き上げたり下げたりする。

実験

Suboptima Worldと迷路タスクを行わせる。前者は準最適解が存在するタスクで、後者は負の報酬しか与えられないタスクである。

結果

いずれのタスクでも最適解を見つけることが示された。Suboptimal Worldの場合は必ずしも最適解に到達するわけではないものの、収束が早い。一方迷路タスクの場合は最適解には行くものの学習速度が遅かった。ここはトレードオフの関係らしい。

感想

最適解を与えずともGRCと張り合えるのはすごいと思ったが、単純にp制御によって目的水準の更新が行われるのはどうなんでしょう…最適解を見つける前に更新が小さくなってしまう問題については、非線形にすればもうちょい上手くいくかもしれないが、関数の選択は経験的になりそうだ。いずれにせよ、自分は強化学習についての知識が足りてなさすぎる…

JSAI2023 4日目感想 : 製袋企業における購買行動データからの顧客ロイヤルティ推定

背景

ECサイト上で顧客データを使って分析するのが活発化してきたけど、顧客データのみでは限界がある(例えば、競合他社へ乗り換える可能性を検出できない)ので、顧客ロイヤルティ(企業・顧客の関係性の指標)への理解が必要。しかし、ロイヤルティの理解はアンケート方式がメインでコストが高い。 なので行動データからロイヤルティや顧客満足度を推定しよう。

先行研究

顧客ロイヤルティは「行動面」と「態度面」にわかれ、「態度面」の方はアンケートでしかわからないらしい。また、この二つを軸にして、4象限が表現される。

顧客満足度は企業の好みについての指標である顧客ロイヤルティと違い、商品やサービス単体についての好みを指す。とはいえ従属関係があるので、顧客満足度は顧客ロイヤルティを形成する上で重要なファクターと言える。

分析手法

製袋企業の取引先105社に対し、顧客満足度と顧客ロイヤルティを調査した。なお、顧客ロイヤルティについてはNPSという定量的指標を用いた。また回答した企業の購買行動のデータを収集した。

結果

顧客ロイヤルティと顧客満足度について重回帰分析を行ったら、価格と仕上がり、あとWebサイトの利便性が優位となった。提供元の社員と企業の満足度に関して優位でなかったのは、ECサイトだからと思われる。また、顧客ロイヤルティ(NPS)と購買行動との関連性については、オーダーメイド商品を買った顧客は、既製品を買った顧客と比べてNPSが高い結果になった。また先行研究で言われていたような顧客ロイヤルティと購買頻度との関連性は強くは見られなかった。

感想

まあそうでしょうねという結果。今回調査対象にした封筒や紙袋って、基本的にロイヤルティがどうこうより安さを重視するような商品ではないでしょうか。となったら、商品の価格に優位が出るのも頷ける。多分これが家具を製造している企業ならまた違った結果になるかもと思いました。またこういうのは第三者機関に調査を依頼した方が質の良いデータが得られると思う、というのも忖度とかでアンケート結果が歪められる可能性があるので。

JSAI2023 3日目感想 : 製袋企業における購買行動データからの顧客ロイヤルティ推定

背景

ECサイト上で顧客データを使って分析するのが活発化してきたけど、顧客データのみでは限界がある(例えば、競合他社へ乗り換える可能性を検出できない)ので、顧客ロイヤルティ(企業・顧客の関係性の指標)への理解が必要。しかし、ロイヤルティの理解はアンケート方式がメインでコストが高い。 なので行動データからロイヤルティや顧客満足度を推定しよう。

先行研究

顧客ロイヤルティは「行動面」と「態度面」にわかれ、「態度面」の方はアンケートでしかわからないらしい。また、この二つを軸にして、4象限が表現される。

顧客満足度は企業の好みについての指標である顧客ロイヤルティと違い、商品やサービス単体についての好みを指す。とはいえ従属関係があるので、顧客満足度は顧客ロイヤルティを形成する上で重要なファクターと言える。

分析手法

製袋企業の取引先105社に対し、顧客満足度と顧客ロイヤルティを調査した。なお、顧客ロイヤルティについてはNPSという定量的指標を用いた。また回答した企業の購買行動のデータを収集した。

結果

顧客ロイヤルティと顧客満足度について重回帰分析を行ったら、価格と仕上がり、あとWebサイトの利便性が優位となった。提供元の社員と企業の満足度に関して優位でなかったのは、ECサイトだからと思われる。また、顧客ロイヤルティ(NPS)と購買行動との関連性については、オーダーメイド商品を買った顧客は、既製品を買った顧客と比べてNPSが高い結果になった。また先行研究で言われていたような顧客ロイヤルティと購買頻度との関連性は強くは見られなかった。

感想

まあそうでしょうねという結果。今回調査対象にした封筒や紙袋って、基本的にロイヤルティがどうこうより安さを重視するような商品ではないでしょうか。となったら、商品の価格に優位が出るのも頷ける。多分これが家具を製造している企業ならまた違った結果になるかもと思いました。またこういうのは第三者機関に調査を依頼した方が質の良いデータが得られると思う、というのも忖度とかでアンケート結果が歪められる可能性があるので。

JSAI2023 3日目感想 : 社会的状況に関する情報を含む日本語コーパスの機械学習モデルへの適用性検証

○Muxuan Liu、小林一郎(お茶の水女子大学産業技術総合研究所) ○宮尾裕介(東京大学産業技術総合研究所) ○石垣達也、上原由衣、高村大也(産業技術総合研究所)

背景

ビジネスメールの内容から社会的立場や場面などをアノテーションするコーパスを作ったので、それが本当にメールの内容から推測可能であるか確認してみよう。具体的には、日本語BERT事前学習モデルを用いてコーパスの学習を行い、ビジネスメールに付与されたさまざまな社会的関係性についてのアノテーションを正しく識別、分類できているかを検証する。

関連研究

コーパスの文法的・意味的特徴を分析し、機械学習アルゴリズムに適用する研究は色々あるが、選択体系既往言語学の知識を含む長文コーパスをBERTモデルに適用した研究はないらしい。

実験

日本語ビジネスメールの文章を入力として受け取り、メールが持つ社会的状況を11種類のラベルについて予測するタスクを考える。例えば、上下関係や身分、組織内外など。

結果

受信者の身分については精度が低かった。これはクラスの数が多すぎて十分な量のサンプルを用意できなかったことに起因する。また送信者の動きについても精度が悪い。これは日本語のメール特有の定型表現がノイズとして作用しているかららしい。とはいえ多くの場合で90%以上の分類に成功しており、うまく行ったと言える。

感想

定型表現かどうかを判定する機構を別個に作って学習時に取り除けば良いんじゃないでしょうか。例えば「お忙しいところ」で続く文は大抵定型表現である。基本的にメールは何かしらの重要な情報(署名とか)を含んでいるので、おいそれと研究のために提供できるものではないという問題点を解決すればまた進歩があるかも。

JSAI2023 3日目感想 : 文章の意味的類似指標に関する一検討

○田中大智、重松祐匡、木山真人、尼崎太樹(熊本大学)

背景

自然言語生成システムの評価は人間が作成した参照文とシステムが作成した候補文を比較する形で行われる。しかし、BLEUやROUGEなどの手法は、二つの文を意味的な類似性よりも、単語の一致度に依存した評価を下してしまい、あんまり良くない。

提案手法

SentenceBERTモデルを文の意味的類似度が高いものに反応するよう調整する。なお、汎化性を残すために逆伝播を途中で止める場合とか止めない場合とか色々考える。また、分類器(評価を行うモジュール)も同様に、文が意味的に近いかどうかを予測する。

結果

単語によってうまく行ったりいかなかったりした。例えば、"morning"と"night"の違いを正確に汲み取ったが、"aliens"と"earthlings"の違いは汲み取れなかったらしい。学習データが悪いとのこと。また、一部の単語の一致度が高すぎると評価もそれに引っ張られるようだ。また提案手法の提供するスコアを単に文章の類似度として捉えることは難しいらしい。

感想

元データのラベルは「同じ事象を答えとする質問か否か」で分けられているから、実際に文の一致度を測れるかはわからない。例えば、太郎君も花子さんもバナナが好きである時、「太郎君は何が好きですか?」と「花子さんの好きな食べ物は何ですか?」は同じ答えを持つが文の内容は違う。この辺はどうなんですかね。気になりますね。

JSAI2023 3日目感想 : インターネットテレビのニュース番組に投稿されるコメントの内容分析

○阿閉凛、小川祐樹(立命館大学 情報理工学部) ○高野雅典、森下壮一郎(株式会社サイバーエージェント) ○髙史明(東洋大学 社会学部)

背景

インターネットテレビによるライブ放送は、視聴者同士のチャット機能によるコミュニケーションが特徴だが、コメントによっては荒れたりするのが特徴。なので、荒れるのを予測して対策を打ちたい。まず攻撃的なコメントの特徴を明らかにしよう。

関連研究

関連研究は動画のコメントが対象になっていて、リアルタイムに投稿されるライブ放送のコメントは研究対象になっていない。また、コメント欄が荒れるのは、動画の内容やコメントの言語的特徴から予測できそう。

分析手法

ニュース番組に対するコメントに対してテキストマイニングを行い、道徳的かどうかなどの数値化を行う。各回ごとにそれらの指標の平均値を算出し、クラスタリングする。放送のメタデータ(内容とか)を元に、それと各指標との関連を考察する。

結果

有害度の高いコメントの多い番組は、怒り、嫌悪に該当するコメントも多い傾向にある。また、国際、政治、経済、軍事には有害なコメントが多かった

感想

そりゃそうでしょうね。せっかくライブ配信におけるコメントなんだから、各回で平均化せずに時系列データとして扱えばいいのにと思った。また現状では予測に有益そうな知見がない(「今回の放送は政治についてなので、攻撃的なコメントは規制します」なんて言ったら逆に炎上しそう)ので、ここからどう繋げていくかが興味深い。

JSAI2023 2日目感想 : グラフ自己符号化器を用いた時系列グラフデータの解析

○石川彰夫、春田秀一郎、黒川茂莉(KDDI総合研究所)

背景

グラフニューラルネットワークが注目されている。現実世界のグラフは時間によってその構造が変化する「動的グラフ」であるが、次の時点でリンクが生成されるか、また既存のリンクの重みが変わるかなどの「リンク予測」タスクについて、まだまだ発展途上らしい。本研究では、グラフ構造が変化しない「静的グラフ」についての学習方法であるグラフ自己符号化器(GAE)を、動的グラフに適用することを考える。具体的には、GAEを、動的グラフのうち時間変化によらない静的な部分のエンべディングに用い、時間変化による動的な部分とは段階的に分けて処理することで、リンク予測を行う。

提案手法

まずGAEを事前学習させる。で、あるタイムステップでのGAEの潜在表現(隠れ層の重み)を、次のタイムステップでの潜在表現にダイレクトに反映させる。より厳密には、2層の全結合層を通して、潜在表現を更新する。なお、比較手法として、現在のグラフの様子から次のタイムステップでのグラフの様子を出力させるナイーブな方法も試した。

結果

平均適合率は提案手法が勝った。比較手法の、自己符号化器なのに入力と出力があってないチグハグさによるものかと考えられる。

Area Under Curveは比較手法が勝った。提案手法で事前学習を行なった際の、もともとの損失が響いたらしい。

今後は複数の過去グラフを参照するグラフを検討しよう。

感想

Attentionでいいのでは…?Attentionを使えば、初期状態から直前までの潜在表現がスタックされているので情報として利用はできる。問題としては、そこまで保存するべきなのか、ということ。自然言語処理と違って、トークンの数(=タイムステップの数)は膨大なものとなるから、時間が経てば経つほど予測に時間がかかりそう。だったら窓か何かで区切って、固定ステップ前までしか見ないか、データを圧縮する(重み付き平均とかで)とかが良さそうですね。