マルチモーダルによる学習

kamemaru
4月12日
読了時間: 3分

更新日：5月20日

最近岡野原氏のマルチモーダルの事前学習の展望という記事を読んで、思ったのですが、人は、言語により世界を抽象化して理解し、コミュニケーションや、科学を発展させてきた。

LLMは、素晴らしい人工知能であり、言語をトークンで学習し理解している。

人は、生まれたら、五感を用いて、両親により、守られて、食事を与えられ、生きて、少しずつ、視覚情報も増え、言葉を学習し、現実世界と言葉を用いて抽象化した世界を学習し、理解できるようになる。視覚（画像）情報、嗅覚、触覚、味覚、聴覚情報と、言葉でのタグ付け学習を行うというわけだ。

親や、言葉がない環境に生まれ育った人、たとえば、過去には、オオカミに育てられた少女などは、オオカミと同じであり、人の言葉によるコミュニケーションはできていない。しかし、五感を用いて、生きるための知恵は学習している。そのため、その少女は、保護されて言葉による学習をすることで、コミュニケーションを少しはとれるようになったようだ。

最近では、画像と言葉の両方を用いたマルチモーダルの学習による人工知能の研究もあるが、言葉というものは、人が作った体系はある前提である。

もし、なにもない状態で画像にも、言葉によるタグ付けもされていないマルチモーダルで、オリジナルの言語を発明させて、強化学習により、画像タグ付けを行い、学習させると、オリジナル言語による知能は生まれるのだろうか？もちろん、コミュニケーションができるような要件条件を設定するとしたらどうなるかという疑問です。このような実験は、過去にはマルティモーダルでの、Meta社で実験検討されている。これについては、身体性や、グランディングという人間の言語は、最終的に身体感覚・情動・生存本能に根ざしてて、たとえば、「熱い」という言葉は、痛みという身体経験があって初めて意味を持つ。

画像のみのタグ付けでは、記号と記号の相関は学習できても、**記号が「何かを意味する」という接地（グラウンディング）**が弱くなるらしい。たしかに以前学習した、Symbol Grounding Problemの問題がありです。オリジナル言語によるタスク遂行型の知能は生まれるかも、しかし、それが人間的な意味での「理解」や「概念的思考」を持つかは疑問であるということかも。机上では、いわゆる血の通った、生存につながるような概念、言葉は生まれないですね。センサーが高度化しても、交換ができちゃうし。しかし、交換に伴う強化学習的なアルゴルをいれてみると、似たような概念はうまれるかな。そう考えていくと、いわゆる宇宙人と地球人は、相互理解できるか疑問でもある。これは、地球人同士でも、相互理解できていないケースがあり、戦争につながったりしていますしね。

マルチモーダルによる学習

最新記事

コメント