■AI字幕翻訳ツール「Subit!」の開発コンセプトに関して ~託した思いと2つのゴール~ 2022年8月18日 日本映像翻訳アカデミー/代表 新楽直樹
私が自然言語の翻訳のAI化、特に映像翻訳について「徹底的に探究し尽くす必要がある」と決意したのは今から5年前、創業20周年記念事業として掲げた『字幕翻訳とは何か ~1枚の字幕に込められた技能と理論』の取材・編集作業に取り掛かった頃です。
同書は、JVTAが英日字幕翻訳について所有するすべての知財に加え、映像翻訳者と目指す方々に向けての思いを凝縮したものです。1枚の字幕の「正解」を追究することがいかに困難であるか、同時に、プロの映像翻訳者がその戦いの中で何を手にしてきたのかを明文化する作業は、世界にほとんど例がなく、JVTAが取り組むにふさわしい事業だと思いました。今もその考えは変わらず、「言葉のプロ」の育成・支援を唯一無二の事業目的に掲げる当社にふさわしい成果が残せたと自負しています。
その頃、世界的に巻き起こっていたAIブームの波が、特に自然言語処理の分野に変革を起こそうとしていました。翻訳業が「AIによって消滅する仕事」の上位に置かれて面白おかしく報道されていること、そして私に対しそんな話を軽々しくしてくる人に出会い、涙が出るほど悔しい思いをしました。(『字幕翻訳とは何か』を読んでみなさい。そうすればプロによる字幕翻訳が、AIには太刀打ちできない領域にあることは一目瞭然だ!)。そう叫びたい思いでしたが、そのように打って出るには私の中に大きな欠落があり、説得力を持たないこともわかっていました。
AIの仕組みや実力について、具体的には何も知らなかったのです。
AIによる自然言語の翻訳処理は、もはや目を背けてはいけない事業領域として、私とJVTAの大きな課題となりました。そこから約2年をかけて、AIとAI業界について必死で学び、某AI企業には少なからずの投資を行ってPoC(実証実験)までを行いました。2018年から19年の頃です。PoCを担当したのは日本を代表するAIエンジニアで、その人物曰く「これは世界のAI業界でもほぼ例のない実験」。結果は散々でしたが。
そこで私は確信しました。「AIが、プロの映像翻訳者の成果物に代わるものを創作することは不可能。その限界点を明らかにすることは、プロの映像翻訳者の技能と理論を際立たせることになり、『言葉のプロ』が社会からの信頼を得て成果物の価値を向上させることにつながる」。同時に「抗えないAI化の潮流にあって、英日字幕翻訳のプロの技能と理論に基づいた言語処理AIが必要。社会に字幕翻訳の特殊性や創造性を啓蒙しつつ、AIにはAIにふさわしい領域(後述)があることを明らかにする事業には価値がある」。
字幕翻訳に特化したAIの研究が他にはない試みであることは、AI業界にある程度知れ渡りました。その結果、PoCを行った某企業をはじめ複数のAI企業が本格的な開発パートナーにと名乗りをあげました。しかし、私が選択したのは一般企業とのパートナーシップではなく、国立奈良先端科学技術大学院大学(NAIST)との産学共同研究でした。
NAISTは、同時音声翻訳の開発分野では当時日本経済新聞の記事になるほど知られていたのはもちろんですが、それ以上に、研究者の皆さんの根底に「字幕翻訳のプロに対する敬意」があること、「同じことができるAIを作るのは困難かもしれないが、少しでも近づこうとする研究開発によって、もっと社会を豊かにできないないか。言葉のプロや学ぶ方々が次のステージに進む一助になれば」という思いがあることが、よくわかったからです。
NAISTとJVTAとの5か年計画は3年目を迎えています。始めてからわかった利点もあります。AIの事業領域には法令等でまだクリアになっていない点や業界内でも認知が行き届いていない点が少なからずあり、例えばデータ(学習用データセット)の定義と取り扱いが問題になることがあるようです。しかし、NAISTは国立大学の研究機関としてコンプライアンスに関しての最新の知見を有しており、私たちも彼らのアドバイスに則って事業を行っています。さらに、本事業の法務は日本ではまだ数少ないAI分野を専門領域とする弁護士が担当しています。民間企業と組んだスピード感は望めませんが、着実に正しい道を歩んでいるという安心感を得ています。
言語学者やAIエンジニアも、もちろん私も、研究を進めれば進めるほど「スキルのあるプロが作る字幕の創造性」に驚かされています。まだ動画を認識してキャラクターを定めるといった技術以前の、text to textの段階でのことです。
とはいえ、一生研究だけを続けているわけにはいかないので、我々は2025年を目途に2つのゴールを設定しました。
☆ゴール1)このAIを活用することで、プロの映像翻訳者の仕事の品質、生産性を上げる。これは、ただ「AI+ポストエディット(PE)」に落とし込むといった単純なものではありません。
①-1プロだけでやるのに適した領域(ジャンル、難易度、コンテンツの注目度等)
①-2プロがツールとしてAIを活用するのに適した領域
②AI+PEに適した領域
③人間がカバーできない、AI単独での完結を目指すべき領域
以上のような分類をさらに細分化し、それぞれ検証を行う膨大な作業を続けています。まず目指しているのは①-2の領域で成果を出し、プロの仕事に寄与することです。
☆ゴール2)日々、YouTubeやTikTokから溢れ出す世界の動画を、言葉が分からない人にも映像翻訳のチカラで楽しんでもらいたい。「世界からシャワーのように降りそそぐ映像のすべてに字幕・吹き替えを!」はJVTA創業当時の私の夢です。25年間、ことあるごとに話したり書いたりしていましたので、知っている方もいるでしょう。ところが今、世界を飛び交う動画の絶対量は、そんな私の想像をはるかに超えてしまいました。今この瞬間、カナダの山の上からTikTokで語りかけてくる人物の英語がわからない…。その解決がプロの映像翻訳者の手による原稿だと言う人はいないでしょう。量、質、ニーズにおいてプロの仕事が従来カバーしている範囲とは別領域に、想像を超える動画と「言葉の壁」があることは明らかです。映像翻訳に携わる事業者として、人の手では不可能だが、それを何とか解決したい。
また、副次的な作用ですが、そうした「現場、現場」の自動翻訳に字幕翻訳の理論と技能を宿すことは、「プロの手による字幕翻訳」の価値と必要性を社会にインプリントすると私は考えています。
いずれにせよ、ゴール2)の目標がプロの仕事を奪ったり、ましてや価値を下げて受注単価に影響したりすることは考え難いです。
今回の中間発表が映像翻訳のプロや目指す方々、映像翻訳業界に立つ皆さんに違和感を与えたのは、主として「ゴール2)」に対するマーケティングの側面が強く、「字幕翻訳について何も知らない、考えたこともないけど確かに必要性は感じる」といった市場を調査する目的で発信されたものだからかもしれません。説明が足りなかったことは反省し、お詫びします。
実際、既に映像翻訳業とは縁がなかった企業や団体からの問い合わせが入っています。その場合はまず「字幕翻訳とは何か。AIが担える範囲とプロに任せないといけない範囲」についてじっくり説明することから始めています。まさに、私がライフワークの一つとしている「映像翻訳者の付加価値を社会に啓蒙する営み」です。きっかけはAIへの関心であったとしても、映像翻訳の真の価値を知った結果、映像翻訳業界にとっての良き顧客に変わるかもしれないのです。
ゴール1)については、社内にプロジェクトチームを作り、少なからずの字幕翻訳のプロの方々の協力を得ながら進めています。近い将来、映像翻訳業界に立つ皆さん、プロの皆さん、プロを目指す方々に良い報告ができることを全員が願っています。
本事業に関する説明として十分であるとは言えませんが、ご理解のうえ見守っていただければ幸いです。