生成 AI がブームになっている現在、その背後にあるモデルをトレーニングするために使用される情報データの著作権問題が常に人々の注目を集めています。法的なトレーニング データとは何ですか?うっかり他人の著作権を侵害してしまうことはありますか?
これに対し、一部の海外メディアは、日本政府の人工知能戦略委員会が5月26日に、人工知能の訓練に使用されるデータに著作権法の遵守を強制しないとする草案を提出したと報じた。日本の文部科学大臣(国内の文部省に相当)の長岡景子氏は現地の会合でこのニュースを認め、日本の法律はAIトレーニングに使用される教材の著作権を保護していないと述べた。
長岡恵子 画像出典 日本の「文部科学省」公式サイト
具体的には、4月24日、衆議院決算管理監視委員会第二分科会において、城井崇議員が長岡恵子氏と直接会談した。
会議後に季宜龍氏がまとめた質疑応答によると、長岡恵子氏がAIによる情報分析の利用に関する日本の法制度(著作権法)について話した際、次のように述べたことが分かる。日本においては、利用方法、方法、営利・非営利、複製以外の行為、違法サイトから取得したコンテンツ等を問わず、当該情報を作品の分析に利用することがあります。
## この点、季宜龍氏は、権利保護の観点から「著作権者の意思に反して使用する」という事実は問題であり、著作権者を保護するための新たな規制を策定する必要があると考えている。さらに、学校における教育ガイドラインとしての人工知能チャットボット (ChatGPT など) の使用に関する問題についても議論しました。外国メディアは、日本の教育システムがこのテクノロジーまたはツールを早ければ2024年3月にも導入する予定であると報じた。これに対し長岡恵子氏は具体的な時期は明らかにしなかったが、「できるだけ早く回答する」と述べた。
この問題は非常に広範な議論を引き起こしました。 AI の 3 つの巨人の 1 人であるメタの主任科学者、Yann LeCun は Twitter に次のツイートを投稿しました:
日本は機械学習の楽園になりました。
しかし、一部のネチズンは、「影響を受けずに知的財産権を盗むことができること」を「楽園」とは呼ばないと非難し、楊立坤氏はコメントの下で次のように答えた: 知的財産「財産」を構成するものの本質は定義され、施行される政府による。政府による制限も受けます。その推進原則は、コンテンツ所有者の権利ではなく、公共の利益を最大化することです。
実際、ネチズンはAIトレーニング教材が著作権保護を受けるべきかどうかについて激しい議論を始めています。日本の大臣の立場に同意し、トレーニング対象の画像データのバッチが層ごとに処理され、最終的にはコンピューターが理解できる AI モデル、データ、コード、またはその他の電子形式に変換されることを提案する人もいます。つまり、モデルのトレーニングに使用されるデータは基本的に損失が大きいため、最悪の場合でも単なる「二次的著作物」であり、これは確かにフェアユースです。著作権侵害は、モデルが著作権で保護されたコード、画像、書籍をコピーし、最終出力として配布した場合にのみ発生します。
これにはすぐに反論があります。損失があるかどうかに関係なく、トレーニング データは価値を提供します。モデルのトレーニングは、最終的にトレーニング データとして使用されるものを作成するために、さまざまな人々が時間を費やさなければ不可能です。一部のネチズンは、「著作権問題について議論するのは無意味である。人間は常に存在し、公開されたものを研究することで学習し、進化する。したがって、どのように使用し、共有し、より多く使用するかを議論することがより重要である」と指摘した。組織はこの「共有情報」を管理します。
執筆者: Nandu記者ヤン・ボーウェン
以上がAI学習データは著作権の問題を心配する必要はありませんか?日本政府の立場が激しい議論を巻き起こしたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。