AI研究:AI研究 1 概要 | AI研究 2 入門 | AI研究 3 情報 | AI研究 4 検証
ai研究 1 概要
目次
AI全般に関する概要
「AI騒動」は、2022年11月30日のChatGPT3の公開からスタートしました。開発元はOpenAIという会社。「「Open」という名前ですが、オープンソースというわけではないところがヤヤコシイです。私企業で有料展開が基本です。その後すぐにGoogleやFacebook、Twitter(X)も自社のAIを出し、これら大手を中心に動いていきそうです。AIはリソースとなるデータが必要なので、それを持っているところが有利となりそうです。Mirosoftなども同様に開発中だったものを(やや見切り発車的に)公開となりましたが、基本的には、ChatGPTを自社のブラウザーなどに組み込む形で進めるようです。
雨後の竹の子的に出来てるサービスを、「こんなことが出来るサービス爆誕」的に紹介するネットの投稿は多いですが、ゼロからの開発なのか、既存のサービスの派生なのかハッキリ書かれていないことも多く、一般の人には(ここのページの書き手も含め)分かりにくい状況が続いています。
ここではまず、そのAI全般について、整理しながら、書いてみます。
【記事】とあるのは、関連のネット上の記事のことです。公式のURLなどと区別するためにつけました。簡単だったりより詳しい解説があるページをピックアップしています。これらの記事から検索する際のキーワードを知ることができます。
【記事】生成AIブームが「一言でいえば薄っぺらい」のはなぜか? AI研究者が語る「ChatGPTの10年前」 | Business Insider Japan https://www.businessinsider.jp/post-275997?s=09
どういうものか?
このページを書いている人は以下くらいの理解です。よく「ある語の次に来る語が何かを統計的に出したらきちんとしゃべるようになったと」説明されますが、そんな単純なものではないようです。適宜アップデートしていくので、今後、訂正されたり、だんだん解像度が上がっていくかもしれません。
👉 おまけのスライドの「プラグイン」ですが、ほとんどの場合、プラグインでAI機能を使う場合はユーザー負担ではなく、肩代わりした企業やサイト主催者負担ですが、Wordpressのプラグインなど、自分が提供者になって何かを作り、ユーザーに使ってもらうコンテンツを作る場合は、自分でAPIのアカウントを取得して、使われた分だけ支払う必要があります。食べログだったら月のアクセス数から予測はつきますが、日本語学習コンテンツだとどのくらいになるかは未知数です。
「現在わかってる範囲ではこういものではないか」という理解では、以下のインタビューがわかりやすかったです。
野尻抱介の「ぱられる・シンギュラリティ」第22回 奥村晴彦先生の情報リテラシー│ケムール https://kemur.jp/paragula_202307
以下、一部抜粋です。
単なる統計処理だというのはミスリーディングで、なんらかの情報処理をしている。それがどういう処理かというと、アルゴリズムはTransformer なんだけど、パラメーターが何千億となってくると、どういう挙動をするかはわからない。そしてまだまだできないと思われていたことが、GPT-3でできてしまった。
ChatGPTでのやりとりは、対話を積み重ねているように見えるけど、実際には、これまでの会話を合計した一個のプロンプトで初めて質問するのと同じ。過去のことをまったく憶えていません。
昔のGPT-3では答えの候補を複数示すことができて、確からしさがわかりました。現在のChatGPTでは何度か質問して、答えが違うならハルシネーション(幻覚。LLMがつく嘘)とわかります。人間のほうでその問題をある程度知っていれば、ハルシネーションかどうかは大体見当がつきます。まったく知らないとLLMは使いこなせない。プログラミングでもエラーに対処できないと収束しません。
用語の説明
AI関連
以下の説明は「こんなものらしい」というだけです。
- AIは、artificial intelligence
- LLM:Large Language Model(大規模言語モデル):大規模なデータをディープラーニングで作った言語モデルこと。
- GPT:Generative Pretrained Transformer:ChatGPTで使われている大規模言語モデル。
- BERT:Bidirectional Encoder Representations from Transformers 上のGoogle版。
- Transformer:これが2017年に登場して、AIが飛躍的に進歩したとのこと。言語処理の技術?説明されてもワカラナイ…。
- トークン:AIが考える元になる文の最小単位。ハッキリしないが、どうやら1文字単位ではないらしいと言われている。漢字だと「へん」と「つくり」で別だったりすることもあったという報告も。
- シンギュラリティー:人間を越えるかどうかのライン。将棋やチェスは越えられたので、ジャンルによって使われる。
- ファインチューニング:AIを使う前段階の調整のこと。データを整理したり、不要なデータをカットしたりといろいろ。
- ハルシネーション:幻覚。LLMがつく嘘
- チャットボット(Chatbot):何か質問をしてコンピューターがタイプして答えるシステム。メーカーのサポートなどですでに実用化されてます。
- ディープラーニング(深層学習):人間が考えたりしたりすることをコンピュータに学習させること。
もっと基本的な用語だと…
- 自然言語:人が使う言葉のこと。
- 自然言語処理:人が使う言葉をコンピュータで分析するための研究。
- 過学習:文字通り勉強しすぎること。しすぎて悪影響がでるという文脈で使われる。
- 画像認識:文字ではなく画像に何が映っているかを文字にして分析すること。Youtubeで自動的にBanされたりするところでも使われている。
- ビッグデータ:ネット上などから集めた大量の文字情報のこと。事実上、大手IT企業が独占している。売り買いの対象でもあり、SNS系企業、検索関連企業の大きな収入源でもある。研究や開発用に無料だったりすることもある。
【記事】ChatGPTなどのチャットAIがどんな風に文章をトークンとして認識しているのかが一目で分かる「Tokenizer」 - GIGAZINE https://gigazine.net/news/20230407-tokenizer-open-ai/
【記事】ChatGPTのコア技術「GPT」をざっくり理解する - Qiita https://qiita.com/ksonoda/items/b767cbd283e379303178
【記事】生成言語AIの進化:大規模言語モデルを理解する上で重要なトークンとは? | Hakky Handbook https://book.st-hakky.com/docs/llm-token-article/
一般の理解レベルで切り分けていくと、AI=ChatGPTではありません。ChatGPTは民間の(OpenAIとオープンソース的な名前ですがビジネス展開バリバリ)AI生成のサービスのひとつ。他にも同じようなAI系サービスはあり、どんどん増えています。ChatGPTを活用した派生サービスも増えてます。混同しやすいですが、いろんな会社がチョコレートを作っているみたいなことと同じですが、大規模な言語データを持っているところは限られており、データがオープンソース(原則無料で誰でも使える)であることもあるので、同じリソースを使って違うことをしているというケースもあります。
22年に画像系(「自動改札のイラストを描いて」で画像が生成されるようなもの)のサービスが先行してましたが、23年11月末にChatGPTがテキストを生成するサービスを始めたことがきっかけで、これが、かなり自然で正確なものだと大騒ぎになりました。テキストの生成は当然、言語の問題なので語学教育にも大きな影響を与えそうです。この種のことにつきものの「正確とはいえない」「今後全部AIになる」みたいなお決まりの議論の前に、どんなもので、どう伸びしろがありそうで、何に活用できるのかを考えることは重要です。もう今すぐ活用はできるものとして提供されているので。
どういう仕組みかは、これを書いている者にもほぼわかっていないので、分かる範囲で整理していきます。分からないことは分からないままです。基本、どういものかはご自身で検索してください。ここは検索するための出発点になるような整理をしていきます。(このWikiのコンセプトも同じで事典的なものではなく、何かを探したり調べる際の出発点になるようなページを目指しています)情報量は爆発的に増えている最中ですが、時間もないので、時々アップデートするくらいです。
23年の3月からネット上のほぼすべてのサービスに組み込まれることになりそうです。早めに考えておいたほうがいいことは、これはすでに学習者によって活用されていて、使うなとも言えないし、使ったかどうかを判別するのも無理ということです。教師はやはり知っておいたほうがいいと思います。淡々とメモとしてアップデートしていきます。
【記事】 ChatGPTなどのチャットAIがどんな風に文章を認識しているのかが一目で分かる「Tokenizer」 - GIGAZINE https://gigazine.net/news/20230407-tokenizer-open-ai/
このようにところどころに関連記事を置きます。
いろんな人の説明とプロンプトについて
AI研究 2 入門で整理しています。
どんな種類があるか
AIのためのデータセット(データの塊)と、それを解析するAIのコードがあり、これは別に提供されることもあれば、セットになっていることもある。「データセット」と言われているのはデータのみ。
個別のサービスの商品としての性格にいろんなバリエーションがある。
- ChatGPT(OpenAI)など民間のもの
- オープンソース(原則無料)のもの
- 国が作るもの(基本オープンソース)
- 民間サービスを利用した二次的なサービス
- ライセンス的な展開のもの
- API利用のもの
→ オープンソースのLLMは、自由にダウンロードでき、自分のパソコンで無料、ライセンスフリーで動かして使うことができる。ただし、データ量が多いのでかなり高性能なマシンでないと動かない。各メーカーの最高性能モデル+α(メモリ増量)マストで100万くらい?
→ ただし、オープンソースの定義もいろいろで、ソースコードが公開されていることは条件だが、有料のものもオープンソースと呼ぶ人もいる。個人ユーザーはほぼ無料だけど大規模で使うサービス(億単位で使うなら)有料みたいなケースも。元々OpenAIはオープンソース路線だったが、ビジネス路線に変更となり、揉めたりしている(しかし、億単位のユーザーが毎日使うコストは膨大で、無料でやるのは無理なのだが)その後も、他のといころもライセンスに関してはいろいろアヤフヤだったりして、混乱中?(→ その後謝罪という事態に)
個別の商品がどういう展開をするかにもいろいろバリエーションがある。
- おそらく、どのAIも、無料版、有料版、API版、法人版などが作られる。
- ChatGPTはプラグインも開始になった。今後、大手はプラグインでも展開しそうです。
- APIとはネット上で自分のサービスやウェブページに組み込んで使えるサービスでカスタマイズも多少できる法人版の廉価版みたいなもの(後述)。
- 今後、ネット上ではこのAPIみたいな形でAIのサービスを利用した様々なサービスが作られる可能性が高い(がAPIは無料版、有料版があり、リクエスト回数で価格が決まり、そこそこ高いので個人で何かをやるのは難しい)。
- 既存のサービスがAI を組み込んで「指示をタイプすればやってくれる」みたいな機能を追加するパターンも多く、Google をはじめ、MS、アップルなどの関連サービスではじめてAIを体験することのほうが多いかもしれません。
- 23年夏の時点で、ChatGPTの他に、バリエーション、計画中のものも含め、数千単位であると言われてます。
2023年春~夏の状況
- 数年前から画像生成、3Dアニメの生成などでかなりの完成度を示しており、テキスト以外のほうが進んでいた。23年に入りテキスト系の進化が大きく進み、ネット系企業がOSや検索、自社のサービスで大幅に採用することになった。
- データのソースになっているのは、Wikipediaなどここ数年のネット上のサイトやオープンソースやパブリックドメインの書籍など。英語のデータは突出して豊富で、日本語はそれほどでもない。ただ、ネット上の何をどこまで収集したのかは不明。
- ネット上のページを勝手に使って良いのか?という議論はあります。
- 検索エンジンの収集(クロール)を避ける方法はあるが、このAIのクロールで自分のサイトなどをデータとして収集されたくないということはできない模様。
- 中国、イギリスなど国をあげて自国製のものを作ろうとしている。日本でも国家予算で、という話しになりかけたが頓挫。
- 正確性の評価はいろいろだが、日本語の正確性に較べると内容の正確性はまだダメというものが多い。自分の専門分野で検証すればわかります。
- 日本語はかなり自然だが、これまでの自然言語処理とは違うアプローチで生成されている。
- その生成のプロセスは非公開である部分も多く、かなりいろんな加工がされている。それは正確に理解して正確に解釈する方向ではなく「とりあえず本物らしい文にする」という方向性であるらしく、この点に自然言語処理の人達はいろんな受け止め方をしている最中(冷ややかなスタンスの人も多い?)。
- 犯罪やモラルに反することには回答しないなど、かなり文化的な制限がバックグラウンドでほどこされている。この制限も開発元によってコントロールされることに注意。米国製は米国的なモラルで作られ、中国製は中国政府の意向が強くなる、みたいなことは当然ある。
- このバックグラウンドでの調整は、法人版などでは(開発元の制約はあるでしょうけど)企業がカスタマイズできるようになる可能性が高そう。
自国で自社で開発する的な発表は毎週のようにあるので省略しますが…
- Googleは生物医学用の生成AI「Med-PaLM M」を発表 → Towards Generalist Biomedical AI https://arxiv.org/abs/2307.14334
- 文部科学省が生成AI開発、仮説や実験立案 技術流出防ぐ - 日本経済新聞 https://www.nikkei.com/article/DGXZQOUC268DF0W3A720C2000000/
- rinna、日英バイリンガル大規模言語モデルをオープンソースで公開|rinna株式会社 https://rinna.co.jp/news/2023/07/20230731.html?s=09
【記事】rinnaのマルチモーダルチャットの画像対話モデルを試す|npaka https://note.com/npaka/n/nf88f2523b4b1?s=09
【記事】GitHub - llm-jp/awesome-japanese-llm: 日本語LLMまとめ https://github.com/llm-jp/awesome-japanese-llm?s=09
【記事】MT-Benchによる各種LLMの日本語運用能力評価まとめ(23/10/31更新)|shi3z https://note.com/shi3zblog/n/ne4f3b3cfb6ed?sub_rt=share_sb
対応言語
AI対応言語と利用できる国の状況(2024年2月)
日本国内の日本語学習者数の順だと
サービス | 簡体字 | 繁体字 | 韓国語 | ベトナム語 | ネパール語 | ミャンマー語 | シンハラ語 | インドネシア語 |
---|---|---|---|---|---|---|---|---|
OpenAI | ○ | × | ○ | ○ | ○ | × | ○ | ○ |
○ | ○ | ○ | ○ | × | × | × | ○ |
Googleは国(閲覧、利用)はミャンマー、ネパール、スリランカは対応している。*OpenAIには台湾、繁体字という字は出てこなかった。
利用方法(アカウント登録、API利用、法人契約)と二次利用
コスト(月額・API)
月額はほぼ月20ドル前後で同じ。
1000トークンで一往復
ChatGPTの今のAPI料金で超ざっくり計算すると… AIを学校独自に日本語学習用にカスタマイズして使うとして、1000トークンが0.002ドルなので0.3円。1000トークンを質問↔回答の一往復として、最初の質問をふまえて3回強尋ねて1セットで1円とすると、 学習者がネットを介して月300回使うと1人300円。
概要
もちろん各社違いますが、ChatGPTの例だと…
ChatGPTはOpenAIという組織によるものですが、OpenAIの利用規約などを見る限りでは…
ユーザーが入力した情報は…
- 無料アカウント登録:入力した情報はサービス向上、学習に利用される。
- API経由での利用:入力した情報はサービス向上、学習に利用されない。ただし閲覧する権利は持っており、法令遵守のためなど例外的に利用する可能性がある。
- 有料アカウント登録:入力した情報はサービス向上、学習に利用される。
ただし、API以外の有料アカウント利用時のデータはオプトアウト申請をすれば、使用されないことにはなるが、一部利用制限がかかる。
回答などで得た情報は…
- サービスの種類に関わらず、規約を遵守する限り、すべて譲渡されたものとなる。
- 著作権を侵害しているかどうかは利用者の責任。
法人契約はあるか?
- 今のところ、有料アカウント契約では、法人の権利を代表する人がアカウント登録の際に登録をする必要がある。登録すれば、有料アカウントと同じ条件下で利用可能。
- 企業間で提携的な利用をする場合は、法人契約的なものがある模様(ハッキリしない)。その会社のサーバーにインストールして、というようなよくある法人契約的な利用になるのかは不明。
OpenAIの利用規約は以下にあります。 Terms & policies https://openai.com/policies 日本の裁判所ではなくカリフォルニア州での裁判になります。
オプトアウトの申請について
ちゃんと申請すれば対応される模様。ただし、OpenAI社がユーザーの投稿内容を閲覧できる仕組みはそのままなので個人情報保護が守られるわけではないです。
個人情報保護関連の法律と規制
ChatGPTにとって日本は”機械学習パラダイス”なのか ~LLM(大規模言語モデル)にとっての個人情報保護法とGDPR~ | STORIA法律事務所 https://storialaw.jp/blog/9293?s=09
入力したデータの再活用拒否設定
2023年4月の個人情報保護関連の仕様変更で可能になりました。ただし上で述べたように再活用はされませんが、データとして保存され監視はされるので、顧客情報などはアップできないことは同じです。
New ways to manage your data in ChatGPT https://openai.com/blog/new-ways-to-manage-your-data-in-chatgpt
クローラー回避の呪文
クローラーというのは、AIや検索エンジンなどがウェブを巡回してデータを取得していく仕組みです。Googleなどもこのクローラーで日々検索エンジンをアップデートしています。このクローラーに対して「ウチのデータを持っていくな」という対策は「ある程度は」できます。自分のサイトを持っている人、サイトの管理を任されている人なら知っているとは思いますが、これまでは検索エンジンのクロールは許してもまあOKでしたが、AIのクロールは、勝手に活用されてしまうわけで、受け入れるか拒否するかは大事な判断になってきます。
OpenAIは、回避したければこうやってくれと説明してます。
GPTBot - OpenAI API https://platform.openai.com/docs/gptbot
どうやるかは検索してください。以下のページはわかりやすいです。
robots.txt の書き方、設定と送信 | Google 検索セントラル | ドキュメント | Google for Developers https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt?hl=ja
このrobot.txtによる回避は、そこそこ機能するとされてます。ただこれはネットにおけるフェアプレイ精神を守るところだけで、勝手に持ってく企業もあります。ロシア系とか中国系とか。。。
AIを利用して何かを作るには
これ、日本語教育関係者にはあまり理解されてないような気がします。無料サービスを便利ツールとして活用するみたいなこととは違って、結構大変です。
学習者に向けて何かを作りたいと考えた時、大まかに3つくらい方法があるようです。 その前にツールとして何ができるか、できそうか、について。
0 ツールとして便利。何ができるか
- 時間がかかったこと、スキルが必要だったこと、がほぼ支持だけで作れるようになった、というのが大きいですが、24年の時点では例えば「3分ぐらいのある場面のスキットの会話動画やアニメ」を作るのに、3つか4つのAIサービスを併用して組み合わせて作ることになります。それぞれの使い方のノウハウとお金(月額10~20ドル)が必要
- 大手は、ひとつのテキストの支持でだいたいできるようなサービスを目指しているので、上のように組み合わせじゃなくてもできるようになりそうです。これだと、覚えるのもお金もひとつのサービスだけで済みます。ただ、現時点では、1の個々のサービスのほうが質は明らかに高いので、組み合わせのほうが圧倒的に質が高いものができます。
- でも、今のスピード感だと、2,3年で、ChatGPTとかClaude、Geminiでできるようになりそうです。多分、プロンプトみたいなものも不要になり、いくつか選んでボタンでポンみたいな。
と、ツールとしては、もうちょっと待てば、簡単に何でも作れるようになりそうです。でも多分、90点のものは難しいような気がします。80点ならすぐ、なのでは。
1 本格的な学習ツールを作る
→ 1 API という仕組みを使って学習サイトなどを作る。
必要な知識とスキル、資金が必要です。
- レンサバを借りる 年5000円くらいから
- ドメインを取る 年2000円前後
- 学習コンテンツ制作 自力なら無料
- API 契約と利用料金が発生する。基本、従量制なのでユーザーに課金しないと無理。
3のコンテンツ制作は、ブロンプトだけではなく、ソースを追加たり、チューニングというプログラムで細かくカスタマイズすることになるので、普通は専門家が必要です。AIでプログラムすれば…といってもチェックしないと致命的なエラーがあったらアウトですし、課金システムなどの構築もあります。
4は、文字数や画像のサイズで決まります。トークンという単位でだいたい日本語1文字が1トークン(このへんはまだよくわかっていない)で考えてみます。
「法人料金」として、※※※※トークンあたり0.005円、みたいなことがどこかに書かれています。いろんなサービスのサイトで探してみてください。大手はそれほど変わりません。大規模な利用に対応する体制を整えるのは、兆単位のとてつもないお金がかかりますから。
ChatGPTのAPI料金で試算してみると…
Pricing https://openai.com/pricing
テキストのほうが安いですが、一人一回のやり取り「質問→回答→さらなる質問→回答」で1000トークンぐらいとして、毎日平均5回で月15万トークンです。100人なら1500万トークン。例えば日本語学校の平均的な学生数を300人とするなら、4500万トークンです。仮にネット上に置くと、月10万人(基金の日本語コンテンツの訪問者数の平均)が利用したら、150億トークン。
23年末の時点で「1000トークンあたり0.002ドル」だったので、1万トークンで0.02ドル=約30円(1ドル150円換算)。1000万トークンで3万円。
つまり100人の学生が毎日5回使って、月25000円。でも試験前などに多めに使うとすぐ10倍くらいになるかもしれません。それだと月25万になる可能性もある。学生数が1000人だと250万円。学校で負担するのは厳しい額?
ネット上で公開したら月10万人が使うと2億5000万円。2億5000万を回収するには月額2500円の課金が必要。これに利益を乗せるなら3000円?(これでも利用回数に「1日10回まで」などと制限を設けないと厳しい)
(桁が大きいので計算に自信がありませんが)いずれにしても、100人くらいの学生の学校なら思い切って学生限定エリアでやることはできるかも。でも、ネット公開は課金で回収しないと無理。
2 有料アカウントユーザー向けにアプリ的なものを配布
ChatGPT だとGPTsという機能でやります。ちょっと前まではプラグインという方法でした。他社も似たようなサービスを提供するところがありますが、ある程度規模が大きく、ユーザー数も多く無いとできないです。
そして、これで作ったものを提供しても、使えるのは月20ドルを払っている有料会員だけです。学校向け法人アカウントはまだ少ないので、学生すべてに加入しろというのは無理。基本、有料ユーザーの個人相手です。
3 無料ユーザー向けに「こんなプロンプトでこんなのができるよ」と教える。
これなら、作り手の受け手も無料です。しかし教育の世界では、日本語教育に限らずですが、学習者の世代のほうが若く明らかにICT能力は高い。教師がわざわざ教える必要は。。。あと、プロンプトは、常に同じ回答をするわけではなく、再現性は無く、仕様も時々変わります。そもそも正しさがゴールというカンジもしないし、人間らしさがゴールなら再現性は永遠に保証されないのかも。
基本的には、知らない学習者がいたら、こんな活用がでときるよ、伝えて、あとは母語で検索していいサイトや動画を探して、くらい?
4 しかし、身も蓋もない話をすれば…
無料アカウントが進化すれば、それで済む
今、無料のChatGPT3.5でも、プロンプトの工夫などせずに、そこそこ答えてくれますし、これが4.0が無料に来て、Claude3とGeminiがひとつバージョンアップすれば、もう上の1,2,3は全て不要になると思います。今のペースだと2年か3年くらい? それを考えると、資金を集めて勝負するのは疑問ですし、プロンプト的な工夫もどんどん不要になってくることも確実なので、アレコレ勉強するのもあまり意味がないのでは、というのは、このページで繰り返し書いているところです。
今の無料レベルのものが60点ぐらいだとしても、もう「これでいいんじゃない」と考えている人はいるくらい驚異的ですし、2年後に80点になれば、もう誰もが合格点を出す。100点にならなくても十分に信頼されてしまうと思います。
企業向けは高価
ChatGPTの料金でいうと企業や自治体との契約で規模によっては数千万から数億になると思います。(他のサービスも同じクオリティならほぼ同じくらいになるはず)だと、法人向けサービスは2段階あり、企業のDBに組み込むような本格的なもの(どうやるのかは分かりません。例えばzoomのようなビデオチャットだと、その企業や大学のサーバーに根幹部分をインストールして、企業のDBをソースにして、保守管理もやるようなセットでそこそこの規模の大学などで数億とか)
もうちょっと安い版は、いろんなところが仲介をやっていて、だいたい社員1人あたり月額数十ドルくらいのものもあります。これだと従業員が500人なら、仮に30ドル(4500円)で、月額225万円。
得意と苦手
日本語の文を作るのが得意
これは間違いないです。文の正確性もこれまでの方法と較べて飛躍的に高い、ほぼ破綻のない文章を生成します。この点については、誰もがブレークスルーだと認めるところではないかと思います。(他の点では、事実認識の正確性やコーディングでも、いろいろと意見が分かれます)
また、ダラダラとまとまった文章や物語を書くことができる、ということも大きな特徴のひとです。
【検証】 以下は日本語スピーチ大会の原稿を作らせてみて、それにふりがなをふってみた例です。画像をクリックすると大きくなります。
偽装・捏造が得意
AIの最も困った点で、間違うだけでなく、その間違いを最もらしく偽装しようとする、というところがあるという報告が多数あります。
もっともらしい回答をした際に、その根拠として、論文や資料などを示すことがありますが、この資料や論文が存在しないものであることが初期(23年春ごろまで)には結構ありました。その後批判を受けて改善されたようですが、単に引用文献などを出さなくなったことが増えただけで、捏造ぐせは、まだ残っています。
判例も捏造してしまうというBBCの記事。
ChatGPT: US lawyer admits using AI for case research - BBC News https://www.bbc.com/news/world-us-canada-65735769
それらが改善されたAIサービスなどもあります。
Perplexity AI https://www.perplexity.ai/
方言は苦手?
いろいろやっているカンジでは、苦手そうです。
- 「おかけになった電話番号は、現在使われておりません」を方言に変換。博多弁、大阪弁、京都弁、横浜、東京の下町口調 → aitest_hoogen01.png
- 自然な方言に
- 標準語の比率を高くして
- 敬語で
間違えるのが下手?
差別、罵倒
差別的なものはNGということは知られてますが、そのボーダーは国際的水準とはいえ米国基準と言えそうです、倫理的にどうなのかもハッキリしません。ここでは、「こういうのもダメでした」という例をリストアップしてみます。
- 【検証】 その文脈では不適切的な判断 → aitest_ng1.png
→ このへんは今後もイタチごっこが続きそうです。
以下はプロンプトに特定の文字列を入れればハックできるという内容の論文 Universal and Transferable Attacks on Aligned Language Models https://llm-attacks.org/
【記事】ChatGPTを凶悪な暴言マシンに変貌させる魔法の文字列が発見される - GIGAZINE https://gigazine.net/news/20230728-llm-attacks-ai-chatgpt-suffix/
再現性に猜疑?
そもそもAIは再現性について厳密に追求しているという印象はないのですが、以下は、もっと難しい議論のようです。
【記事】NN研究における再現性にまつわるエトセトラ - 渋谷駅前で働くデータサイエンティストのブログ https://tjo.hatenablog.com/entry/2023/07/25/183000?s=09
多言語?
ChatGPTに関しては、「日本語で入力されたからといって日本語のリソースだけでやってるわけではなく、日本語で考えているわけでもない」という意見が多いようで、よくわかりません。AIが何語で考えているかは謎です。
- 入力から生成まで、言語別なのかは分からない(全部の言語一緒?基本、英語で考えてる?)
- 英語が強い(質問の理解力、回答の精度)
- たいていのAIで、日本語で質問すれば日本語対応かはわかるか、答えが出ても日本語か英語かは不安定。出力(回答の言語)は指定できる。
- 多言語対応はChatGPTよりBardのほうが期待出来そうだが、現時点ではほぼ同じ。ベトナム語、ネパール語にも対応。
法律
一般的な問題
AIに関する著作権は、H28~29年の新たな情報財検討委員会において、今回ChatGPTのような事態の前の研究段階でかなり緩めのルールが出来ている。
新たな情報財検討委員会 -データ・人工知能(AI)の利活用促進による産業競争力強化の基盤となる知財システムの構築に向けて-
https://www.kantei.go.jp/jp/singi/titeki2/tyousakai/kensho_hyoka_kikaku/2017/johozai/houkokusho.pdf
ただし、これは、2022年のような、突然の技術的な向上と、そのまま商品化されるというような事態は想定していないので、かなり問題をはらんでいる。
AI生成の児童性的画像、サイト運営者「削除するつもりない」…専門家から対策求める声 : 読売新聞 https://www.yomiuri.co.jp/national/20231112-OYT1T50002/
著作権周辺
現状は混沌としています。テキスト生成については、その原理からも生成行為自体に著作権侵害は認めにくいが、生成されたものが著作権や著作者人格権を侵害する可能性はある。画像に関してはより強く侵害の可能性が出てきそうだ、というのが大まかな共通の見解でしょうか。
現在、世界のほとんどの法域でAI生成の作品には著作権が発生しない。つまり、パブリックドメインになるということだ。しかし、英国と連邦の一部だけはコンピュータによる自律的生成物への著作権を認める著作権法の条項が存在する。これを導入すればAIの勝ち組になれるという期待も一部にあるようだ。
— Shuji Sado (佐渡 秀治) (@shujisado) April 16, 2023
また、著作権侵害もいろんな形があり、例えばCCのような場合は、利用する際のライセンス表示が義務づけられるが、それは行われてません。こういう問題があるまま、ベンチャーが見切り発車してしまったので、IT系有名人が「ちょっとストップ」と声明を出したりという騒ぎになっているわけです。
AI開発一時停止を 公開書簡の要点 - Yahoo!ニュース https://news.yahoo.co.jp/pickup/6458680
中長期的には以下のようなことを予測する人が多いのは確かです。(しかし、これでは新たな創造が行われる仕組み自体が壊れてしまうことについてはソリューションは示されていない)
今から数年で著作権とか肖像権みたいな権利は無効化されていくでしょう。個人のこのような権利を保護することより、生成系AIに突っ込んでみんなで使った方が明らかに公共の利益に適うからです。一方でこれらの生成系AIに食わせる元の制作物をつくる人たちにどうやって報酬を払うかは問題になるでしょう
— 田口善弘 (@Yh_Taguchi) April 1, 2023
23年12月 文化庁見解
文化審議会著作権分科会法制度小委員会(第5回) | 文化庁 https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/hoseido/r05_05/
著作権のパブコメ周辺の議論
画像生成AIの著作権問題、文化庁議論で争点はっきり (1/4) https://ascii.jp/elem/000/004/188/4188529/
「AIと著作権に関する考え方について」2024年4月
文化庁、「AIと著作権に関する考え方について」を公表 | カレントアウェアネス・ポータル https://current.ndl.go.jp/car/218811
OpenAIのガイドラインと著作権
23年4月26日に出ました。 Brand guidelines https://openai.com/brand
「◯◯GPT」や「ChatGPT搭載」はNG 米OpenAIがブランドガイドライン公開 - ITmedia NEWS https://www.itmedia.co.jp/news/articles/2304/25/news113.html
まず、自身が著作権をもたないものもアップ禁止です。生成したものの著作権はこれからですが、米国では、AIで生成したものは著作権は主張できないということになっています。プロンプトをどんなに工夫しても無理とのこと。当然といえば当然ですが、見落とし勝ちなので。
https://public-inspection.federalregister.gov/2023-05321.pdf
- USの裁判では、AIによって生成されたものは、どんなに工夫しても著作権は認められないということになったことに注意。元が勝手に収集したデータで、機械が勝手に組み合わせただけなので当然といえば当然。
「AIが自動生成=著作権なし」「人間の創作=著作権あり」 米著作権局、AI生成コンテンツの登録ガイドライン公表 - ITmedia NEWS https://www.itmedia.co.jp/news/articles/2303/22/news172.html
著作権法の一部を改正する法律(平成30年法律第30号)について | 文化庁 https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/
以下は上の著作権改正に関する文化庁の文書 著作権法の一部を改正する法律 概要説明資料 https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/bunkakai/51/pdf/r1406118_08.pdf
この一連のやり取りは、AIなどの研究開発に関しては著作物を利用することはOKとなったが、関連の論文情報解析と著作権──「機械学習パラダイス」としての日本にあるように
上記のように,著作権法上の「情報解析のための権利制限」規定は,情報解析の目的で行われる著作物等の利用を自由としているが,但書として,「ただし,当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は,この限りでない」と定めている(同法 30 条の 4 柱書但書).そのため,いくら情報解析の目的であっても,「著作権者の利益を不当に害する」場合は,権利制限の対象外ということになる
利益を不当に害する場合はダメとなっている。しかし、AIがどう利益を害したかを確認する方法は無く、どういうことが起きうるのか、どう対処するのかが検討されないまま、世界に遅れないようにと見切り発車で法律改正が決められたという経緯がある。
実際に数年後の22年には、画像から始まり、テキストを勝手にクロールしてAIとして無料で利用できるサービスが、これも著作権保護を無視する形で見切り発車で、始まってしまったが、当然、利益を不当に害することは確実。しかし、おそらくAI関連各社は、著作権侵害は認めないし、賠償をする気はないだろう、というのが23年春の状況です。
仮に具体的に著作権侵害が問題視されたとしても、せいぜいYoutubeなどで行われているように基金でもって対処する程度になりそうで、クロールしたコンテンツ製作者にわずかなお金が支払われるか、侵害の申告があり、裁判で認められ場支払われる程度で終わりそう。訴えるハードル、侵害を認めさせるハードルを越えても、これもわずかの賠償金が支払われる程度。いちいちちゃんと賠償してたらすぐにビジネスとしては終わるので。つまり、現時点で、著作権使用料が支払われる可能性はほぼ0に近い。どうやるかもまったく見えませんし。そのうち解決する、著作権という概念は消える、というのは、人類が文章を書くのをやめるみたいな話なので(そういう方向に行きそうなことではあるけれど)今、あれこれ想像してもあまり意味がありません。
作風の模倣、法的な問題に関して
画像だけでなく文体などを模倣して新たな作品を作ることは最初に述べた研究段階では法的にセーフとなっているが、実際に高い(というかソコソコのレベルでも)実現してしまうと、ある作家の作風や画風で新たな著作権フリーの作品が生まれてしまえば、作家を殺すことになり、また作風だけを模倣してその作家の本意でない作品が生まれるという著作者人格権も侵すことになってしまう。(例えば手塚治虫タッチでヒットラー礼賛の作品を作ることもできる)
「ある著作者の著作物を大量に学習した学習済みモデルが、これと同じ画風で絵を描くとか、同じスタイルで音楽をつくるということ自体は、画風やスタイルといったアイデアの利用に過ぎないため、もとの著作物の著作権の侵害にならないということははっきりしている」(上野早大教授)と言われているが、これは「作ること自体」が、「日本のかなり拡大解釈的な法律下では(海外では必ずしもそうではない)」許されているが、結果として生成されたものが問題ないというわけではない、ということ。
最初に示した報告書の以下の文書が根拠
新たな情報財検討委員会(第2回) https://www.kantei.go.jp/jp/singi/titeki2/tyousakai/kensho_hyoka_kikaku/2017/johozai/dai2/gijiroku.pdf
新たな情報財検討委員会報告書の概要 https://www.kantei.go.jp/jp/singi/titeki2/tyousakai/kensho_hyoka_kikaku/2017/johozai/houkokusho_gaiyou.pdf
(研究段階のルール設定が、実現してしまったら問題となる例として書いています。法的にOKだからいいのだ、という意味ではないです)
文化庁の見解(23.06)
https://www8.cao.go.jp/cstp/ai/ai_team/3kai/shiryo.pdf
とりあえず、入口と出口で分けて考える、その上で、出口では、これまでの延長線上で解釈するとこうなるよ、というものかと思われる。
【参照】https://twitter.com/HiromitsuTakagi/status/1665515672137506817
令和5年度著作権セミナー「AIと著作権」の講演映像及び講演資料を公開しました。 | 文化庁 https://www.bunka.go.jp/seisaku/chosakuken/93903601.html
文科省の見解(小中学校での活用)(24.12.26)
クリエイティブコモンズの見解
クリエイティブコモンズが政府に提出した文書 https://www.regulations.gov/comment/COLC-2023-0006-8735
クリエイティブコモンズによる上の概要 CC Responds to the United States Copyright Office Notice of Inquiry on Copyright and Artificial Intelligence - Creative Commons https://creativecommons.org/2023/11/07/cc-responds-to-the-united-states-copyright-office-notice-of-inquiry-on-copyright-and-artificial-intelligence/
個人情報保護関連
- 有料版のChatGPT Plusを購入している場合でもウェブ版を利用している場合にはユーザー・コンテンツを学習に利用される可能性がある(利用規約3©
ChatGPTなどの大規模言語モデルと日本の「個人情報保護」はどう関係してくる?高木浩光先生の見解 - Togetter https://togetter.com/li/2123499
以下は、他のサービスにも共通することになりそうです。
- 入力して送信した情報は保護されず勝手に利用される。
- 人の情報も勝手に生成する。名前で検索するとほぼ誤った履歴が紹介される。この機能は違法性が高いという指摘もあり、消える可能性もありそう。
【記事】生成AIへのプロンプト入力時における個人情報保護法上の論点まとめ(前編)|知的財産・IT・人工知能の法律相談なら【STORIA法律事務所】 https://storialaw.jp/blog/10005?s=09
【記事】いくらAIが便利だからって、子どもの教育データをGPTに流し込んで表を作らせようとする馬鹿教師は滅亡して欲しい|山本一郎(やまもといちろう)|note https://note.com/kirik/n/n9369e0e6e530?s=09
【記事】オープンソースアプリの開発者が「年間400万円払うから情報収集機能を追加して」「月額数十万円で位置情報を収集させて」など衝撃的な買収提案メール数十件を公開 - GIGAZINE https://gigazine.net/news/20230810-open-source-takeover-offer/
【記事】企業の75%が「ChatGPT」利用を禁止する方向–BlackBerry調査 - CNET Japan https://japan.cnet.com/article/35207866/?s=09
【記事】ChatGPTなど生成AIによる個人情報の開示 | 調査研究/ブログ | 三井物産セキュアディレクション株式会社 https://www.mbsd.jp/research/20230511/chatgpt-security/
商標権
■ 生成AIと商標権侵害
— 柿沼 太一 (@tka0120) April 3, 2023
生成AIと知的財産権の関係は、生成AIと著作権について議論されることが多いのですが、生成AIの能力が多様化するにつれ、他の知的財産権との関係もこれから問題となることが増えると思います。
ここでは、まず商標権について検討します。… pic.twitter.com/N8ZDrL5Z3H
米国のAI規制
23年7月 米国は大幅な規制をすることを発表
バイデン大統領“AI生成動画か識別する対策開発へIT各社合意” | NHK | AI(人工知能) https://www3.nhk.or.jp/news/html/20230722/k10014138601000.html
【動画】Jeremy Howard on ABC Weekend Breakfast - YouTube https://www.youtube.com/watch?v=AbBZEULuCwc
全米脚本家協会のAIに関する合意
Summary of the 2023 WGA MBA https://www.wgacontract2023.org/the-campaign/summary-of-the-2023-wga-mba
【記事】概要の日本語ツイート https://twitter.com/hayato_saito91/status/1706829689309081642
欧州のAI規制
総務省の資料がまとまっていると評判
EUのAI規制法案の概要
https://www.soumu.go.jp/main_content/000826707.pdf
【記事】Proposal for a REGULATION OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL LAYING DOWN HARMONISED RULES ON ARTIFICIAL INTELLIGENCE (ARTIFICIAL INTELLIGENCE ACT) AND AMENDING CERTAIN UNION LEGISLATIVE ACTS
【記事】 https://eur-lex.europa.eu/legal-content/EN/TXT/?qid=1623335154975&uri=CELEX%3A52021PC0206
【記事】欧州AI規則案の概要 - Business & Law(ビジネスアンドロー) https://businessandlaw.jp/articles/a20220101-1/
【記事】世界初、EUの包括的AI規制法案を欧州議会が可決 生成AIの明示を義務化 - 産経ニュース https://www.sankei.com/article/20240313-55LS7JKJ5NN67DTRDTSRIWGHHA/
問題
ネット全体に対するダメージ
「影響」と書くべきかと思いましたが、やはりダメージという要素が濃いと思いました。ハッキリしないことも多いので、あまり表では議論になっていませんが、ネットの中の人(ネット系のテック企業やサーバーやサイト運用などをしている人達)の間では、ChatGPTの前後から深刻な問題だと認識されています。
ざっくり書きますと…
- すべてのコンテンツ(テキスト、音声、画像、動画)はAI製かどうかは見分けがつかないことは確実
- AIによる自動生成された記事、画像、動画が無数に作られており、近い将来人間製の数を凌駕することも確実。
- それにより、検索文化が終わり、代わりにAIに尋ねるようになる。
- しかし、AIのクオリティは上がっても完全になることはない。(DeepLの翻訳が何年たっても完全にならないように)
- しかし、一般の人達はそれを完全なものとして考えるようになる。
みたいなことでしょうか。
検索文化が終わるということは、ネット上にコンテンツを公開する意味がほとんど無くなるということでもあります。広告価値も激減する。何よりネット上に限らず、コンテンツを想像しようというモチベーションが失われ、作り手が受け取る報酬も無くなるということになります。作るという行為にとって大きな打撃となるだろう、というような議論です。
具体的は、23年にGoogleの検索結果はかなり酷いことになっており、広告収入の現象で一般メディアまで、露骨な、質の低い広告に移行するみたいな現象が起きています。
2020年代を通じて、だんだんとこのダメージの影響が露わになっていくと言われています。かなり深刻です。
WordpressのChatGPTによる自動生成プラグインはすでに無数にあり、代表的なAI ENgineはすでに6万超のダウンロード数(実際に使って記事を生成している人が1%の600人だとしても、一瞬で無数の記事作成ができる)
AI Engine – WordPress プラグイン | WordPress.org 日本語 https://ja.wordpress.org/plugins/ai-engine/
私達のサイトも1997年から公開してきたコンテンツのほとんどを、アクセス制限することになりました。一般の人が気づかない形で、ジワジワと公開コンテンツが死につつあるという印象です。
(日本語)教育での活用における注意点
(いわゆる驚き屋的な人ではなく、ある程度冷静に受けとめる教育関係者の間では)一般的に言われていることですが…
ポジティブな面だと
- デジタル作業の下準備的なところで力を発揮するので当然教師の準備的な作業の効率化には貢献する。
- 学習者に関しては、ある程度のレベルに到達した人が上手に活用する道はある。
教育利用において、注意すべきなのは…
APIのふりがなの精度は95%くらい、シンプルな文のDeepLの翻訳な精度は60点くらい。教育(特に語学では)チェックは必須。AIの精度がWikipedia並なら、やはりチェックは必要というのは大前提で…
いつかほぼノーチェックで使える日が来るとしても、それは来た時に考えることにして、一旦横に置きましょう。
- 何かを尋ねた際に正確な回答は今後も期待できないし、おそらく、正確性を志向しているわけでもない。
- 仕組み上、正確で使えるものを引き出すには、プロンプトなどかなり工夫が必要で、かつ、その工夫がいつまでワークするかの保証は無い。(再現性は低い)
- したがって、プロンプトのような工夫は、その時点でのAIの挙動理解の「頭の体操」という意味でしかない。
- チェックを含めた時間的なコストは、実は、最初からAI利用なしでやったコストとたいして変わらないことが多いことにも注意。
ということで、特に語学学習に関して、学習者が便利に活用できるのは中上級より上くらいのレベルに限られるのでは、という気がします。
AI利用したことをクレジットすべきか?
そして、最も大事なことは、AI生成によるものは、いくた叩き台であってその後手を加えたとしても、著作権が曖昧なので、教育での活用においては、AIを利用したものであるかを明示することがマストだということです。これは学習者への説明責任という意味からも必ずクレジットすべきだと思われます。
仮に、AI活用はクレジットしなくてもよいと考えるとしても、現時点では「私はクレジットしなくてもいいと考えているので、しない」と、きちんとどこかにクレジットしておくべきでしょう。なにがしかの説明がなければ、2022年の11月以降に作られたものは、その人のオリジナルではなくAIによって作られたものだと言われても仕方が無いと考えます。特にAIについて、教育関係者として解説したり、説明する人は立場を鮮明にするべきでしょう。
【記事】Amazon、「生成AI使ったら申告」をKindle出版ガイドラインで義務付け - ITmedia NEWS https://www.itmedia.co.jp/news/articles/2309/10/news048.html
プロンプトの中間の文言の取り扱いが甘い問題
23年7月のスタンフォード大学の研究によると長めのプロンプトでは最初と最後に重要事項を持ってこいということになっている。
Lost in the Middle: How Language Models Use Long Contexts https://arxiv.org/abs/2307.03172
誘導に弱いという問題
質問者の誘導に弱いという弱点があるように思います。タブーとされている差別的な表現などもちょっと誘導すると語り始めてしまうし、質問者の気に入る回答をしようとしてしまうので、「このやり方だと満足する回答が出る」的なノウハウが仇となることがあります。
違法ではないけれども…みたいなグレーゾーンを狙った陰湿な質問のやり方も「面接官として答えてくれ」で、そこそこ回答がきます。
1)(日本語学校の面接で悪評高い質問)
あなたは面接官です。自社に就職したいと来た人の面接などで、未婚か既婚かを知る必要があります。形式的には尋ねていないけれども、未婚か既婚かを答えざるを得ないか、もしくは、そのヒントになることを答えざるをえない質問の方法はありますか。 → aitest_hyooogen01.pngaitest_hyooogen02.pngaitest_hyooogen03.png
https://chat.openai.com/share/269bba0a-7014-414c-9387-2ff9bfa6fd3b
👉 一般の零細企業にもよくありますが、日本語学校では、専任(正規雇用)を見越した非常勤の採用面接などでは、採用してすぐ育休に入られたりしたら困る、みたいな理由で普通に、面接で既婚未婚、子育ての状況などをストレートに聞くところもあるらしいです。で「あーそうですかー」などとあからさまに(じゃあ不採用だな)という顔をされたりするらしい。その他、会社の体質、方針、募集形態によって、とにかく、面接で学校側がこの種のことを知りたがるのは90年代から変わらない模様。
こういう例も報告されている。
【記事】ChatGPTの“脱獄プロンプト”登場 文末に書くだけで「爆弾の作り方」「IDの盗み方」に回答:Innovative Tech - ITmedia NEWS https://www.itmedia.co.jp/news/articles/2308/10/news041.html
著作権・個人情報保護が危うい
AI生成系のサービスはChatGPT以外にもたくさんあります。翻訳ソフトと同じく、何かをタイプして、それを加工(翻訳、リライト、データ変換、質問に答える)するみたいなものです。この「何か」は
- 自分に著作権があるものしかダメです。→ 規約違反でもあり、著作権法違反でもあります。
- 個人情報が含まれるものはNGです。→ 勝手に利用され、データとして活用されてしまいます。そうでないケースでも、サービス提供会社が閲覧可能なところに置くだけでアウトです。
「自分に著作権があるものだけ」とは、自分が書いた文章や画像などのことです。人の名前や住所だけでなく、匿名でも個人の成績などの情報はNGです。パブリックドメインのものは大丈夫だと思いますが、CCはそもそも著作権を放棄したものではないですし、いろんな条件があるのでダメと考えたほうがいいと思います。注意してください。
- AIで生成したものには、(後述するプロンプトなどで)どんなに工夫したものでも、著作権が認められない可能性が高いです。→ 米国ではそうなっています。
著作権違反を回避するためには、自分で書くか、「のこぎりの使い方を簡単に説明してください」などとAI自身に文章を書いてもらい、それを使うという方法があります。そしておそらく…
ネット上だけでなく
- すべての文章は、AIを使ったかどうか、使ったならば、どの程度、どう使ったかを明示する必要が出てくる
と思います。遺伝子操作をした大豆を使ったどうかみたいな話ですが、これが明示されていない文章は著作権もあやふやなままになってしまいます。当然例文や設問作りなどで利用したかどうかも含まれます。
【記事】個人情報保護委員会、生成AIサービスの利用に関する注意喚起のパンフレットを公開中【やじうまWatch】 - INTERNET Watch https://internet.watch.impress.co.jp/docs/yajiuma/1525180.html
ステレオタイプ・バイアス
→ ここまで、度々触れてますが、もう一点、画像生成は、モロモロのステレオタイプを強化しがち、という課題もあります。性別や国籍などの一般的なイメージを集めたような画像を作ってしまいます。日本語教育で起きがちなのは、「**人」っぽいものを作ってしまうみたいなことでしょうか。AIも多数が納得する解を示しがちな傾向があるので、注意せずにそのまま使うと問題になります。逆に海外で「日本人」という指定で作られる画像に日系人の人達が苦しめられることも起きているわけです。
単に人種と性別だけ配慮しましたよ、みたいなものも多いです。みんなスリムで肌も歯並びピカピカ、笑顔ばかり。ルッキズムは取り扱いが難しい概念ですが、AIのビジュアル生成では重要になってきそうです。
【記事】AIに「この職業の人、描いてみて」とお願いしたら→偏見がすごかった… https://www.buzzfeed.com/jp/angelicaamartinez/ai-average-person-job-1
【記事】 「アフリカの労働者」と「ヨーロッパの労働者」で結果が違いすぎる…画像生成AIにつきまとう偏見の問題 | Business Insider Japan https://www.businessinsider.jp/post-269269
【検証】
「AIが生成する文章が過度に規範的であったり、生成する画像がステレオタイプ、偏見を助長するのではないかという議論が(少なくとも欧米では)あります。それらをふまえて、特に教育現場での活用において注意すべきことはありますか?」
- ChatGPT(3.5) aitest_stereo01.png
- Bard aitest_stereo02.png
性能が不安定
安定して正しい回答が得られるわけではないが、そこそこ参考にはなる、60点くらいだ、という認識の人は多いですが、ちょっとしたことで回答の質が0点になったりもします。
23年の7月に、23年の3月版と6月版ではかなり仕様が異なり、劣化したのではということが話題になりました。
【記事】GPT-4の精度は悪化している? 3月に解けた数学の問題解けず GPT-3.5にも敗北──米国チームが検証 - ITmedia NEWS https://www.itmedia.co.jp/news/articles/2307/20/news160.html
検証した論文(英語) GitHub - lchen001/LLMDrift https://github.com/lchen001/LLMDrift
性能の低下に関する記事
23年6月以降、ChatGPT4の性能がかなり低下しているという話しが出ました。関連の記事
変化に関する論文 https://t.co/XDl897OXJu
https://twitter.com/ai_database/status/1681504703992180736/history
AI製かどうかを見破るのは不可能
いろいろありますが、今のところ、ChatGPTのOpenAIが作っているこれ AI Text Classifier - OpenAI API https://platform.openai.com/ai-text-classifier
も、結局開発終了となりました。
OpenAIがAI生成の文章かどうか判別するツールを「精度が低い」という理由でこっそり終了 - GIGAZINE https://gigazine.net/news/20230726-openai-ai-text-classifier-shut-down/
「~風」の文章もちょっとした頼み方で書いてくれますし、個人的な体験も簡単に作ってくれます。生成された文章をある程度読むとわかりますが、生成したものをそのまま使ってもAI製かどうかを判別するのはほぼ無理で、多少修正されたら完全に無理という気がします。いろんな見破り系ツールが発表されましたが、どこも成功してません。「読めば分かる!」と言う人がいますが、じゃあ、テストしてみようか?というと、「いやそれは…」と口ごもると思います。
AIを使ったかどうかは、自己申告ルールがなければ、もうわかりません。人が書いた文章を読むような仕事の人(教師、編集者だけでなく結構な人がそうですが)そういう前提でこれからを考えていくしかないと思います。
画像、動画、アニメも無理
「AI臭い」みたいな投稿があり、実際にAIだった、ということが時々起きますが、AIっぽい本物を作るのも簡単なので、これも、見分けるのは、事実上無理です。いろいろ作ってみたりしていれば、AI臭さなんてそのうちすぐに克服されてしまうことは予想がつくと思います。
AIロンダリング
画像だけでなく、例えばオープンソースのデータも、もう元が何かわからないものが違う名前で出てたり、みたいなことは初期からたくさんあり、ルール化は難しい模様。
① イラストレーターの画風そっくりにMidjourney等の他の生成AIで出力
— ぼうくん | VoQn 🎨 (@VoQn) August 19, 2023
② 無許可のままAdobeStockへ放流
③ これでAdobeFireflyに学習素材として入力させる
④ Photoshopβで堂々と使えるようにする
っていうライツロンダリング手法が横行しているみたい https://t.co/3GgnnjvO6p
i2iパクリ
【記事】AI悪用行為「i2iパクリ」はなぜ横行し、そして廃れたのか|スタジオ真榊【AIイラスト術解説】|pixivFANBOX https://studiomasakaki.fanbox.cc/posts/6647841?utm_campaign=post_page&utm_medium=share&utm_source=twitter&s=09
サイト上のコンテンツを勝手に使う問題
以下の記事にAI企業がいかにネット上のデータを収集しているかがあります。クロールして収集する場合がほとんどですが、サービスによっては、URLで指定したサイトのデータに限定して生成するみたいなものもあります。つまり、アクセス制限をしないと、ライセンス関係なく、どんどん使われてしまう。CCなどの表示をしてもCCのルールは守られないということになってます。ネット上でコンテンツを公開している人は対策を考える必要があります。
【記事】Crawlers, search engines and the sleaze of generative AI companies https://searchengineland.com/crawlers-search-engines-generative-ai-companies-429389
個人情報関連のダメ研究
違法性が指摘されている。
辞めそうな人分析AI(名古屋大学)
若者の早期退職をAIが分析 名大大学院などが研究|NHK 東海のニュース https://www3.nhk.or.jp/tokai-news/20230802/3000030819.html?s=09
居眠り検出AI(大阪教育大)
“授業中の居眠りをAIで検出” 大阪教育大がシステム開発|NHK 関西のニュース https://www3.nhk.or.jp/kansai-news/20230803/2000076312.html?s=09
ヒジャブ不着用監視AI
ヒジャブ不着用の女性に長期刑、AIで監視徹底 イラン政府が厳罰化の法案提出へ - CNN.co.jp https://www.cnn.co.jp/world/35207358.html?s=09
アルゴリズムの不公平
「貧しい家の子の成績下げる」アルゴリズムの波紋 イギリスで起きた衝撃、責任は誰にあるのか(東洋経済オンライン) - Yahoo!ファイナンス https://finance.yahoo.co.jp/news/detail/7f21a0ea49094445f03084596ee3614877680e83
生体情報
集中度や感情、脈拍や血流データで「見える化」 学校にじわり浸透:朝日新聞デジタル https://www.asahi.com/articles/ASR9L6KRYR9LUTIL00F.html?s=09
政治的な問題
MS,Apple,GoogleなどIT大手はそれぞれの国の政治体制や文化にどう最適化するか、どこまで譲るかが大きなテーマだが、AIは、直で個々が使うナレッジベースとなるので影響が大きい。この点、日本が中国に対して優位性を持っていると考えられている。
「話題を変えましょう」 ウイグルや台湾について百度の対話型AIに質問 写真2枚 国際ニュース:AFPBB News https://www.afpbb.com/articles/-/3479461?s=09
『日本語教師読本 17 : 語学教師のための自然言語処理の基本』
やさしい日本語や南米の日本語学習者の調査など、日本語教育に深く関わってきた著者が、日本語教育関係者のためにはじめて書いた、自然言語処理の本。
山本 和英 言語商会、元長岡技術科学大学准教授、元言語処理学会理事著
出版社による紹介ページへ
研究
三宅陽一郎さんたちが作った「AI哲学マップ」こんなの観たこと無い…なかなかすごい pic.twitter.com/vHsa4UIbhH
— フジムラ ヨシヒロ (@fujimura1969) August 13, 2023
記事
著作権関連
新聞協会、生成AIに対する見解表明「記事や写真の無断利用を懸念」(朝日新聞デジタル)
https://news.yahoo.co.jp/articles/f28f3754b1d87a822f568a52dd17084ed1e2300d
生成AIの利用ガイドライン作成のための手引き | STORIA法律事務所 https://storialaw.jp/blog/9414
生成AIで作品、それって著作権侵害? 福井健策弁護士に聞く:朝日新聞デジタル https://www.asahi.com/articles/DA3S15621931.html
個人情報保護
これは違うんじゃないかと前から言っている。学習に使うのとモデルの改善に使うのとは異なる。学習に使えば入力情報が出力に反映されかねず(秘密漏示)警戒されるわけだが、そんな学習したいはずがないわけで。https://t.co/Rbg8IjbpF7
— Hiromitsu Takagi (@HiromitsuTakagi) June 19, 2023
「入力した情報は…AIモデルを訓練する学習データに使われる」 https://t.co/BGkvhnW1rJ pic.twitter.com/qXrzIiZKIu
ChatGPTで秘密情報の流出を防ぐ学習拒否設定の方法&会話履歴のダウンロード方法まとめ - GIGAZINE https://gigazine.net/news/20230426-chatgpt-manage-history-data/
ChatGPTと個人情報保護法Q&A(LLMサービスからの出力と個人情報) | STORIA法律事務所 https://storialaw.jp/blog/9410
書籍
23年の夏には専門家による書籍も出始めています。一般の人向けの説明は、ここのページで紹介したものなど、ネットに溢れているので、非専門家による「活用本」は無数に出版されてるわけですが、書籍で買う理由はなさそうです。書籍は専門家による専門的なことを知るために買うという棲み分けになっているでしょうか。23年夏の時点で、専門家周辺でも評価の高いものは以下の3冊。
『大規模言語モデルは新たな知能か ChatGPTが変えた世界 (岩波科学ライブラリー) 』
→ 入門、概要がしっかり書かれているとNLP関係、言語学関係者にも評判が高く決定版との声もあります。著者の岡野原 大輔氏はAIの研究者で起業家。
『ChatGPTの頭の中 (ハヤカワ新書 009) 』
https://www.amazon.co.jp/dp/4153400092/
著者のスティーブン・ウルフラムはイギリスの理論物理学者。翻訳の 稲葉 通将氏は電気通信大学 人工知能先端研究センター 准教授。
→翻訳物では評判がよいもの。OpenAIのサムアルトマン氏も高評価とのこと。
https://www.amazon.co.jp/dp/4153400092/
『大規模言語モデル入門』
https://www.amazon.co.jp/dp/4297136333
この本も絶対売れるぞ、と予言しようと思っていたのが無駄に(すでにソフトウェア開発・言語部門で1位、全書籍でも現在190位
専門書のリストなど
研究者向けの本やそのリストなど。
徳島大学教養教育院・教養科目群・自然と技術「AI総合演習」での参考書籍 https://www.lib.tokushima-u.ac.jp/siryou/supportnavi/main/files/ai202307.pdf
👉 日本語教育の世界でも、熱心なユーザーによる書籍が、6月末に『教師のためのChatGPTガイド: AIを活用した教育の手引き』 が、7月末に『AI時代の冒険家メソッド 大規模言語モデルを活用した自律的な第二言語習得』が自費出版で出版された模様。国際交流基金はインドなどで村上氏を講師としてAI活用のセミナーを行っているようで、村上氏をAI活用のエキスパートと考えている模様。
資料
自民党のプロジェクトチームの報告と資料
以下の報告にプロジェクトチームが集めた資料が公開されている。塩崎氏のNoteで文書が公開されている。(自民党の文書なので国で公開されてる場所は無い?)
自民党AIの進化と実装に関するプロジェクトチーム|衆議院議員 塩崎彰久(あきひさ)|note https://note.com/akihisa_shiozaki/n/n4c126c27fd3d
Noteにアップされたものなのでいつまであるかは保証がないこともあり、ダウンロード&保存したものです。重要そうなものだけ。
AI新時代のデータ資源・計算資源について・北野 宏明(ソニーコンピューターサイエンス研究所):
AI新時代のデータ資源・計算資源について 西川徹 (プリファードネットワークス ):
2_自民党aipt_robust_intelligence.pdf
追加版 23年4月にOpenAIのCEOが来日した際の資料など
自民党AIの進化と実装に関するプロジェクトチーム|衆議院議員 塩崎彰久(あきひさ)|note https://note.com/akihisa_shiozaki/n/n4c126c27fd3d?s=09
openai-ldp-public-slides-1 openai-ldp-public-slides-1.pdf
20230330_AIホワイトペーパー(案) 20230330_aiホワイトペーパー_案_.pdf
2023.03.23-ldp-final公開可能-stability-ai 2023.03.23-ldp-final公開可能-stability-ai.pdf
自治体におけるAI活用・導入ガイドブック<実証要点まとめ編>|総務省 https://www.soumu.go.jp/main_sosiki/joho_tsusin/top/local_support/ict/#aiguide
自民党AIの進化と実装に関するプロジェクトチーム|衆議院議員 塩崎彰久(あきひさ) https://note.com/akihisa_shiozaki/n/n4c126c27fd3d
総務省の見解の元になった資料
第8回デジタル社会推進会議幹事会・書面開催|デジタル庁 https://www.digital.go.jp/councils/social-promotion-executive/councils/191f444c-37fe-4c38-9909-09d9ccdb23af/
初等中等教育段階における生成AIの利用に関する暫定的なガイドライン(文科省)
23年7月4日
「初等中等教育段階における生成 AI の利用に関する暫定的なガイドライン」の作成について(通知) https://www.mext.go.jp/content/20230704-mxt_shuukyo02-000003278_003.pdf
大学などの研究
プロンプトに関する勉強会のスライド
Prompt Engineering 勉強会 / 2023.03.21 GPT-4 Prompt 報告会 - Speaker Deck https://speakerdeck.com/smiyawaki0820/2023-dot-03-dot-21-gpt-4-prompt-bao-gao-hui?slide=29
ChatGPT 人間のフィードバックから強化学習した対話AI 東京大学 https://www.slideshare.net/ShotaImai3/chatgpt-254863623/ShotaImai3/chatgpt-254863623
APA(American Psychological Association)のAIに関する見解 APA Style
大学のガイドライン
□ 「ChatGPT/生成AIへの対応を表明した国内の大学一覧」をスプレッドシートで公開しています。
https://docs.google.com/spreadsheets/d/1cDOqaIdu9JKOYuF0ThG33oixE09m210z/edit#gid=1530250804
集計結果も別シートに掲載しました📈 https://docs.google.com/spreadsheet|Pogo / gmoriki https://note.com/pogohopper8/n/nc72c63761ec4
【記事】【Excel配布】ChatGPT/生成AIへの対応を表明した国内の大学一覧|Pogo / gmoriki https://note.com/pogohopper8/n/n4b74901f859f
□ 生成系AIガイドライン - Google スプレッドシート https://docs.google.com/spreadsheets/d/1NkP3J2fXvABJdxqGrMbibQZiCtR1LC0NzqCeJEuJOek/edit#gid=0 https://twitter.com/h_okumura/status/1663713819343069184
【投稿】「留学生が多い大学、留学生比率が高い大学はガイドラインを作らない傾向」
- 日本経済大学
- 東京福祉大学
- 京都精華大学
- 日本ウェルネスススポーツ大学
- 立命館アジア太平洋大学
- 大阪観光大学
- 神奈川歯科大学
- 神戸国際大学
など留学生が多い大学が目立つ。
国や自治体などのガイドライン
横須賀市でChatGPT講習した。 横須賀職員500人以上が常用してて、GPTを月2530万トークン使ってるのすごい。 pic.twitter.com/m7tuvcYztq
— 深津 貴之 / THE GUILD / note (@fladdict) January 22, 2024
デジタル庁
ChatGPTを業務に組み込むためのハンズオン
東京都
文章生成AI利活用に関するガイドライン https://www.digitalservice.metro.tokyo.lg.jp/ict/pdf/ai_guideline.pdf
海外の例
米国政府の規制
FACT SHEET: Biden-Harris Administration Secures Voluntary Commitments from Leading Artificial Intelligence Companies to Manage the Risks Posed by AI | The White House
米国AI教育ガイドライン|りん こうたつ https://note.com/kotatsurin/n/nd3f42d795f21
UNESCO: Governments must quickly regulate Generative AI in schools | UNESCO https://www.unesco.org/en/articles/unesco-governments-must-quickly-regulate-generative-ai-schools
論文
日本語の論文はまだ少ないですが、今後増えそうです。
https://cir.nii.ac.jp/all?q=AI+%E6%97%A5%E6%9C%AC%E8%AA%9E&count=20&sortorder=0|CiNii「AI 日本語」
AIを活用して英語論文を作成する日本語話者にとっての課題とその対策 | CiNii Research https://cir.nii.ac.jp/crid/1390014813074571136
対話型生成AI を活用したTOEIC 試験対策の一手法 | CiNii Research https://cir.nii.ac.jp/crid/1050860144864250368
高校生によるChatGPTを鑑とした国語学習の省察 | CiNii Research https://cir.nii.ac.jp/crid/1520860243968995072
英語の論文は続々と…
AIチャットbotサービス「エアフレンド」を活用した授業実践 | CiNii Research https://cir.nii.ac.jp/crid/1390576513178243456
ChatGPTや大規模言語モデルは合意形成や市民共創にどう活用できるか? | CiNii Research https://cir.nii.ac.jp/crid/1390013784267861376
AI(人工知能)導入による台湾日本語教育・研究への期待 | CiNii Research https://cir.nii.ac.jp/crid/1520572359524392576
AIを活用した日本語指導等が必要な子供の困難さ理解の為の教員支援システム開発 | CiNii Research https://cir.nii.ac.jp/crid/1040566775675857920
Education in the Era of Generative Artificial Intelligence (AI): Understanding the Potential Benefits of ChatGPT in Promoting Teaching and Learning by David Baidoo-Anu, Leticia Owusu Ansah :: SSRN https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4337484
ChatGPT: Bullshit spewer or the end of traditional assessments in higher education? | Journal of Applied Learning and Teaching https://journals.sfu.ca/jalt/index.php/jalt/article/view/689
Open AI in Education, the Responsible and Ethical Use of ChatGPT Towards Lifelong Learning by David Mhlanga :: SSRN https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4354422
Teachers and Students Embrace ChatGPT for Education https://www.waltonfamilyfoundation.org/learning/teachers-and-students-embrace-chatgpt-for-education
AI and Generative AI for Research Discovery and Summarization https://arxiv.org/abs/2401.06795
Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination https://arxiv.org/pdf/2406.08818
23年夏の時点での個人的な印象と今後について
このWikiでは、あまり個人的な印象などを書くことはしませんが、AIの評価はいろいろで発展途上でもあり、書き手は「どういう見立てで切り取るのか?」という補足のために少しだけ書きます。そのうち削除される可能性が高いです。以下のタイトルをクリックすると、下に少し箇条書きが現れます。
| このWikiについて | Archive | About us |
© 2018 webjapanese.com