17 語学教師のための自然言語処理の基本

日本語教師読本シリーズ < 語学教師のための自然言語処理の基本

 

『日本語教師読本シリーズ 17 語学教師のための自然言語処理の基本』

やさしい日本語や南米の日本語学習者の調査など、日本語教育に深く関わってきた著者が、日本語教育関係者のためにはじめて書いた、自然言語処理の本。

 

お買い求めは

📱 電子書籍版 1280円(消費税込み)

Amazon(日)で買う

アメリカ | イギリス | ドイツ | フランス | スペイン | イタリア | オランダ | カナダ | ブラジル | メキシコ | インド | オーストラリア | のストアで買うことができます。



📚 印刷版 1780円(税込み)

Amazon(日)で買う

アメリカ | イギリス | ドイツ | フランス | スペイン | イタリア | オランダ | ポーランド | スウェーデン | カナダ | オーストラリア | のストアで買うことができます。

電子はもちろん、印刷版も日本国内と同じ価格、送料、配達日で購入できます。海外在住の方へのプレゼントにもどうぞ。

👉 電子書籍は専用ハードがなくても携帯やタブレット、PC上で、アマゾン提供の無料のアプリで読めます。詳しくはアマゾンのヘルプをご覧ください。

どんな本?

自然言語処理の「入門」はしないけど自然言語処理のことを知っておきたい方に向けてできるだけ易しく書きました。入門はしない方々は数学的に厳密な説明は必要ありませんので、技術書では普通に出てくる数式は本書には書かれていません。
~中略
この本は日本語教師向けのシリーズ本として出版しますので現場の日本語教師が主な想定読者ですが、その他にも教養として自然言語処理を知っておきたいと思っている方に読んでいただくと役に立つかもしれません。つまり、これから自然言語処理を作るのではなく、これらの技術を使う立場にある方々にとって知ってほしいことを書きました。(「はじめに」より)」

やさしい日本語や南米の日本語学習者の調査など、日本語教育に深く関わってきた著者が、日本語教育関係者のためにはじめて書いた、自然言語処理の本。

日本語教育関係者向けに数式無しで、人工知能、機械翻訳、Watsonと東ロボ、シンギュラリティなど話題の件を丁寧に解説。やさしい日本語を自動化する方法とその壁とはどんなものか、そして、自然言語処理の研究者は、これから日本語教育の世界でどんなことが応用可能だと考えているのかを知ることもできます。

これからAIと「協働」するために必要な基本的な知識を身につけて、新しい時代を生き抜く基礎体力をつけましょう!

  • 日本語の大きな壁、文のワカチ=形態素解析
  • ここ数年で飛躍的に進歩したと考えられている機械翻訳の秘密
  • まったく違うアプローチのニューラル機械翻訳の仕組み
  • 知っておきたいニューラル機械翻訳の弱点
  • 東ロボがあと10年は東大合格が難しいと思われる3つの理由
  • 質問を理解することと、質問文に似ている文を探して推測することは違う。
  • 「はなみのはる」の形態素解析の例。先頭から順に…
  • これから実現しそうなもの。テストの自動生成、採点、多読支援、学習データの活用
  • 将来、日本語教師は不要に?

著者紹介

山本 和英 (やまもと かずひで)

言語商会、元長岡技術科学大学准教授、元言語処理学会理事
https://www.jnlp.org/GengoHouse/

1989年 長岡工業高等専門学校機械工学科卒業
1991年 豊橋技術科学大学知識情報工学課程卒業
1996年 豊橋技術科学大学大学院工学研究科博士後期課程システム情報工学専攻修了. 博士(工学)
1996年 株式会社エイ・ティ・アール音声翻訳通信研究所客員研究員
2000年 株式会社エイ・ティ・アール音声言語通信研究所客員研究員
2001年 株式会社国際電気通信基礎技術研究所音声言語コミュニケーション研究所客員研究員
2002年 長岡技術科学大学電気電子情報工学専攻講師
2005年 長岡技術科学大学電気電子情報工学専攻助教授
2007年 長岡技術科学大学電気電子情報工学専攻准教授
2020年 言語商会代表、現在に至る

主要著書

『「日本語学」特集テーマ別ファイル(6)IT関連』(共著, 明治書院, 2005年)
『国会会議録を使った日本語研究』(共著, ひつじ書房, 2008年)
『挑戦こそが成功の鍵』(共著, 近代科学社, 2010年)
『「やさしい日本語」は何を目指すか~多文化共生社会を実現するために~』(共著, ココ出版, 2013年)
『テキスト処理の要素技術』(単著, 近代科学社, 2021年)

 

中身を覗いてみよう
ここをクリックすると目次が出てきます!
目次
👉 開く時にクリックしたところをもう一度クリックすると閉じることができます。

はじめに
技術を知ってほしい
私について

1章 言葉を処理する

1 自然言語
自然言語と形式言語
自然言語みたいなプログラミング言語
自然言語には定義がない
国語辞典の語釈
2 自然言語処理(NLP)
インターフェースとしての自然言語処理
コミュニケーション補助としての自然言語処理
3 人工知能(AI)
4 音声認識・音声合成
5 人工知能は人間を超えるか?
シンギュラリティ
一部の知能も人間以上になりつつある

2章 自然言語処理の歴史

1 自然言語処理のはじまり
2 機械翻訳ブームの終わり
3 ヨーロッパでの機械翻訳研究
4 日本での状況
5 ワープロ時代
6 インターネット(Web)時代

3章 Watsonと東ロボ

1 IBM Watson
コンピューターがチェスチャンピオンに勝つ
Jeopardy!(ジェパディ!)
質問応答
情報検索
回答の抽出とランキング
Watsonのすごいところ
Watsonが自然言語処理に与えた影響
2 東ロボ
世界史
数学
英語
国語
ロボットは東大に入れるか
3 コンピューターによる言語理解
Toronto問題
言語理解と知識

4章 形態素解析と仮名漢字変換

1 形態素解析とは
形態素と単語
形態素解析の仕事
形態素解析辞書
複合語辞書
2 形態素解析手法
最長一致法
最少分割法
コスト最小法
接続表
コスト定義
3 仮名漢字変換
形態素解析との違い
予測入力

5章 機械翻訳

1 機械翻訳手法
構文変換方式
構文変換方式の問題点
コーパス主義への転換
統計的機械翻訳
ニューラル機械翻訳
統計的翻訳とニューラル翻訳の違い
2 機械翻訳ツールの注意点
固有表現が苦手
ある程度まとまって翻訳されないことがある(訳抜け)
原文にない表現が翻訳結果に出てくることがある(湧き出し)
訳語の不統一
表現のばらつき
肯定と否定を間違うことがある

6章 コーパス

1 テキストコーパス
BCCWJ
青空文庫
livedoorニュースコーパス
Wikipedia
Webテキスト
Twitter
新聞記事コーパス
その他のコーパス
2 タグ付きコーパス
3 対訳コーパス
4 コーパスにできること
5 もう一つのコーパス

7章 日本語教育と自然言語処理

1 読解問題の自動作成
名詞・動詞句補充問題
会話文並び替え問題
高頻出語補充問題
2 誤りの自動訂正
誤り訂正の難しさ
似た漢字の誤用
格助詞の誤り
3 やさしい日本語
語彙設計とコーパスの構築
平易化実験

8章 自然言語処理の将来

1 テストの自動生成・自動採点
2 自分のレベルに応じたテキストの紹介
3 教育データの活用
4 将来に日本語教師は必要なくなるのか

 

🗨 「はじめに」より
この本は、文系の方々、あるいは一般の方々を主な対象として想定しています。この本は日本語教師向けのシリーズ本として出版しますので現場の日本語教師が主な想定読者ですが、その他にも教養として自然言語処理を知っておきたいと思っている方に読んでいただくと役に立つかもしれません。つまり、これから自然言語処理を作るのではなく、これらの技術を使う立場にある方々にとって知ってほしいことを書きました。

 

本編からちょっとだけ…

🗨 形態素解析(文を単語に分割する)の手順
例えば、辞書の単語が下記の単語集で構成されているとします。なお、説明のためあえてひらがなの単語のみにしていますが漢字の場合も同様です。

い な なく なみ の は はな はなみ はる み みの

この辞書を使って「はなみのはる」という表現を解析する場合、以下のように解析されていきます(解析された部分を太字、単語区切りを/で記します)。

はなみのはる
はなみ/のはる
はなみ/の/はる
はなみ/の/はる

まず文頭から解析を行うと、「は」「はな」「はなみ」の3単語が辞書に存在します…

🗨 格助詞の誤り
助詞の誤りを訂正するには、誤りを正しく訂正できることも必要ですが、訂正以前にそもそも文中から誤っている助詞を見つける必要があります。また、助詞誤りには助詞の選択を間違えるという種類の誤りの他に、そもそも助詞が必要な場所に助詞を入れないという欠落も起こります。私が研究に取り組んだ当時はこの欠落の問題に取り組んだ研究がなかったので、私は欠落も含めて正しく訂正あるいは補完することを目指しました。

訂正手法は言語モデルを知識として利用します。例えば、入力が下記のような文だったとします。

間違いが直す

まず、この文を形態素解析して格助詞を探します。…

 

🗨 自然言語処理の将来
まず、近い将来に実現する可能性が高いのはテスト問題の自動生成と自動採点です。漢字の読み書き、文中の単語穴埋め、類義語選択、正しい用法を選ぶ、文の組み立てなどの問題はすぐにでも実現できそうな問題で、近い将来に実現する可能性が高いと思います。実際に、いくつかの言語学習アプリではこれらの種類の問題の一部がすでに自動作成されているようです。これが実現すれば、

参考文献・資料

著者による参考文献のリストです。本編の巻末にも同じものがあります。オンラインで読めるものはURLがあります。

ここをクリックしてください

👉 開く時にクリックしたところをもう一度クリックすると閉じることができます。
*大熊 智子、石崎 俊. 認知実験に基づく概念辞書の構築と検索. 情報処理学会研究報告. NL112-18, pp.125-132, 情報処理学会, 1996. https://ci.nii.ac.jp/naid/110002934913/

*総務省 情報流通行政局地域通信振興課 自治行政局行政経営支援室. 自治体におけるAI・RPA活用促進. 2021. https://www.soumu.go.jp/main_content/000716134.pdf


ここをクリックしてください

 開く時にクリックしたところをもう一度クリックすると閉じることができます。
* ロシア軍の次なる一手は、「通信を傍受するAI」が知っているhttps://wired.jp/article/russia-ukraine-war-ai-surveillance/

*長尾 真. 機械翻訳はどこまで可能か. 岩波書店. 1986.


ここをクリックしてください

👉 開く時にクリックしたところをもう一度クリックすると閉じることができます。
IBM Watson (ワトソン)- ビジネスのためのよりスマートなAI – 日本 | IBM
https://www.ibm.com/jp-ja/watson

ロボットは東大に入れるか。Todai Robot Project https://21robot.org/

*金山 博, 武田 浩一. Watson: クイズ番組に挑戦する質問応答システム. 情報処理, Vol.52, No.7, pp.840-849, 情報処理学会. 2011.  https://ci.nii.ac.jp/naid/40018882726/

*松崎 拓也, 岩根 秀直.「ロボットは東大に入れるか」という企て:5.深い言語処理と高速な数式処理の接合による数学問題の自動解答. 情報処理, Vol.58, No.7, pp.607-608. 情報処理学会. 2017.
http://id.nii.ac.jp/1001/00182235/

*加納 隼人, 佐藤 理史, 松崎 拓也. 表層的特徴を用いたセンター試験 『国語』 評論読解問題の自動解法. 人工知能学会論文誌, Vol.32, No.1, p. C-G61_1-11, 2017. 
https://www.jstage.jst.go.jp/article/tjsai/32/1/32_C-G61/_pdf/-char/ja

*松崎 拓也, 横野 光, 宮尾 祐介, 川添 愛, 狩野 芳伸, 加納 隼人, 佐藤 理史, 東中 竜一郎, 杉山 弘晃, 磯崎 秀樹, 菊井 玄一郎, 堂坂 浩二, 平 博順, 南 泰浩.「ロボットは東大に入れるか」プロジェクト代ゼミセンター模試タスクにおけるエラーの分析. 言語処理学会年次大会自然言語処理におけるエラー分析(兼:Project Next NLP報告会)ワークショップ, 2015. https://www.jstage.jst.go.jp/article/jnlp/23/1/23_119/_pdf/-char/ja


ここをクリックしてください

👉 開く時にクリックしたところをもう一度クリックすると閉じることができます。


ここをクリックしてください

👉 開く時にクリックしたところをもう一度クリックすると閉じることができます。


ここをクリックしてください

👉 開く時にクリックしたところをもう一度クリックすると閉じることができます。
*Wikipediaの日本語コーパスの準備.  https://note.com/npaka/n/n30a0cef78f42


ここをクリックしてください

👉 開く時にクリックしたところをもう一度クリックすると閉じることができます。
*小川 耀一朗、山本 和英. 間違えやすい漢字の誤用訂正. 2017年度日本語教育学会秋季大会, pp.342-346, 2017.  
https://www.jnlp.org/cgi-priv/download.cgi?id=arc/17/17NKG-ogawa.pdf

*小川 耀一朗、山本 和英. 「間違いが直す」格助詞誤り訂正システム. 2018年度日本語教育学会秋季大会, pp.313-318, 2018. https://www.jnlp.org/cgi-priv/download.cgi?id=arc/18/18NKG-ogawa.pdf

*丸山 拓海. テキスト平易化モデルにおける可読性制御. 長岡技術科学大学修士論文. 2020.
https://www.jnlp.org/cgi-priv/download.cgi?id=arc/20/20thesis-maruyama.pdf



▷ このシリーズには編集部責任編集のオマケの日本語教師読本Wikiがあります。テーマに応じた情報を随時追加&更新しています。

タグ , , , , . ブックマークする パーマリンク.

コメントは受け付けていません。