江戸時代の料理本などからとった「くずし字」8万6176文字をオープンデータとして公開

1文字ずつデータとして提供

大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NII)と大学共同利用機関法人 人間文化研究機構 国文学研究資料館(国文研)は17日、江戸時代の古典籍に書かれたくずし字の1文字ずつの字形画像データや文字座標データなどからなる「日本古典籍字形データセット」をオープンデータとして公開開始した。

 

くずし字のデータの元になっているのは、江戸時代に編纂された料理本「当世料理」「万宝料理秘密箱」「膳部料理抄」「料理物語」「日用惣菜俎不時珍客即席庖丁」「料理方心得之事」「新編異国料理」「料理秘伝抄」の8冊で、1521 文字種・8万6176文字が1文字ずつの画像と文字座標データなどを1セットとして提供される。

江戸時代の寛文年間の料理本「料理秘伝抄」で使われていた文字種「し」

「日本古典籍字形データセット」は「国文学研究資料館」と「情報・システム研究機構データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター(準備室)」のサイトで公開されている。

 

データは、古典籍に書かれた文字の機械学習用データなどへの活用、くずし字解読の効率化、人間のくずし字学習などへの利用を想定している。

発表資料

URL:http://www.nii.ac.jp/news/2016/1117-1/

 

国文学研究資料館

URL:http://www.nijl.ac.jp/pages/cijproject/data_set_list.html

 

「情報・システム研究機構データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター(準備室)」

URL:http://codh.rois.ac.jp/char-shape/

2016/11/18

 

 

 

 

MdN DIのトップぺージ