Yamada Shoji
International Research Center for Japanese Studies. Professor

Release of Nichibunken Digital Archive and Advanced Use of Databases using AI Technology

In March 2024, the International Research Centre for Japanese Studies (Nichibunken) launched the new "Nichibunken Digital Archive," an IIIF-based archive of image materials in our collection. Currently, the archive includes the contents of "Yoshida Hatsusaburō Bird's-eye View Maps," "Picture Scrolls," and "Folklore Illustrations" databases and will be expanded in the future. The presentation will introduce its functions and future development.

The presenter is researching and partially implementing machine learning and generative AI technologies for our text databases to facilitate advanced search and content understanding, as well as knowledge discovery using digital humanities methods.

As a representative example, we have implemented a machine learning technique to search for similar reports in more than 35,000 summaries contained in the "Database of Folktales of Strange Phenomena and Yōkai." We are currently using the classic TF-IDF to vectorize the summaries, but we are also testing various text embedding models that have been released in recent months.

We are also investigating the possibility of automatic translation for classic Japanese texts contained in the "Kojiruien Full Text Database" into modern Japanese using generative AI to facilitate understanding of the texts. Although the current technology lacks accuracy in translation, it can be used to convey the outline of the text, assuming it contains errors. As generative AI technology continues to advance, we can expect more accuracy from it in the future.
Finally, knowledge discovery through digital humanities is still in the experimental stage. This presentation will provide up-to-date information.

日文研デジタルアーカイブの公開とAI技術によるDBの高度利用

国際日本文化研究センター(日文研)では、所蔵画像資料をIIIF化した「日文研デジタルアーカイブ」を2024年3月に新たに公開した。現在は「吉田初三郎式鳥瞰図」「絵巻物」「風俗画像」の各データベースコンテンツを収録しており、今後拡充していく予定である。発表ではその機能と今後の展開について紹介する。

発表者は、日文研の文字データベースを対象に、機械学習や生成AIの技術を検索や内容理解の促進、さらにはデジタル人文学の手法による知識発見につなげていく研究と一部の実用化を進めている。

その代表的なものとして、「怪異・妖怪伝承データベース」に収録されている35,000件以上の怪異・妖怪事例の要約文に、機械学習の技術を用いて類似事例を検索することを実現した。現在は要約文のベクトル化には古典的なTF-IDFを用いているが、近年リリースされている各種のtext embeddingモデルの試験もつづけている。

また、「古事類苑全文データベース」に収録されている日本語古文・漢文の理解を促進するために、生成AIによる自動現代語訳の可能性を研究している。現時点での技術では訳の正確性に欠けるものの、間違いを含んでいる前提で大意を伝える程度には利用できそうである。生成AI技術の進展は日進月歩であるため、今後大いに期待できる。

最後に、デジタル人文学による知識発見については試行を重ねている段階である。発表ではup-to-dateな情報を提供する予定である。