ScanSnap

AI × 図書館ハッカソン@長岡 ScanSnapを活用し蔵書データから「知能」を創る、"世界初"のAIハッカソン

digiup214-1-AIhackathon.jpg

もし、図書館の蔵書をスキャンして生成AIのデータセットを作ったら、どのように活用できるだろう?

そんなアイデアを実現するユニークな試みが新潟県長岡市で開催されました。

長岡市役所が企画した "世界初"のイベント「AI×図書館ハッカソンには、現役エンジニアほかAIに関心のある学生や社会人が参加。1,000ページ以上の蔵書をScanSnap SV600でスキャンして作成したデータから、アイデアあふれるAIを作り上げました。

2日間のハッカソンをレポートします!

※長岡市の主要政策「長岡版イノベーション」で取り組む、産学官の連携により新技術等の実証を行うオープンイノベーション事業の一貫として、未来を担うAI人材の発掘・育成を目的に開催。PFUはこの趣旨に賛同し協力しています。

目次

    紙の情報を、もっと自由に 情報整理に長けたスキャナーScanSnap

    1. 人との交流がイノベーションを生み出す〜長岡市のAI・DXの取り組み〜

    「AI×図書館ハッカソン」を企画/開催した長岡市役所の担当者、行政DX推進課の川上さんにお話を伺います。

    ――今回開催された「AI×図書館ハッカソン」ですが、長岡市のDX推進の取り組みにおける、このイベントの目的をお聞かせいただけますか。

    川上さん長岡市では「産学官が連携して新技術等を使った新しいものの実装に向けてトライアルする」オープンイノベーションという事業をすすめています。

    そのなかで取り組むべき課題としてAI人材の育成があります。今後AI(人工知能)があらゆる分野で活用されていくと思うのですが、それを使いこなせる人材、開発できる人材を育てていかなければいけません。

    現在すでにデジタル分野のエンジニアが不足しているという状況でもあるので、人材の発掘や育成の入り口、きっかけになればということで、今回のハッカソンの企画に至ったわけです。

    長岡市役所 川上さん

    少し話は逸れますが、行政事務の面でいうと、今までは定型的なものをRPAなどを使って自動化することで業務時間を削減して効率化を図ってきたんですが、これからは非定型のものについてもAIを使って自動化することにより、更に生産性を高め、多様化する市民ニーズにきめ細やかに応えられる市役所を目指していきたいと思っています。

    その点で、長岡市では積極的にChatGPTを使って非定型業務の効率化を図れないかと考えています。市職員を対象にプログラム言語のPythonの入門講座を今年度から始めたというところも長岡市の特徴的なところかもしれません。

    ――すばらしいですね。まずは職員の皆さんの業務をAIで効率化していくことからスタートされているわけですね。

    川上さん行政の内部的にはそうですが、全市的な視野で見ると、やはりAI人材を増やす取り組みが必須になってくると思います。

    長岡市としても、こういうイベント(ハッカソン)は初体験で、非常に気づきや刺激をたくさんいただけています。また今後の人材育成方法などのヒントにもなっています。

    ――こういったイベントを徐々に増やしていくことで人材が集まっていくようなコミュニティ作りにも繋げられそうですね。

    川上さんそうですね。市内にも、今回のエンジニアほどではなくても、AI・プログラミングのスキルを持っている、あるいはスキルはまだなくとも非常に関心が高い、といった人材が埋もれているかもしれません。

    そういう人たちをいかに掘り起こして、育てていくか。

    今回、長岡工業高校や長岡高専の生徒が参加してくれていますが、やはり若い人たちにはこういう機会に関心をさらに高めてもらいたいですし、若者のニーズに合わせた場と内容を提供することが、未来のAI社会を牽引する人材育成に必要なのではないかと考えています。

    今回のハッカソンから得た着想をもとに人材育成の新たな方法が見つかればと思っています。

    2. 図書館の蔵書から作るデータセットの価値〜AI × 図書館ハッカソンとは〜

    AI分野のスペシャリストとして著名な清水亮さんは、長岡市出身のプログラマーで実業家でもあります。今回のハッカソンを運営/メンターとしてサポートした清水さんは子ども時代に学校帰りのほぼ毎日を図書館で過ごしたそうです。

    清水さんが「AI×図書館ハッカソン」に込めた、自分たちでデータを作ることへの思いを伺います。

    ――「生成AIのデータセットを図書館の蔵書から作る」という構想はどのように生まれたのでしょうか?

    清水さん:自治体が生成AIの取り組みをやろうとしたときに、そのための機材が必要というのは当然ですが、ただ機材だけがあって生成AIをやっても、つまらないんです。やはりデータセットを自分たちで持たなければ意味がない。

    清水 亮さん

    僕は子どもの頃から長岡の図書館でよく過ごしていたんですが、非常に「選書」がいいんです。どんな本をどのくらい置くか、あるジャンルの中でどの本を置くべきか、という「選書」ですね。図書館というのは何でもかんでも置くわけではないので。

    先ほどもこの図書館で、面白いなぁと見ていた本があるんです。

    僕はとにかく毎月たくさん本を買っているんですけど、それだけ買って読んでいても知らなかった良書が沢山あるんですよ、長岡の図書館には特に。自分が専門でやっている分野でも、です。

    もちろん他の分野にも結構面白いものがいっぱいあります。つまり「選書」された本というのは非常に価値があるわけです。

    ※ 画像引用:https://miraie-nagaoka.jp/

    ――「選書」された図書館の蔵書なら、良質のデータ素材として活用し得ると。その蔵書のスキャンに今回ScanSnap SV600を使っていただけて大変嬉しいです。

    清水さんそもそもこういった非破壊型のスキャナーがなければ図書館の本はスキャンできないですから。

    僕は昔、AIのデータを作る専門の会社を作ったことがあって、当時もSV600を活用していたんです。というのもあって、これが何台もあればデータスキャニングとそれをAIに食わせるという2つのことが非常に効率的にかつきれいにできるだろう、というのはアイデアの最初にありましたね。

    著作権については、その問題に詳しい弁護士の先生にも相談して、どういう形でやったら完全に合法と言えるのか、というところまで長岡市側にレクチャーしてもらったうえですすめました。

    ――今回のハッカソンではデータ作成の新しい事例を作ってスタートを切るというような目的も含まれているのでしょうか。

    清水さんそうですね。いま日本で生成AIのコミュニティを盛り上げるために一番大事なのはデータセットをどう作るかなんですよ。それがオープンなもの、無料で使えますよというものだけでやっていては、いつまでたっても日本のデータセットの性能は上がらない。

    ChatGPTやGoogleのgeminiがなぜあれほど賢くなったのかというと、英語の本から沢山の情報を学習しているからなんです。逆にいえば海外製のAIに日本語の知識が少ないのは、日本語の本から学習していないから。

    普段あまり感じないかもしれませんが、日本というのは母国語で書かれた本がめちゃくちゃたくさんあるっていうすごく恵まれた国なんですよ。外国では、先進国は別として、自国語で書かれた本が少ないんです。

    そもそも絶対的な人口が違いますよね。アメリカは3億人くらいいるから、英語の本っていっぱいあるでしょうと思うんですけど、フランス人にとって英語の本はほぼ外国語なんですよね、全く文法も違うし。だから積極的に読みたいわけではない。なのでフランス人はフランス語で本を書くわけです。

    ところがフランスの人口は6,000万人~7,000万人で、日本の半分ぐらいしかいないので、そんなにたくさん本が出せるかというと、まあなかなか難しい。もちろん昔はすごくあったんだけど。ヨーロッパ全体を見ると人口はいるようでも個別で見るとそれほど多くないし、出版文化があまり発達していなかったりもする。

    要するに、似てはいるけど異なる言語で(本が)書かれているんです。たとえると本や学術論文が関西弁や津軽弁で書かれていたら、それは楽しいかもしれないけど、読みづらいと感じる人もいますよね。

    つまり日本では、少なくとも出版界においては良くも悪くも画一的な言語で統一されていて、その言語を使っている限りは読めるわけじゃないですか、誰でも。

    これは非常に大きな財産だと僕は思っていて、その最たるものが図書館の蔵書。しかもその蔵書は、ただ集めたものではなく選書されたものです。

    世の中には「本」といっても玉石混交で何でもありますが、今回のようなハッカソンでチームごとにテーマを決めて、目的に即した本を探そうとしたとき、図書館には既に良質なものが選書されているわけですから。

    そのような良質なものだけが集められてる場所からデータを拾ってきて学習させたら、おそらく非常に短期間であっても素晴らしい成果になると思ったんです。それを試してみたい。まずは長岡でやってみて、これができれば僕たちに限らず全国に広がってほしいな、ということです。

    ――なるほどなるほど。ここでの結果をもとに、また蔵書をAIに入れていくという活動が他の地域でもすすめていけるといいですよね。

    清水さんそうですね、興味がある自治体があれば。やはり自治体の協力なしには実現し得ないので。ただ日本独自のAIってそういう形でどんどん作っていけるんじゃないかなと、僕はそう考えています。

    3. テーマは「知能」。24時間で生成AIツールを作る

    こうした期待と思いをのせ、「AI×図書館ハッカソン」が総勢16名4チームでスタートしました。

    今回のユニークなルールは、図書館の蔵書から1000ページ以上スキャンし、学習またはデータセットの生成に使用すること。

    そしてテーマは「知能」。

    長岡市には縄文時代の土器として有名な「火焔(かえん)土器」が出土した遺跡があります。かつての先進的な技術を知る手がかりとなる「火焔土器」をAIになぞらえた言葉として「知能」がテーマに選ばれました。

    翌日15時には各チームの成果物をプレゼンするというスピード感。

    さっそくホワイトボードの前でアイデア出し。何を作るかのディスカッションが始まっています。

    作るものに合わせて選んだ本をScanSnap SV600で1000ページ以上スキャンします 。

    ScanSnap SV600

    ScanSnap SV600
    67,100円(税込)

    絶賛プログラミング中。チーム内で役割を分担。

    4. ハックするプロセスを楽しんだ勇者達のAI

    2日目の14時半で各チームの開発は終了。続いてハッカソンを走り切った4チームの「知能」が披露されました。

    チームA:顔の特徴や表情をもとにストーリーと挿絵を作ってくれるAI
    チームB:本の情報(目次など)からキャラクター画像を出力するAI
    チームC:難しい本の内容を絵本のように分かりやすく説明するAI
    チームD:子ども向けの文章生成AI

    審査の結果、チームCが優勝に選ばれました。

    キーワードを入れると絵本調のやさしい文章と挿絵の画像を生成してくれます。左側にテキスト、右側に挿絵を配置したGUIで、ページをめくったり文字を読み上げすることができます。

    チームCが開発した「Reading Enhancement with AI and Digital Illustrations」(READ I)プロジェクトは、子どもたちが楽しみながら様々な知識を身につけられるように設計されています。

    まず1200ページの絵本をスキャンしてテキスト化し、そのテキストでGPTツールrinnaモデルをファインチューニングすることで、難しい概念を絵本調のやさしい文章で説明するAIモデルを開発しました。

    さらに文章に合った挿絵の画像をStable Diffusionで生成し、Pythonのライブラリを使って、子どもに使いやすいGUIも開発しました。

    読書体験を広げるために具体的に使えるツールになり得る完成度の高い作品であることに加えて、優れたチームビルディングも審査員から評価されました。

    5. ハッカソン総評から

    最後に審査員の3名から今回のハッカソンについて総評がありました。

    ハッカソンは世の中のシミュレーション

    今回のハッカソンは高校生中心のチームがあったり社会人のチームがあったりと、それぞれ違ったメンバーからなっていましたが、長岡でこのような場が持てたことがよかったと思います。

    遠藤 諭さん(株式会社角川アスキー総合研究所主席研究員)

    学校の試験は横並びでやるのが前提ですが、社会に出たらそんな世界はそうありません。

    ハッカソンはそんな世の中を短時間で体験すること、あるいは起業のシミュレーションだとも言われますし、自分がやるべき仕事を見つけるためのステップだという人もいます。どの場合にしろ、新しいことに一歩を踏み出すためにやるものなんですね。

    これをきっかけに実際のプロジェクトをはじめてほしい。新しいことができるというシミュレーションを今日やれたのですからね。

    これが人類史にとって重要な転機になるかもしれない

    今回は、ほとんどの人がハッカソン初参加だったわけですが、多分一番驚いているのは市役所の方達かもしれません。こんなことができて、ちゃんと成果のようなものが公表できて、何よりみんな結構ひどい目にあった感じなのに全員が何かスッキリした顔をしていて。それは驚きですよね。

    清水 亮さん(AI/ストラテジースペシャリスト)

    一番大事なことは、今回が「世界で初の図書館を使ったAIのハッカソン」だということ。

    これは実は人類史にとって非常に重要な転機になる可能性があると僕は思っています。なぜならデータが特殊でユニークだから。このハッカソンをやったことの意味を、いずれ必ず理解できるときが来るでしょう。

    この長岡でまた数多くのハッカソンを開催できることを、そして多くのAIエンジニアやデータクリエーターたちがこの地に根付いてくれることを願っています。

    長岡をAI開発の拠点・AI活用の街に

    長岡市は、「火焔土器」に象徴される4500年前からの縄文中期の文化と、江戸時代末期の米百俵の精神性から、アイデンティティーを形成してきました。

    「火焔土器」の用途やその文様については、さまざまな議論がありますが、こうした土器が長岡に暮らしていた縄文人の「知能」に影響を及ぼし、単なる煮炊きの道具としてだけではなく、何か人知を超えたものとしての表現を加え、それが様式にも反映されたのではないかと、私自身は思っていました。

    磯田 達伸 長岡市 市長

    このような素晴らしいテーマに取り組んでいただいたことで、長岡の誇りというものが喚起されたと感じ、火焔土器を生んだ長岡を本当の意味で人工知能(AI)を一歩、世の中に先んじて使っていく街にしていきたいという思いを新たにしました。みなさま、ありがとうございました。

    「AI×図書館ハッカソン@長岡」では、テキスト、画像、音声の融合によって新しい読書体験のアイデアが生まれました。

    スキャナーによる蔵書のデジタル化が、AI技術によって真に良質な知識を備えた新しい「知能」の糧となり、やがて未来を担う子どもたちの心と知恵を育んでくれる日がくることを願ってやみません。

    ※ 画像引用: https://miraie-nagaoka.jp/nadec-feature/4423/

    ※著作権の対象となっている新聞、雑誌、書籍等の著作物は、個人的または家庭内、その他これらに準ずる限られた範囲内で使用することを目的とする場合を除き、権利者に無断でスキャンすることは法律で禁じられています。スキャンして取り込んだデータはユーザーの責任において、著作権法上認められる範囲内でご使用ください。
    ScanSnap SV600

    ScanSnap SV600

    厚みのある本や雑誌、新聞などの電子化に最適な非接触スキャナー。原稿を均一に読み取るVIテクノロジーやブック補正機能により、A3サイズまでしっかりクリアに読み取れます。

    この記事を書いた人

    おすすめ記事

    ScanSnapのOCR機能で「点訳」を大幅に効率化

    ScanSnap

    ScanSnapのOCR機能で「点訳」を大幅に効率化

    出版物や書類などの文章を点字に翻訳する「点訳」の分野で、ScanSnapが新しい可能性を開きつつあります。OCR機能によって「検索可能なPDF」を生成してテキストデータを抽出することにより、点訳に要す

    digiup47-1.jpg

    ScanSnap

    歴史的な文化や物語を後世に伝える、デジタルライブラリーにScanSnapが活躍

    オーストラリア・カルア地方に根付く文化や物語の保存に、ScanSnapが活躍しています。 カルアに住む人々の一定数はオーストラリアの先住民族を先祖に持っているのですが、Bawurra財団がその地域にあ

    digiup48-1.jpg

    ScanSnap

    スキャナーなどICTの導入で幼児教育の充実と校務負担の軽減を両立した武蔵野東学園

    「学校法人武蔵野東学園」は、健常児(定型発達児)と自閉症児の「混合教育」と「生活療法」によって国内外で高い評価を得ている私立学校です。東京都下に二つの幼稚園、小学校、中学校、高等専修学校、教育センター

    digiup144-1.jpg

    ScanSnap

    市制30周年の未来に向けて、かほく市史編さん事業がスタート スキャナーの活用で古文書のデジタル化を効率化!

    時代が経つにつれて徐々に遠ざかっていく古い歴史。生まれ育った市の歴史を知りたい、そして後世に残したいという想いをもっている方も多いのではないでしょうか。 石川県かほく市史編さん室では、既存の文化財や資