市民協働で裾野市史をオープンデータ化!

裾野市公式WEBサイト|裾野市史のPDFデータ公開

これまで、既に裾野市史のPDFは市のWEBサイトで公開されていましたが、OCR化(透明テキストの埋め込み)がされておらず文字検索が出来ない状態でした。また、ライセンス(CC-BY)の宣言も無いため、WEBサイトのポリシーに準拠するとすればオープンでの利用が難しいという課題がありました。

他方、私たちCode for SUSONOは昨年”COG2018”で広報紙「広報すその」のオープンデータ化に取り組んだところですが、同じ頃、裾野市史の製本版の無料配布が始まっていたことから、せっかくなのでオープンデータとすることが出来ないかと考え、市役所との協働に名乗りを上げました。このたび、2019年11月25日から、OCR化した裾野市史の前ページを裾野市の公式のオープンデータとして公開されることとなりました。

作業手順

  1. 裾野市生涯学習課から裁断済の裾野市史を借りる
  2. スキャンする
  3. OCR化処理する

以上

利用したスキャナはドキュメントスキャナの名機SCANSNAP S1500です。10年近く前の機種ですが、十分にその機能を果たしてくれます。
スキャンにかかった時間は1巻当たり30分〜1時間程度・・・のべで言うと1日まるまるかかった感じです。その後OCR化をバッチ処理しました。

全9巻、1,000ページ近くある巻もあり、改めて市史編纂を進めた皆さんの功績に感謝するとともに、活用してナンボなので、Wikipedia Town等で出典資料としてゴリゴリ使い倒していきたいところです。

裾野市史を出典としているWikipedia記事

Wikipedia|旧植松家住宅

追記 補足情報

オープンデータとして開放された裾野市史ですが、第三者の権利の取り扱いが及ぶ部分については対象外とのことです。すべてのデータがオープンデータになることが望ましいとは思いますが、研究者による諸説ある論述や図画、写真、思想や信仰、全世界への公開の善し悪しなど、多岐にわたる確認対象があり、センシティブで取り扱いが難しいものも含まれます。

一方で、Wikipedia Townの取り組みを進める上で、文字検索ができて、どこが出典であるかを確認出来るインデックス的な扱いができること自体が非常に大きな一歩であるとおもいます。

既刊の広報紙(過去の広報紙)についても同様の取り扱いであることが追加で明示されています。権利関係の取り扱いは慎重に行う必要があると言うことですね。