edgefirstのブログ

国内新聞社を中心としたマスメディア関連のウェブサイト巡回が趣味です。業界紙的なノリでトピックスをメモしていきます。

読売新聞社の創刊からの紙面を閲覧できるデータベース「ヨミダス歴史館」

 明治7(1874)年の創刊から現在まで135年間の記事1000万件以上が検索・閲覧できるオンラインデータベース。法人や大学・公共図書館などを主なターゲットとし、今年初めからサービスを開始しているとのこと。
読売新聞、創刊からの記事を閲覧できるオンラインデータベース-INTERNET Watch
ヨミダス歴史館 : データベース : YOMIURI ONLINE(読売新聞)
 明治以来の新聞紙面をオンラインで見られるというのはありがたい。これで縮刷版やマイクロフィルムを延々めくる作業から解放される…という近現代史研究者も多いのではないだろうか。
 この「ヨミダス歴史館」の素晴らしいのは、テキストで検索できるように見出しを手入力したり、人物名や時事用語をメタデータとして付加しているところだ。もともとマイクロフィルムとして撮影され、画像として収録されているデータをテキスト化するためにはOCRという方法があるが、英語などの表音文字とは違い表意文字である日本語のOCRは性能の向上に限界がある上*1に、旧字体や文語の文字認識や、新聞紙面特有の複雑な段組みという様々な問題があり、単純にOCRで記事をテキスト化するのはほぼ絶望的である。見出しとキーワードを付与することによって始めて利用者は日付以外の切り口で検索が可能となる。

 記事データベースは、コンピュータを利用した記事テキストのデータ化が始まった1986年以降はテキストデータとして保存されているが、それ以前は紙やマイクロフィルムなどの形式で紙面データとして保存されているため、これら過去のデータについてはすべて記事ごとに見出しとキーワードを設定。現代語への対応も考慮されており、その一例として「西郷隆盛」を紹介。現代では西郷隆盛と呼ばれているが、当時の紙面では本名の「西郷隆永」で記載されているため、どちらのキーワードもデータを付与することで検索可能になっているという。
読売新聞、創刊からの記事を閲覧できるオンラインデータベース-INTERNET Watch

 ちなみにライバルでもありANYで連合を組む朝日新聞社も下記のように来年4月をめどに追撃を表明している。

さらに『進化するデータベース』
 記事データベース「聞蔵IIビジュアル」は来年4月、収録件数が国内最大に。大学図書館・公共図書館向けに展開しているオンライン記事データベース『聞蔵(きくぞう)IIビジュアル』に、待望の明治、大正、昭和初期までの紙面イメージを追加します。2010年4月には、朝日新聞創刊以来130年分の新聞を検索することができる、国内最大の収録件数を持つオンライン新聞データベースが誕生します。
朝日新聞デジタル:有料記事検索のご案内

 いずれのサービスも個人で契約するにはハードルが高いが、最近の公共図書館や大学などでは積極的に導入されているようだ。縮刷版やマイクロフィルムをめくるのは近いうちに過去のものとなるだろう。

*1:例えば「認識率90%」であれば、単純計算で100文字中10文字が間違っていることになる