• トップ
  • リリース
  • 非定型帳票・一般文書に対応した「活字 OCR ライブラリ v.10.0」を販売開始

プレスリリース

株式会社NTTデータNJK

非定型帳票・一般文書に対応した「活字 OCR ライブラリ v.10.0」を販売開始

(DreamNews) 2023年03月28日(火)10時00分配信 DreamNews

株式会社NTTデータNJK(本社:東京都中央区、代表取締役社長:横田 武)は、国内で幅広く展開しているOCR製品の自社ブランド「メディアドライブ」において、非定型帳票・一般文書に対応した「活字 OCR ライブラリ v.10.0」を2023年3月28日(火)より販売開始いたします。

最新バージョンではAI-OCR技術による全般的な認識精度の向上に加え、特にカスレ文字や印影付き文字、背景が網掛けされた文字などの低品質文字の認識を大幅に向上しました。

また、キー&バリュー方式のフレームワークを搭載し、レイアウトが異なる非定型の帳票の認識に対応しています。前述のAI-OCRと組み合わせることでキー項目を高精度で認識し、帳票を識別することが可能です。
キー&バリュー方式による任意のOCR設定の作成に加え、標準対応帳票として、請求書に対応したプラグインを搭載しています。インボイス制度により厳格化される必須項目のチェックやデータ修正にかかる業務負担を削減します。

対応プラットフォームとして、従来のWindows版に加え、新たにCloud API版をリリース。
専用OCRサーバを用意することなく、スマートフォンやタブレットなどと連動した開発が可能となりました。

活字OCRライブラリを各種アプリケーションや業務システムに組み込むことで、社内文書や、取引先から受け取ったさまざまな書類などの紙文書を効率的に電子化し、業務改善を支援いたします。

■新機能
1.AI-OCR※1による文字認識精度向上
<低品質文字の認識精度向上>
カスレ・網掛け・半角カナ・白抜き文字・印影などの品質の悪い文字の認識精度を大幅向上。



2.非定型帳票の認識※2
(1) キー&バリュー方式のフレームワーク搭載で異なるレイアウト帳票も認識可能※3
(2)請求書に対応したプラグインを搭載



3.元原稿を再現して表示
非定型の文書から【文字領域】【表領域】【画像領域】を自動判定し、元原稿をリアルに再現



4.豊富な出力形式※4
テキスト、Unicode テキスト、Office(Word/Excel/PowerPoint)、PDF、HTML、RTF、CSVなど豊富なファイル形式での出力が可能。



5.Windows / Cloudのマルチプラットフォーム対応
従来のWindows版ライブラリに加え、新たにCloud API版をリリース。
専用OCRサーバ不要でスマートフォンなどと連動した開発が可能。

■発売日
2023年3月28日(火)

■動作環境
〇対応プラットフォーム Windows / Cloud OCR API
〇対応OS Windows 11 / 10
 Windows Server 2022 / 2019 / 2016
 ※各日本語版に対応
 ※LTSC / LTSBの対応については、別途お問い合わせください。
 ※仮想環境対応については、別途お問い合わせください。

■スペック
<Windows用ライブラリ>
【入力】
帳票サイズ    A3サイズ以下

画像形式     白黒2値・グレースケール・カラー
         ※1bit/8bit/24bitに対応(32bit画像には非対応)

ファイル形式   BMP・JPEG・PDF※5(画像のみ)
         TIFF(マルチ/シングル、非圧縮・G3・G4圧縮・LZW圧縮)、PNG
         メモリ上の画像データ(DIB形式)

画像解像度    スキャナ画像:300/400/600dpi
         カメラ画像:4,200万画素まで

【出力】
認識結果 文字コード ・日本語:Shift JIS
          ・英語:ASCII
          ・中国語(簡体字):GB2312-80
          ・中国語(繁体字):Big-5
          ・韓国語(ハングル):KSC5601
          ・マレー語、ベトナム語 :UTF-16
          ・タイ語、インドネシア語 :UTF-16

出力ファイル形式  テキスト、Unicodeテキスト、RTF、DOCX、XLSX、PPTX、CSV、
          HTML、PDF(通常・透明テキスト付き・透明テキスト付きMRC圧縮)
          JSON※6

<Cloud OCR API>
【入力】
帳票サイズ    A3サイズ以下
         ※1ファイルあたり5MB以下

画像形式     白黒2値・グレースケール・カラー
         ※1bit/8bit/24bitに対応(32bit画像には非対応)

ファイル形式   JPEG・TIFF(シングル、G4圧縮)

画像解像度    スキャナ画像:300dpiまで
         カメラ画像:4,200万画素まで

【出力】
認識結果 文字コード UTF-8(全言語共通)

出力ファイル形式   JSON 形式



■本件に関するお問い合わせ先
株式会社NTTデータNJK
○ニュースリリースについて
 企画部
 TEL: 03-5117-1900 E-mail:pr-gr@njk.co.jp
○製品について
 メディアドライブ事業部 営業部
 TEL:03-5541-9655 FAX:03-5541-9651

※1 AI-OCRはオプションとなります。ご利用の際はインターネット接続が必要です。
※2 非定型帳票OCRはオプションとなります。
※3 キー&バリュー方式で対応できない帳票フォーマットもございます。
※4 Windows用ライブラリ版に限ります。(Cloud版はJSON形式のみ)
※5 PDFは文字情報を含まないものに限ります。
※6 Windows用ライブラリ版のJSON形式出力は、非定型帳票認識時のみ利用可能です。
※  記載された会社名・商品名は各社の商標または登録商標です。
※  記載された内容は予告なく変更することがありますので予めご了承ください。
※  記載された内容は2023年3月現在のものです。

このページの先頭へ戻る