対象バージョン

1.8.0以降

概要

PDFのデータ化の時、文字間隔の広さによてテキストの認識に不備が生じる場合があります。文字の大きさに対して文字間隔が広いと、

文字 + スペース + 文字 + スペース …

と認識し正しく処理されません。このような場合に対処するため、バージョン1.8.0 から、PDFデータ化における校正機能を追加しました。本ページでは、この校正機能のON・OFFの違いについて記載します。

PDFの校正機能の切り替え方

PDFの校正機能は、

設定 → データ作成 → テキスト化の補正処理

で設定可能です。

左ペインの設定をクリックします

データ作成のテキスト化の補正処理のトグルスイッチをクリックし、ON・OFFを切り替えます。

ONの時は、文字+スペース のパターンを連続で一定数検知すると補正・校正が行われます。検知、補正・校正の対象の範囲はページとなります。検知したページに対してのみ補正・校正を行います。(同一のドキュメントであったとしても、検知していないページには補正・校正の処理は行われません。)OFFの場合は検知・未検知に関わらず補正・校正は行われません

ONとOFFの結果の違い

文字の大きさに対して文字間隔が広い場合、文字と文字の間にスペースが入ってしまいます。ここでは、補正・校正機能のONの時、OFFの時でのデータ作成の結果の違いについて記載しています。

OFFの時

ONの時

参考

文字の大きさに対する文字間隔の比によって、文字と文字の間にスペースが入る・入らないが決まります。以下には文字の大きさと文字間隔の組み合わせと、半角スペースの有無を表にまとめました。すべての環境における結果ではないため参考としてください。

文字間隔 0.8 pt文字間隔 0.9 pt文字間隔 1.0 pt文字間隔 2.0 pt
フォントサイズ 10.5 pt
フォントサイズ 14.0 pt
フォントサイズ 16.0 pt

□:スペースが入らない / ●:スペースが入る