分析されたレイアウトとテキストオブジェクト - 百科事典

ALTO(分析レイアウトおよびテキストオブジェクト)は、EU資金で資金を提供されたプロジェクトであるMETAeによって開発されたオープンXMLスキーマです。
この標準は、デジタライズされた資料のテキストOCRとページのレイアウト情報の記述のため最初に開発されました。目標は、デジタライズされた情報に基づいて元の外観を再構成できる形式でレイアウトとテキストを記述することでした。これにより、无损画像保存操作のアプローチに似た方法が採用されます。
ALTOは、デジタライズされたオブジェクト全体の記述やALTOファイル間の参照(例:読み取り順序記述)の作成に、しばしばMetadata Encoding and Transmission Standard(METS)と組み合わせて使用されます。
この標準は2010年から議会図書館によってホストされ、同じ時期に設立された編集委員会によって維持されています。
ALTO標準の最終版(2004年6月のバージョン1.0)から、ALTOはバージョン1.4までCCS CCS Content Conversion Specialists GmbH、ハンブルクによって維持されました。

構造
ALTOファイルは、ルート<alto>要素の子供として、以下の3つの主要なセクションで構成されています:

<Description>セクションには、ALTOファイルに関するメタデータと、ファイルの作成に関する処理情報が含まれています。
<Styles>セクションには、個別の記述とともにテキストや段落のスタイルが含まれています:
<TextStyle>にはフォントの記述があります
<ParagraphStyle>には段落の記述(例:アライメント情報)があります
<Layout>セクションにはコンテンツ情報が含まれており、<Page>要素に分割されています。

ソフトウェアサポート
ABBYY FineReader
eScriptorium
Kitodo
Tesseract OCR
Transkribus

参考事項
Metadata Encoding and Transmission Standard(METS)
Dublin Core、ISOメタデータ標準
Preservation Metadata: Implementation Strategies(PREMIS)
Open Archives Initiative Protocol for Metadata Harvesting(OAI-PMH)
hOCR
PAGE(XML)

参考文献
(略)

外部リンク
議会図書館ウェブサイト上のALTO(分析レイアウトおよびテキストオブジェクト)標準
https://altoxml.github.io resp. https://github.com/altoxml ALTOxml on GitHub
CCS GmbHによるMETS/ALTOの詳細情報
CCS GmbHによるMETS ALTO Introduction Archived 2014-09-04 at the Wayback Machine
ALTOからおよびXSLT変換への変換