基本概念

Momonga Search API で扱うリソースと、横断的に登場するフィールドの意味を整理します。

documents

企業公表資料を表すリソースです。v1 では主に次を扱います。

分類
edinet_filing有価証券報告書、四半期報告書など
timely_disclosure決算短信、業績予想修正、中期経営計画など
ir_material企業 IR サイト由来の決算説明資料、月次資料など。v1 では metadata-only

document_id は opaque な安定 ID です。ID の中身をパースせず、そのまま保存してください。

news

ニュース記事そのものではなく、一次ソースや信頼できる情報源を根拠に正規化した更新情報です。文書検索とは別のリソースとして扱います。

first_observed_atpublished_at

Momonga Search API では、観測時刻と公式公表時刻を分けています。

フィールド意味
first_observed_atMomonga が文書を最初に観測した時刻
published_at公式な公表・提出時刻。未確定時は null

TDNet 起源の文書では、開示後 24 時間以内に公開 API へ再配信できる情報が制限されます。そのため、24 時間以内は published_at=null のまま、IR Web から独立取得できた metadata と reference_url だけを返す場合があります。

content_status

文書本文を取得できるかどうかは content_status で判断します。

意味次のアクション
ready本文・目次を取得できます/toc または /content を呼ぶ
pending_release公開制約などにより一時的に本文を返せませんretry_after_seconds を見て再試行
external_onlyAPI では本文を配信せず、参照 URL のみ提供しますreference_url を参照

ページ画像

page_count は文書の総ページ数です。image_available=true は、visual / VLM 検証用に取得できるページ画像が 1 枚以上あることを表します。すべてのページ画像が取得できることは意味しません。

page_image_count は取得可能なページ画像数です。古い projection などで取得可能範囲が未判定の場合は null になることがあります。

取得可能なページ番号は GET /v1/documents/{document_id}/page-images を正として確認してください。GET /v1/documents/{document_id}/pages/{page_number}/image は、/page-images に含まれるページだけ JPEG を返します。