Invoice Analyst

An intelligent invoice processing agent that extracts structured data from invoice documents (PDF, images) using vision capabilities.

What You’ll Learn

Concept	Description
Vision Extraction	Using LLM vision to understand document layouts
Structured Output	Extracting complex nested data (vendor, line items, totals)
Data Validation	Verifying extracted data for accuracy
Document Processing	Handling PDFs and images

Prerequisites

Python 3.12+
OpenAI API key
poppler (system dependency for PDF to image conversion)

Setup

Clone the repository

git clone https://github.com/agno-agi/agno.git
cd agno

Create and activate virtual environment

uv venv --python 3.12
source .venv/bin/activate

Install system dependencies

# macOS
brew install poppler

# Ubuntu/Debian
apt-get install poppler-utils

Install Python dependencies

uv pip install -r cookbook/01_showcase/01_agents/invoice_analyst/requirements.in

Set environment variables

export OPENAI_API_KEY=your-openai-key

Run the Agent

Single Invoice Extraction

Extract data from a single invoice:

python cookbook/01_showcase/01_agents/invoice_analyst/examples/extract_invoice.py path/to/invoice.pdf

Demonstrates:

Loading an invoice document
Extracting structured data
Accessing vendor, line items, and totals

Data Validation

Validate extracted invoice data:

python cookbook/01_showcase/01_agents/invoice_analyst/examples/validate_data.py

Demonstrates:

Validating line item math
Checking subtotal and total calculations
Identifying data quality issues

Batch Processing

Process multiple invoices:

python cookbook/01_showcase/01_agents/invoice_analyst/examples/batch_process.py

Agent Configuration

invoice_agent = Agent(
    name="Invoice Analyst",
    model=OpenAIResponses(id="gpt-5.2"),
    system_message=SYSTEM_MESSAGE,
    output_schema=InvoiceData,
    tools=[
        ReasoningTools(add_instructions=True),
    ],
    add_datetime_to_context=True,
    add_history_to_context=True,
    num_history_runs=5,
    enable_agentic_memory=True,
    markdown=True,
)

Parameter	Purpose
`model`	GPT-5.2 with vision capabilities
`output_schema`	Pydantic model for structured invoice data
`ReasoningTools`	Plan extraction approach and validate data

The agent uses GPT-5.2’s native vision capabilities. No additional vision tools are needed.

How It Works

Extraction Workflow

Load invoice document
Convert to image(s) if PDF
Send to Claude with vision capabilities
Extract fields using visual understanding
Parse line items table
Validate totals and calculations
Return structured data with confidence score

Output Schema

class InvoiceData(BaseModel):
    invoice_number: str
    invoice_date: date
    due_date: date | None
    vendor: Vendor
    line_items: list[LineItem]
    subtotal: Decimal
    tax_amount: Decimal | None
    total_amount: Decimal
    currency: str
    confidence_score: float
    warnings: list[str]

Validation Rules

Check	Formula
Line item math	`quantity × unit_price = amount`
Subtotal	Sum of line items ≈ subtotal
Total	`subtotal + tax - discount + shipping ≈ total`

Troubleshooting

PDF conversion fails

Ensure poppler is installed:

# macOS
brew install poppler

# Ubuntu
apt-get install poppler-utils

Low confidence on scanned invoices

Scanned documents may have poor image quality, skewed alignment, or background noise. Try improving the scan quality.

Math validation warnings

Common causes: rounding differences, hidden fees, or multi-page invoices with partial totals. Review warnings and verify manually if needed.

Get Started

Basics

Advanced

Production

Providers

Other

Additional Resources

Invoice Analyst

What You’ll Learn

Prerequisites

Setup

Run the Agent

Single Invoice Extraction

Data Validation

Batch Processing

Agent Configuration

How It Works

Extraction Workflow

Output Schema

Validation Rules

Troubleshooting

Source Code

Get Started

Basics

Advanced

Production

Providers

Other

Additional Resources

​What You’ll Learn

​Prerequisites

​Setup

​Run the Agent

​Single Invoice Extraction

​Data Validation

​Batch Processing

​Agent Configuration

​How It Works

​Extraction Workflow

​Output Schema

​Validation Rules

​Troubleshooting

​Source Code

What You’ll Learn

Prerequisites

Setup

Run the Agent

Single Invoice Extraction

Data Validation

Batch Processing

Agent Configuration

How It Works

Extraction Workflow

Output Schema

Validation Rules

Troubleshooting

Source Code