Audio As Input

Agno supports audio as input to agents and teams. Take a look at the compatibility matrix to see which models support audio as input. Let’s create an agent that can understand audio input.

audio_agent.py

import base64

import requests
from agno.agent import Agent, RunOutput  # noqa
from agno.media import Audio
from agno.models.openai import OpenAIChat

# Fetch the audio file and convert it to a base64 encoded string
url = "https://openaiassets.blob.core.windows.net/$web/API/docs/audio/alloy.wav"
response = requests.get(url)
response.raise_for_status()
wav_data = response.content

agent = Agent(
    model=OpenAIChat(id="gpt-5-mini-audio-preview", modalities=["text"]),
    markdown=True,
)
agent.print_response(
    "What is in this audio?", audio=[Audio(content=wav_data, format="wav")]
)

Developer Resources

See Speech-to-Text documentation.
See Audio Input Output example.
See Audio Sentiment Analysis example.

Image Generation Tools Audio Generation Tools

⌘I

Introduction

Learn

Help

Audio As Input

Developer Resources

Introduction

Learn

Help

​Developer Resources

Developer Resources