Feature Extraction

Video & Audio Embedding

Extract visual frames and audio transcriptions from video with 1408D multimodal and 1024D text embeddings

Video content contains visual and audio information. Without multimodal extraction, you can't search video by what you see or hear.

Video is the dominant content format. Users expect to search within videos, not just metadata.

Intelligent frame extraction, audio transcription with speaker diarization, and multimodal embeddings (1408D visual + 1024D transcription).

How It Works

Multimodal extractor decomposes video into visual frames and audio transcription, generating embeddings for both modalities.

Scene detection or fixed interval sampling

1408D multimodal embeddings per frame

Whisper transcription with timestamps

1024D E5-Large embeddings for transcriptions

Scene detection captures semantic changes. Multimodal embeddings enable cross-modal search (text query → video frame).

client.collections.create(feature_extractor={"feature_extractor_name": "multimodal_extractor", "version": "v1"})

Multimodal extractor runs in batch processing

Search multimodal embeddings