BidirLM-Omni-2.5B-Embedding

by BidirLM

Bidirectional omni-modal encoder for text, images, and audio in a shared vector space

8Kdl/month

2.5Bparams

HuggingFace Run on your data

Identifiers

Model ID

BidirLM/BidirLM-Omni-2.5B-Embedding

Feature URI

mixpeek://image_extractor@v1/bidirlm_omni_25b_v1

Overview

BidirLM-Omni-2.5B-Embedding is a 2.5B parameter bidirectional embedding model that encodes text, images, and audio into a shared 2048-dimensional vector space. Based on Qwen3 with custom bidirectional attention (replacing the standard causal mask), it achieves state-of-the-art results on MTEB Multilingual V2, MIEB (image), and MAEB (audio) benchmarks simultaneously, making it one of the first models to top leaderboards across all three modalities. Supports 119+ languages with 32K context.

Architecture

Modified Qwen3-2.5B with bidirectional attention replacing causal attention for encoding tasks. Modality-specific input adapters project images (via CLIP-style patches) and audio (via mel-spectrogram frames) into the same token space as text. Mean pooling over the final hidden states produces 2048-dimensional embeddings. The bidirectional attention is critical: causal LLM attention degrades embedding quality because later tokens can't attend to earlier ones.

Mixpeek SDK Integration

import { Mixpeek } from "mixpeek";

const mx = new Mixpeek({ apiKey: "API_KEY" });

// Managed: create a collection over a bucket; Mixpeek runs this model's extractor
const collection = await mx.collections.create({
  namespace_id: "my-namespace",
  collection_name: "my-collection",
  source: { type: "bucket", bucket_ids: ["bkt_your_bucket"] },
  feature_extractor: {
    feature_extractor_name: "visual_embeddings",
    version: "v1",
    parameters: { model_id: "BidirLM/BidirLM-Omni-2.5B-Embedding" },
  },
});

Capabilities

Unified text, image, and audio embeddings in shared vector space
Cross-modal retrieval (text query → image/audio results and vice versa)
119+ language support for multilingual text embedding
32K context window for long document embedding
State-of-the-art across MTEB, MIEB, and MAEB simultaneously

Use Cases on Mixpeek

Cross-modal search across mixed media libraries

Unified embedding pipeline replacing separate text + image + audio encoders

Multilingual multimodal retrieval

Podcast/video search using audio similarity

Building shared vector spaces for agent perception across modalities

Benchmarks

Dataset	Metric	Score	Source
MTEB Multilingual V2	Mean Score	SOTA at 2.5B scale	Text embedding benchmark
MIEB	Mean Score	SOTA at 2.5B scale	Image embedding benchmark
MAEB	Mean Score	SOTA at 2.5B scale	Audio embedding benchmark