Visual Question Answering Models

Browse AI models for multimodal decomposition and recomposition pipelines: plug any model into your extractors.

365 models available

Run models on your own files, free Schedule Demo Read Documentation

Showing 25-48 of 365 models

Visual Question Answering

google/pix2struct-chartqa-base

566

transformers

View Details

Visual Question Answering

internlm/internlm-xcomposer2-4khd-7b

562

transformers

View Details

Visual Question Answering

microsoft/git-base-textvqa

554

transformers

View Details

Visual Question Answering

microsoft/git-large-vqav2

548

transformers

View Details

Visual Question Answering

mradermacher/ViGOS-7B-GGUF

528

transformers

View Details

Visual Question Answering

second-state/MiniCPM-Llama3-V-2_5-GGUF

516

View Details

Visual Question Answering

google/matcha-base

456

transformers

View Details

Visual Question Answering

TIGER-Lab/VideoScore

441

transformers

View Details

Visual Question Answering

mradermacher/MemOCR-7B-i1-GGUF

386

transformers

View Details

Visual Question Answering

introvoyz041/OpenMed-SynthVision-MedVL-AIO-GGUF

344

transformers

View Details

Visual Question Answering

openbmb/MiniCPM-V

342

206

transformers

View Details

Visual Question Answering

GeorgyGUF/INFRL-Qwen2.5-VL-72B-Preview-ggufs-fully-quantized

341

transformers

View Details

Visual Question Answering

Lin-Chen/sharegpt4video-8b

336

transformers

View Details

Visual Question Answering

mradermacher/OpenCaption-4B-VL-SFT-v1.0-i1-GGUF

307

transformers

View Details

Visual Question Answering

mradermacher/OpenCaption-2B-VL-SFT-v1.0-i1-GGUF

304

transformers

View Details

Visual Question Answering

Swicked86/phi4-mm-gguf

298

gguf

View Details

Visual Question Answering

ybelkada/blip2-opt-2.7b-fp16-sharded

253

transformers

View Details

Visual Question Answering

mradermacher/OpenCaption-4B-VL-SFT-v1.0-GGUF

253

transformers

View Details

Visual Question Answering

mradermacher/OpenCaption-2B-VL-SFT-v1.0-GGUF

248

transformers

View Details

Visual Question Answering

eulogik/TinyDoc-VLM-256M

245

transformers

View Details

Visual Question Answering

mradermacher/TreeVGR-7B-CI-i1-GGUF

240

transformers

View Details

Visual Question Answering

BoKelvin/GEMeX-VQA-Model-Simple

234

View Details

Visual Question Answering

gaianet/MiniCPM-V-2_6-GGUF

224

View Details

Visual Question Answering

DAMO-NLP-SG/VideoLLaMA2-7B

205

transformers

View Details

...

2 / 16

Connectors

Retrievers

What's new in models

Full changelog

Jun 22, 2026200+ model pages and new retrieval deep-divesExpanded the model catalog with enriched pages (architecture, benchmarks, Mixpeek SDK examples, and pipeline pairings) across embedding, vision-language, video, audio, OCR, and reranking models: plus new vendor-neutral guides on Matryoshka embeddings, reasoning rerankers, and retrieval feedback loops.