Model Catalog

Models

59 models

Browse the full range of AI models, covering text, reasoning, vision, coding, image, video, embedding and more

Qwen3.7 PlusNEWHOT

Qwen (Alibaba)Multimodal Model

OpenAIAnthropicResponses

Qwen3.7 series cost-effective Plus model, with fully upgraded visual-language capabilities on top of strong text abilities, retaining complete agent capabilities for coding, tool use, and productivity workflows. Supports multimodal interactive hybrid agents: perceiving real-world scenes, reading screens and operating GUIs, generating code based on visual references, and end-to-end navigation of mobile apps. Equivalent to snapshot qwen3.7-plus-2026-05-26.

cost-effectivemultimodalagentvision

Output (tier 1)

Qwen3.7 MaxNEWHOT

Qwen (Alibaba)Language Model

Qwen3.7 flagship model, built for the agent era with comprehensive improvements in coding, office productivity, and long-cycle autonomous execution. Supports thinking mode toggle, function calling, and web search. 1M token context window.

flagshipreasoningcodingthinking mode

Qwen3 MaxNEWHOT

Qwen (Alibaba)Language Model

Qwen3 most powerful flagship model, supports thinking mode toggle, excels in complex reasoning, code generation, and mathematics. 262K context window.

flagshipreasoningcodingthinking mode

Output (tier 1)

Qwen3.6 Max PreviewNEWHOT

Qwen (Alibaba)Language Model

qwen3.6-max-preview

Qwen3.6 most powerful preview model, designed for complex reasoning, code generation, and multi-step tool tasks, ideal for scenarios requiring stronger thinking capabilities.

flagshipreasoningpreview

Output (tier 1)

Qwen3.6 PlusNEWHOT

Qwen (Alibaba)Language Model

Qwen3.6 balanced flagship model, supports 1M context window, function calling, and built-in tools, ideal for large codebases and general production scenarios.

cost-effectivebalanced1M context

Output (tier 1)

Qwen3.5 PlusNEWHOT

Qwen (Alibaba)Language Model

Qwen3.5 enhanced model, best balance of quality, speed, and cost. Supports 1M context window, ideal for large-scale application scenarios.

cost-effectivebalanced1M context

Output (tier 1)

Qwen3.6 FlashNEW

Qwen (Alibaba)Language Model

qwen3.6-flash

Qwen3.6 flash model, ideal for simple tasks with fast speed and low cost. Supports 1M context window and context caching.

ultra-fastlow cost1M context

Output (tier 1)

Qwen3.5 FlashNEW

Qwen (Alibaba)Language Model

qwen3.5-flash

Qwen3.5 flash model, ideal for simple tasks with fast speed and low cost. Supports 1M context window and context caching.

ultra-fastlow cost1M context

Output (tier 1)

Qwen (Alibaba)Language Model

Qwen enhanced model, classic balance of quality and speed, ideal for large-scale application scenarios.

cost-effectivebalancedgeneral

Output (tier 1)

Qwen (Alibaba)Language Model

Qwen high-speed model, extremely fast response and lowest cost, ideal for latency-sensitive application scenarios.

fastlow costgeneral

Qwen (Alibaba)Language Model

Qwen long-context model, supports ultra-long context windows up to 10M tokens, ideal for document analysis and long-text understanding.

ultra-long contextdocument analysis

Qwen (Alibaba)Language Model

Qwen ultra-fast general model, 1M context window, extremely fast response and ultra-low cost, ideal for large-scale high-concurrency scenarios. Supports function calling and thinking mode.

ultra-fastlow cost1M contextgeneral

Qwen3 235B-A22BNEW

Qwen (Alibaba)Language Model

qwen3-235b-a22b

Qwen3 open-source flagship, 235B parameter MoE architecture (22B active), supports dynamic switching between thinking and non-thinking modes.

open-sourceMoEreasoningthinking mode

Qwen3.6 35B-A3BNEW

Qwen (Alibaba)Language Model

qwen3.6-35b-a3b

Qwen3.6 open-source MoE model, 35B total parameters with only 3B active, excels at agent coding, STEM, and reasoning tasks. Apache 2.0 licensed. Supports thinking mode toggle.

open-sourceMoElightweightcoding

Qwen (Alibaba)Language Model

Qwen3 open-source 32B parameter dense model, excels among medium-scale models.

open-sourcereasoningcoding

Qwen (Alibaba)Reasoning Model

OpenAIAnthropicResponses

Qwen reasoning model, trained on Qwen2.5, excels at mathematics, logical reasoning, and complex problem analysis, displaying complete chain-of-thought.

reasoningmathematicslogicchain-of-thought

Qwen (Alibaba)Multimodal Model

OpenAIAnthropicResponses

Qwen vision flagship model, supports image understanding, visual-text dialogue, document OCR, and other multimodal tasks.

visionmultimodalOCRvisual understanding

Qwen (Alibaba)Multimodal Model

OpenAIAnthropicResponses

Qwen vision enhanced model, balanced performance and cost multimodal model.

visionmultimodalcost-effective

Qwen3 VL PlusNEW

Qwen (Alibaba)Multimodal Model

qwen3-vl-plus

OpenAIAnthropicResponses

Qwen3 vision-language model, significantly improved image understanding, supports high-resolution image input. 262K context window.

visionmultimodalhigh-resolution

Output (tier 1)

Qwen (Alibaba)Multimodal Model

qwen3-vl-flash

OpenAIAnthropicResponses

Qwen3 vision flash model, fast image understanding, ideal for real-time scenarios.

visionultra-fastcost-effective

Output (tier 1)

Qwen3.5 Omni PlusNEWHOT

Qwen (Alibaba)Multimodal Model

qwen3.5-omni-plus

OpenAIAnthropicResponses

Qwen3.5 flagship omni model, supports any combination of text, image, audio, and video input with text and voice output. Up to 3 hours audio / 1 hour video input, 113 input languages, 55 voice tones, supports web search and voice cloning.

flagshipomnimultimodalaudio input

Qwen3.5 Omni FlashNEWHOT

Qwen (Alibaba)Multimodal Model

qwen3.5-omni-flash

OpenAIAnthropicResponses

Qwen3.5 lightweight omni model, supports any combination of text, image, audio, and video input with text and voice output. Up to 3 hours audio / 1 hour video input, 113 input languages, 55 voice tones, supports web search. Best cost-efficiency choice.

cost-effectiveomnimultimodalaudio input

Qwen3 Omni Flash

Qwen (Alibaba)Multimodal Model

qwen3-omni-flash

OpenAIAnthropicResponses

Qwen3 omni model, accepts text, image, audio, and video inputs with text and voice output. Supports thinking mode (text-only output in thinking mode). Ideal for short video analysis and cost-sensitive scenarios.

omnimultimodalaudio inputaudio output

Qwen3 Coder PlusNEWHOT

Qwen (Alibaba)Code Model

qwen3-coder-plus

Qwen3 exceptional code model, excels at tool calling and environment interaction, with outstanding code generation, completion, debugging, and refactoring capabilities. 1M context window.

codingcode generationtool calling1M context

Output (tier 1)

Qwen3 Coder FlashNEW

Qwen (Alibaba)Code Model

qwen3-coder-flash

Qwen3 code flash model, fast code completion and generation, ideal for IDE integration scenarios.

codingultra-fastcost-effective

Output (tier 1)

Qwen Math PlusNEW

Qwen (Alibaba)Reasoning Model

qwen-math-plus

OpenAIAnthropicResponses

Qwen math-specialized model, excels at mathematical problem solving, proofs, and computation, supports LaTeX format output.

mathematicsreasoningproblem solvingLaTeX

Qwen MT PlusNEW

Qwen (Alibaba)Specialty Model

Qwen flagship translation model, supports 92 language pairs, outstanding translation quality, ideal for professional translation scenarios.

translation92 languagesprofessional

Tongyi Intent Detect V3NEW

Qwen (Alibaba)Specialty Model

tongyi-intent-detect-v3

Qwen intent understanding model, rapidly and accurately parses user intent within milliseconds, suitable for customer service routing, intelligent dialogue distribution, and instruction parsing scenarios.

intent detectionfastcustomer service routingclassification

Text Embedding V4NEWHOT

Qwen (Alibaba)Embedding Model

text-embedding-v4

Qwen latest text embedding model, supports 100+ languages and multiple programming languages, vector dimensions selectable from 2048, 1536, 1024, 768, 512, 256, 128, 64, suitable for semantic retrieval, clustering, recommendation, and RAG.

embeddingvectorsemantic searchRAG

Text Embedding V3NEW

Qwen (Alibaba)Embedding Model

text-embedding-v3

Qwen text embedding model, converts text into high-dimensional vector representations, suitable for semantic search, clustering, and recommendation scenarios.

embeddingvectorsemantic search

Qwen3 ASR FlashNEW

Qwen (Alibaba)Audio Model

qwen3-asr-flash

Qwen3 speech recognition model, supports automatic detection and transcription in 11 languages, word-level timestamps, emotion recognition, singing recognition, and speaker diarization. Supports both real-time and non-real-time modes.

speech recognitionASRmultilingualreal-time

Qwen3 TTS Flash RealtimeNEW

Qwen (Alibaba)Audio Model

qwen3-tts-flash-realtime

Qwen3 real-time text-to-speech model, streaming synthesis via WebSocket, supports multiple languages and voice tones including Chinese and English, suitable for voice assistants and audiobooks.

text-to-speechTTSreal-timemultilingual

Wan 2.6 Text-to-ImageNEWHOT

Qwen (Alibaba)Image Generation

Latest generation text-to-image flagship model, supports mixed text-image output and image editing. Can process complex instructions, render Chinese and English text, and generate high-definition realistic images. Supports multiple resolutions and aspect ratios.

image generationtext-to-imagemixed text-imageHD realistic

Wan 2.6 Text-to-VideoNEWHOT

Qwen (Alibaba)Video Generation

Latest generation text-to-video flagship model, supports multi-shot narrative and intelligent storyboard. Can generate 2-15 second 1080P HD video, supports prompt rewriting. Generation time approximately 1-5 minutes.

video generationtext-to-videomulti-shot1080P

Wan 2.6 Image-to-VideoNEWHOT

Qwen (Alibaba)Video Generation

Image-driven video generation model, uses the input image as the first frame to generate coherent video. Supports multi-shot narrative, automatic dubbing, 720P/1080P resolution, 2-15 seconds duration. Excellent frame coherence and motion consistency.

video generationimage-to-videofirst-frame drivenmulti-shot

Wan 2.6 Image-to-Video FlashNEW

Qwen (Alibaba)Video Generation

wan2.6-i2v-flash

Fast image-to-video model, supports audio and silent video generation. Faster generation speed, ideal for latency-sensitive scenarios. Supports 720P/1080P, 2-15 seconds duration.

video generationimage-to-videofastFlash

Wan 2.6 Reference-to-VideoNEW

Qwen (Alibaba)Video Generation

Multimodal input video generation model, supports text/image/video as references. Can use characters or objects as protagonists to generate single-character or multi-character interaction videos. 2-10 seconds duration, supports intelligent storyboarding.

video generationreference-to-videorole playmultimodal

Wan 2.6 Reference-to-Video FlashNEW

Qwen (Alibaba)Video Generation

wan2.6-r2v-flash

Fast reference-to-video model, supports audio and silent output. Faster generation speed, ideal for rapid iteration scenarios. Supports 720P/1080P resolution.

video generationreference-to-videofastFlash

PixVerse V6NEWHOT

PixVerseVideo Generation

PixVerse latest flagship video generation model, supports text-to-video and image-to-video, with significantly improved visual quality and motion consistency. Supports 1-15 seconds duration, 360p/540p/720p/1080p multiple resolutions, various aspect ratios.

video generationtext-to-videoimage-to-videoflagship

HappyHorse 1.0 Text-to-VideoNEWHOT

AlibabaVideo Generation

happyhorse-1.0-t2v

Alibaba's 2026 latest AI video generation model, ranked #1 on benchmarks. Generates high-quality video from text, supports 720P/1080P, 3-15 seconds duration, various aspect ratios. Default audio included.

video generationtext-to-videohigh qualitybenchmark #1

HappyHorse 1.0 Image-to-VideoNEWHOT

AlibabaVideo Generation

happyhorse-1.0-i2v

Generates coherent video using the input image as the first frame, supports 720P/1080P, 3-15 seconds duration. Excellent frame coherence and motion consistency. Default audio included.

video generationimage-to-videofirst-frame drivenhigh quality

HappyHorse 1.0 Reference-to-VideoNEW

AlibabaVideo Generation

happyhorse-1.0-r2v

Supports 1-9 reference images input, can fuse characters/objects/scenes from images to generate video. Supports 720P/1080P, 3-15 seconds, various aspect ratios. Default audio included.

video generationreference-to-videomulti-image inputhigh quality

HappyHorse 1.0 Video EditNEW

AlibabaVideo Generation

happyhorse-1.0-video-edit

AI video editing based on input video, supports 0-5 reference images for assisted editing. Input video 3-60 seconds (truncated beyond 15s), supports 720P/1080P, can preserve original audio.

video generationvideo editingAI editingaudio preservation

DeepSeek V4 FlashNEW

DeepSeekLanguage Model

deepseek-v4-flash

DeepSeek V4 Flash high-speed model via DashScope, ideal for low-latency and high-concurrency online dialogue scenarios.

V4ultra-fasthigh concurrencycost-effective

DeepSeek V4 ProNEWHOT

DeepSeekReasoning Model

deepseek-v4-pro

OpenAIAnthropicResponses

DeepSeek V4 Pro flagship model via DashScope, designed for complex reasoning, code generation, and multi-step tasks.

V4flagshipreasoningcoding

DeepSeek V3.2NEWHOT

DeepSeekLanguage Model

deepseek-v3.2

DeepSeek latest general-purpose LLM, MoE architecture, strong bilingual Chinese-English capabilities, powerful coding abilities.

MoEcodingmultilingual

DeepSeekReasoning Model

OpenAIAnthropicResponses

DeepSeek reasoning model with outstanding performance in mathematics, coding, and logical reasoning, displaying complete chain-of-thought.

reasoningmathematicscodingchain-of-thought

DeepSeekLanguage Model

DeepSeek V3 general-purpose LLM, 671B parameter MoE architecture, excellent bilingual Chinese-English capabilities.

MoEmultilingualcoding

Claude Opus 4.7NEWHOT

AnthropicLanguage Model

claude-opus-4-7

Anthropic's most capable general-purpose model, designed for complex reasoning, agentic coding, and long-context tasks. Official pricing: $5 input / $25 output per 1M tokens.

Claudeflagshipagentvision

Claude Sonnet 4.6NEWHOT

AnthropicLanguage Model

claude-sonnet-4-6

Anthropic's balanced speed and intelligence model, ideal for production-grade dialogue, code, tool use, and long-context workflows. Official pricing: $3 input / $15 output per 1M tokens.

Claudebalancedcodingvision

Claude Haiku 4.5NEW

AnthropicLanguage Model

claude-haiku-4-5

Anthropic's fast and low-cost model with near-frontier intelligence, ideal for low-latency dialogue, classification, extraction, and batch tasks. Official pricing: $1 input / $5 output per 1M tokens.

Claudeultra-fastlow costvision

Zhipu AILanguage Model

Zhipu AI latest GLM-4.7 model with significantly improved overall capabilities and strong Chinese language understanding.

Chinese optimizedreasoninggeneral

Output (tier 1)

Zhipu AILanguage Model

Zhipu AI GLM-5 flagship model with comprehensive capability improvements, outstanding performance in reasoning, coding, and long-text tasks.

flagshipreasoningcodingChinese optimized

Output (tier 1)

Zhipu AILanguage Model

Zhipu AI GLM-5.1 enhanced flagship model, further optimized over GLM-5, stronger complex reasoning and code generation capabilities.

flagshipreasoningcodingenhanced

Output (tier 1)

Moonshot AILanguage Model

Moonshot AI Kimi K2.5 model, excels at long-text understanding and multi-turn dialogue with outstanding Chinese language capabilities.

long contextmulti-turn dialogueChinese optimized

Kimi K2.6NEWHOT

Moonshot AILanguage Model

Moonshot AI Kimi K2.6 latest flagship model with significantly improved long-text understanding and creative writing, supports longer context windows.

flagshiplong contextcreative writingChinese optimized

MiniMaxLanguage Model

MiniMax M2.1 model, outstanding performance in creative writing and multi-turn dialogue.

creative writingdialoguegeneral

MiniMax M2.5NEW

MiniMaxLanguage Model

MiniMax M2.5 enhanced model with improved reasoning and coding capabilities, more stable multi-turn dialogue.

reasoningcodingdialogue

Qwen (Alibaba)Language Model

Qwen3 open-source 8B parameter lightweight model, ideal for edge deployment and low-cost inference scenarios.

open-sourcelightweightcost-effective