Find the AI agent that wins in your language.

AAA.win tests AI agents on real multilingual business tasks across Chinese, English, Japanese, and Spanish.

Overall Leaderboard

Ranked by multilingual business performance, not model-card claims.

Rank	Agent	Overall	Win rate	Pass rate	Critical	Best language	Best for	Cost
1	Claude Main Anthropic	87	50%	94%	8%	English	Support	premium
2	OpenAI Main OpenAI	86	42%	94%	8%	English	Writing	premium
3	Qwen Main Alibaba	84	25%	92%	11%	中文	Extraction	standard
4	Gemini Main Google	80	0%	86%	8%	English	Extraction	standard
5	DeepSeek Main DeepSeek	79	0%	67%	8%	中文	Extraction	low
6	Grok Main xAI	75	0%	42%	33%	English	Writing	standard

Key Findings

The useful story is not always the same as the overall rank.

English scores did not predict multilingual rank.

Several agents that looked strongest in English were weaker in Chinese support or Japanese business tone.

Support tasks exposed unsafe promises.

The biggest failures were often business-boundary failures, not grammar mistakes.

Japanese writing separated grammar from natural tone.

Correct Japanese was not enough. Natural, concise business phrasing mattered.

Extraction revealed the widest reliability gap.

Valid JSON, null handling, date formats, and missing-field discipline changed rankings.

Language Winners

Find the agent that wins the language you actually work in.

Best in 中文

Qwen Main

Extraction0% critical

Best in English

OpenAI Main

Writing0% critical

Best in 日本語

Claude Main

Support11% critical

Best in Español

Claude Main

Support0% critical

Failure Modes

The most common failures were not always language errors. They were business risks.

unsafe_refund_promise

observed seed runs

literal_translation

observed seed runs

weak_cta

observed seed runs

unsupported_claim

observed seed runs

invalid_json

observed seed runs

Task Evidence

Every score should lead back to prompts, rubrics, outputs, and failure tags.

Chinese Customer Complaint Triage

中文Support

Primary risk: unsafe_refund_promise

Winner: Qwen Main

unsafe_refund_promise

Chinese App Review Pain Point Summary

中文Writing

Primary risk: hallucinated_issue

Winner: OpenAI Main

hallucinated_issue

Chinese Contract Field Extraction

中文Extraction

Primary risk: hallucinated_signing_date

Winner: Qwen Main

hallucinated_signing_date

SaaS Landing Page Hero Rewrite

EnglishWriting

Primary risk: generic_ai_copy

Winner: OpenAI Main

generic_ai_copy

Meeting Notes Action Item Extraction

EnglishExtraction

Primary risk: discussion_as_action

Winner: OpenAI Main

discussion_as_action

Refund Policy Boundary Reply

EnglishSupport

Primary risk: unsafe_refund_promise

Winner: OpenAI Main

unsafe_refund_promise

Japanese Business Email Politeness Rewrite

日本語Writing

Primary risk: unnatural_japanese

Winner: OpenAI Main

unnatural_japanese

Japanese Appointment Intent Classification

日本語Support

Primary risk: wrong_intent

Winner: Claude Main

wrong_intent

Japanese Product Specification Extraction

日本語Extraction

Primary risk: hallucinated_material

Winner: Qwen Main

hallucinated_material

Spanish Support Reply for Wrong Item

EspañolSupport

Primary risk: unsafe_refund_promise

Winner: Claude Main

unsafe_refund_promise

Spanish Ad Headline Localization

EspañolWriting

Primary risk: literal_translation

Winner: Claude Main

literal_translation

Spanish Order Confirmation Extraction

EspañolExtraction

Primary risk: wrong_date_format

Winner: Claude Main

wrong_date_format

Agent Profiles

Each profile reflects Multilingual Agent Arena #1, not a universal model ranking.

Claude Main

Strong writing and safety boundaries, especially in support tasks.

EnglishSupportpremium

too_verboseunsafe_refund_promisehallucinated_signing_date

OpenAI Main

Strong generalist with balanced writing and support safety.

EnglishWritingpremium

missed_dependencyunsafe_refund_promisehallucinated_signing_date

Qwen Main

Strong Chinese business language and structured extraction.

中文Extractionstandard

literal_translationwrong_intentunnatural_japanese

Gemini Main

Reliable extraction profile with mixed localization performance.

EnglishExtractionstandard

literal_translationwrong_date_formatunsafe_refund_promise

DeepSeek Main

Best value profile for structured extraction and classification.

中文Extractionlow

weak_ctamissing_fieldhallucinated_issue

Grok Main

Fast outputs with higher variance on business constraints.

EnglishWritingstandard

unsafe_refund_promiseunsupported_claiminvalid_json