Snowflake/snowflake-arctic-embed-l-v2.0

Primitive: /encode · Encode · XLM-RoBERTa

Snowflake's Arctic-embed-l-v2.0

MultilingualLong contextDense

Overview

Hardware: — drives latency, throughput & cost

Size	568M params
Tasks	/encode
License	apache-2.0
Languages	af, ar, az, be, bg, bn, ca, ceb, cs, cy, da, de, el, en, es, et, eu, fa, fi, fr, gl, gu, he, hi, hr, ht, hu, hy, id, is, it, ja, jv, ka, kk, km, kn, ko, ky, lo, lt, lv, mk, ml, mn, mr, ms, my, ne, nl, pa, pl, pt, qu, ro, ru, si, sk, sl, so, sq, sr, sv, sw, ta, te, th, tl, tr, uk, ur, vi, yo, zh
Latency	—
Throughput	—
Cost	— /1M tok

Cost is approximate — computed from list GPU prices; your actual price depends on the provider you deploy SIE with.

Embedding

Output types	Dense
Dimensions	dense: 1,024
Max sequence length	8,192
Inputs	text

Benchmarks

CQADupstackPhysicsRetrieval

scientific retrieval en

Duplicate question retrieval from StackExchange Physics

Corpus: 38,314 Queries: 1,039

Quality

ndcg at 10 0.5022

map at 10 0.4402

mrr at 10 0.4980

Reference →

CosQA

technology retrieval en

Code search with natural language queries

Corpus: 6,267 Queries: 500

Quality

ndcg at 10 0.3556

map at 10 0.2771

mrr at 10 0.3065

Reference →

FiQA2018

finance retrieval en

Financial opinion mining and question answering

Corpus: 57,599 Queries: 648

Quality

ndcg at 10 0.4532

map at 10 0.3736

mrr at 10 0.5254

Reference →

LegalBenchConsumerContractsQA

legal retrieval en

Question answering on consumer contracts

Corpus: 153 Queries: 396

Quality

ndcg at 10 0.8079

map at 10 0.7605

mrr at 10 0.7626

Reference →

NFCorpus

medical retrieval en

Biomedical literature search from NutritionFacts.org

Corpus: 3,593 Queries: 323

Quality

ndcg at 10 0.3519

map at 10 0.1325

mrr at 10 0.5616

Reference →

SCIDOCS

scientific retrieval en

Citation prediction, document classification, and recommendation for scientific papers

Corpus: 25,656 Queries: 1,000

Quality

ndcg at 10 0.2025

map at 10 0.1201

mrr at 10 0.3434

Reference →

SciFact

scientific retrieval en

Scientific claim verification using research literature

Corpus: 5,183 Queries: 300

Quality

ndcg at 10 0.7107

map at 10 0.6644

mrr at 10 0.6774

Reference →

StackOverflowQA

technology retrieval en

Programming question answering from Stack Overflow

Corpus: 19,931 Queries: 1,994

Quality

ndcg at 10 0.8694

map at 10 0.8477

mrr at 10 0.8477

Reference →

Snowflake/snowflake-arctic-embed-l-v2.0

Overview

Embedding

Benchmarks

CQADupstackPhysicsRetrieval

CosQA

FiQA2018

LegalBenchConsumerContractsQA

NFCorpus

SCIDOCS

SciFact

StackOverflowQA

Open source inference for agents