Tests de Performance des Modèles Qwen3 avec Ollama sur Matériel Hétérogène

Le Labo SysOps.fr présente ici les résultats de tests de performance réalisés avec Ollama et les modèles Qwen3, dans le cadre d’une recherche sur l’optimisation des LLM sur du matériel hétérogène.

1. Objectif des Tests

Ces expérimentations visent à évaluer :

  • Les performances d’inférence de différents modèles Qwen3
  • L’impact des configurations Ollama sur la vitesse de génération
  • La consommation de VRAM selon les quantifications
  • Les compromis vitesse/précision/mémoire

2. Environnement Matériel

Serveur : HP ProLiant DL380 Gen9

CPU : 2x Xeon E5-2620 v4 @ 2.10GHz (16 cœurs / 32 threads)

RAM : 80 GB DDR4 (48 GB CPU1 + 32 GB CPU2)

GPU : 2x NVIDIA Tesla P40 (24 GB VRAM chacune)

Driver : 575.51.03 / CUDA 12.9

3. Résultats de Performance

Config Modèle VRAM Temps Total Eval Rate
1 Qwen3-q4_K_M (64K) 39 GB 56.85s 10.13 t/s
2 Qwen3-q4_K_M (64K) 39 GB 27.89s 21.81 t/s
3 Qwen3-q4_K_M (64K) 19 GB 26.65s 21.23 t/s
4 Qwen3-q4_K_M (64K) 39 GB 24.95s 21.95 t/s
5 Qwen3-q4_K_M (64K) 39 GB 24.41s 21.06 t/s
6 Qwen3-Q8_0 (40K) 22 GB 39.57s 15.53 t/s
7 Qwen3-Q8_0 (64K) 46 GB 54.23s 14.63 t/s
8 Qwen3-Q8_0 (64K) 46 GB 43.42s 15.76 t/s

4. Enseignements Clés

4.1. Impact de la Quantification

La quantification q4 offre des vitesses de génération significativement supérieures (21+ t/s) contre 15 t/s en Q8_0, au prix d’une légère perte de précision.

4.2. Optimisation de la VRAM

La config 3 (19 GB) démontre qu’une configuration optimale peut réduire la consommation de mémoire tout en maintenant d’excellentes performances (21.23 t/s).

4.3. Influence du Contexte

Les contextes longs (64K) augmentent la consommation de VRAM (jusqu’à 46 GB) mais permettent des traitements de documents plus complets.

5. Configuration Recommandée

Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="CUDA_VISIBLE_DEVICES=0,1"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=Q8_0"
# NE PAS définir OLLAMA_NUM_PARALLEL

Cette configuration offre le meilleur compromis vitesse/qualité/consommation pour un déploiement en production.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.