November 2023

Benchmarks für ChatGPT & Co:

Diese November-Benchmarks bewerten GPT-4 Turbo, das neueste GPT3.5 und stellt Mistral OpenChat 7B vor.

Trustbit Leaderboard November 2023

Die Trustbit-Benchmarks bewerten die Modelle in Bezug auf ihre Eignung für die digitale Produktentwicklung. Je höher die Punktezahl, desto besser.

☁️ - Cloud-Modelle mit proprietärer Lizenz
✅ - Open-Source-Modelle, die lokal ohne Einschränkungen ausgeführt werden können
🦙 - Lokale Modelle mit Llama2-Lizenz

model code crm docs integrate marketing reason final 🏆 Cost Speed
GPT-4 v1/0314 ☁️ 85 88 95 52 88 50 76 7.18 € 0.77 rps
GPT-4 Turbo v3/1106-preview ☁️ 54 75 98 52 88 62 71 2.52 € 0.66 rps
GPT-3.5 v2/0613 ☁️ 62 79 76 75 81 48 70 0.35 € 0.96 rps
GPT-3.5 v3/1106 ☁️ 56 68 71 63 78 59 66 0.24 € 2.33 rps
GPT-3.5-instruct 0914 ☁️ 51 90 69 60 88 32 65 0.36 € 2.35 rps
GPT-3.5 v1/0301 ☁️ 38 75 67 67 82 38 61 0.36 € 1.76 rps
Mistral 7B OpenChat-3.5 f16 ✅ 53 72 72 49 88 31 61 0.59 € 1.85 rps
Llama2 70B Hermes b8🦙 48 76 46 76 62 36 58 13.10 € 0.13 rps
Mistral 7B Instruct f16 ✅ 36 68 68 44 74 36 54 0.68 € 1.60 rps
Mistral 7B OpenOrca f16 ✅ 42 57 76 21 78 26 50 0.55 € 1.98 rps
Llama2 13B Hermes b8🦙 39 20 29 61 60 43 42 5.71 € 0.19 rps
Llama2 70B chat b4🦙 13 51 53 29 64 27 40 4.06 € 0.27 rps
Llama2 13B Hermes f16🦙 32 15 30 51 56 43 38 0.57 € 1.93 rps
Llama2 13B Vicuna-1.5 f16🦙 36 25 27 18 77 43 38 0.78 € 1.39 rps
Llama2 70B chat b8🦙 1 53 34 27 71 27 36 10.24 € 0.16 rps
Llama2 13B Puffin b8🦙 22 9 34 31 56 39 32 8.29 € 0.13 rps
Llama2 13B chat f16🦙 0 38 15 30 75 8 27 0.64 € 1.71 rps
Mistral 7B Zephyr-β f16 ✅ 23 34 27 44 29 4 27 0.60 € 1.81 rps
Llama2 13B chat b8🦙 0 38 8 30 75 8 26 4.01 € 0.27 rps
Llama2 7B chat f16🦙 0 33 14 27 50 20 24 0.65 € 1.67 rps
Mistral 7B f16 ✅ 8 4 20 42 52 12 23 1.05 € 1.04 rps
Llama2 13B Puffin f16🦙 14 9 9 5 54 19 18 1.71 € 0.64 rps
Llama2 7B f16🦙 0 0 4 2 28 4 6 1.13 € 0.97 rps