Benchmarks für ChatGPT & Co:
Oktober 2023

Unsere Oktober-Benchmarks wurden im Vergleich zur September-Ausgabe auf vielfältige Weise verbessert. Außerdem stellen wir ein neues, vielversprechendes Modell vor: Mistral 7b.

Benchmarks Oktober 2023

☁️ - Cloud-Modelle mit proprietärer Lizenz
✅ - Open-Source-Modelle, die lokal ohne Einschränkungen ausgeführt werden können
🦙 - Lokale Modelle mit Llama2-Lizenz

  
    







  
      Model
      Code
      Crm
      Docs
      Integrate
      Marketing
      Reason
      Final 🏆
      Cost
      Speed
    

  
      GPT-4 v1-0314 ☁️
      85
      88
      95
      52
      88
      50
      76
      7.18 €
      0.71 rps
    

      GPT-4 v2-0613 ☁️
      85
      83
      95
      52
      88
      50
      75
      7.18 €
      0.75 rps
    

      GPT-3.5 v2-0613 ☁️
      62
      79
      76
      75
      81
      48
      70
      0.35 €
      0.96 rps
    

      GPT-3.5-instruct 0914 ☁️
      51
      90
      69
      60
      88
      32
      65
      0.36 €
      2.35 rps
    

      GPT-3.5 v1-0301 ☁️
      38
      75
      67
      67
      82
      37
      61
      0.36 €
      1.76 rps
    

      Llama2 70B Hermes b8🦙
      48
      76
      46
      76
      62
      29
      56
      13.10 €
      0.13 rps
    

      Mistral 7B Instruct f16 ✅
      36
      77
      61
      44
      62
      18
      50
      0.42 €
      2.63 rps
    

      Llama2 70B chat b4🦙
      13
      51
      53
      29
      64
      21
      39
      4.06 €
      0.27 rps
    

      Llama2 13B Vicuna-1.5 f16🦙
      36
      25
      27
      18
      77
      36
      36
      0.78 €
      1.39 rps
    

      Llama2 13B Hermes f16🦙
      32
      15
      25
      51
      56
      39
      36
      0.57 €
      1.93 rps
    

      Llama2 13B Hermes b8🦙
      31
      18
      23
      44
      56
      39
      35
      3.65 €
      0.30 rps
    

      Llama2 70B chat b8🦙
      1
      53
      34
      27
      71
      21
      35
      10.24 €
      0.16 rps
    

      Llama2 13B chat f16🦙
      0
      38
      15
      30
      75
      8
      27
      0.64 €
      1.71 rps
    

      Llama2 13B chat b8🦙
      0
      38
      8
      30
      75
      6
      26
      4.01 €
      0.27 rps
    

      Llama2 7B chat f16🦙
      7
      33
      23
      26
      38
      15
      24
      0.69 €
      1.58 rps
    

      Llama2 13B Puffin f16🦙
      14
      6
      0
      5
      54
      0
      13
      1.71 €
      0.64 rps
    

      Llama2 13B Puffin b8🦙
      16
      3
      0
      5
      47
      0
      12
      7.94 €
      0.14 rps
    

      Mistral 7B f16 ✅
      0
      4
      0
      25
      38
      0
      11
      0.92 €
      1.19 rps
    

      Llama2 7B f16🦙
      0
      0
      4
      2
      32
      0
      6
      1.08 €
      1.01 rps
    






  

Model	Code	Crm	Docs	Integrate	Marketing	Reason	Final 🏆	Cost	Speed
GPT-4 v1-0314 ☁️	85	88	95	52	88	50	76	7.18 €	0.71 rps
GPT-4 v2-0613 ☁️	85	83	95	52	88	50	75	7.18 €	0.75 rps
GPT-3.5 v2-0613 ☁️	62	79	76	75	81	48	70	0.35 €	0.96 rps
GPT-3.5-instruct 0914 ☁️	51	90	69	60	88	32	65	0.36 €	2.35 rps
GPT-3.5 v1-0301 ☁️	38	75	67	67	82	37	61	0.36 €	1.76 rps
Llama2 70B Hermes b8🦙	48	76	46	76	62	29	56	13.10 €	0.13 rps
Mistral 7B Instruct f16 ✅	36	77	61	44	62	18	50	0.42 €	2.63 rps
Llama2 70B chat b4🦙	13	51	53	29	64	21	39	4.06 €	0.27 rps
Llama2 13B Vicuna-1.5 f16🦙	36	25	27	18	77	36	36	0.78 €	1.39 rps
Llama2 13B Hermes f16🦙	32	15	25	51	56	39	36	0.57 €	1.93 rps
Llama2 13B Hermes b8🦙	31	18	23	44	56	39	35	3.65 €	0.30 rps
Llama2 70B chat b8🦙	1	53	34	27	71	21	35	10.24 €	0.16 rps
Llama2 13B chat f16🦙	0	38	15	30	75	8	27	0.64 €	1.71 rps
Llama2 13B chat b8🦙	0	38	8	30	75	6	26	4.01 €	0.27 rps
Llama2 7B chat f16🦙	7	33	23	26	38	15	24	0.69 €	1.58 rps
Llama2 13B Puffin f16🦙	14	6	0	5	54	0	13	1.71 €	0.64 rps
Llama2 13B Puffin b8🦙	16	3	0	5	47	0	12	7.94 €	0.14 rps
Mistral 7B f16 ✅	0	4	0	25	38	0	11	0.92 €	1.19 rps
Llama2 7B f16🦙	0	0	4	2	32	0	6	1.08 €	1.01 rps

Die Benchmark-Kategorien im Detail

Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?
Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?
Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?
Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?

Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?
Kann das Modell Code generieren und bei der Programmierung helfen?
Die geschätzten Kosten für die Ausführung der Arbeitslast. Für cloud-basierte Modelle berechnen wir die Kosten gemäß der Preisgestaltung. Für lokale Modelle schätzen wir die Kosten auf Grundlage der GPU-Anforderungen für jedes Modell, der GPU-Mietkosten, der Modellgeschwindigkeit und des operationellen Overheads.
Die Spalte "Speed" gibt die geschätzte Geschwindigkeit des Modells in Anfragen pro Sekunde an (ohne Batching). Je höher die Geschwindigkeit, desto besser.

Besonderheiten & Neuigkeiten der Oktober Benchmarks

9 Neue Benchmarks

Wir haben 9 neue Benchmarks in die Suite integriert. Diese Benchmarks konzentrieren sich auf die Bereiche "Documents", "Integration" und "Reason". Dadurch wird die Bewertung der Modellfähigkeiten präziser, und die Gesamtzahl der verschiedenen Bewertungen steigt von 85 auf 134.

Ein Beispiel hierfür sind Situationen, in denen große Sprachmodelle strukturierte Daten erstellen und verarbeiten.

In der Kategorie Integration testen wir nun die Fähigkeit von großen Sprachmodellen, Text in den Formaten CSV, TSV, JSON und YAML zu verstehen und zu manipulieren.

Ein weiteres Beispiel betrifft unsere Arbeit an Business-Assistenten und Informationssuchsystemen für Kunden. In solchen Fällen müssen große Sprachmodelle relevante Informationsstücke identifizieren, finden und bewerten. Unsere Bewertungen helfen dabei, verschiedene Aspekte dieser Fähigkeit zu messen.

Zusätzlich zu diesen neuen Bewertungen haben wir die Leistung einiger bestehender Bewertungen verbessert, indem wir Few-Shot-Beispiele und bessere Anfragen eingeführt haben. Die meisten großen Sprachmodelle reagieren darauf sehr positiv.

Mehr Guidance

Guidance ist ein Prozess, bei dem großen Sprachmodellen geholfen wird, gewünschte Texte zu generieren. Sie funktioniert, indem die Aufmerksamkeit des Modells auf bestimmte Textelemente (Tokens) gelenkt wird.

Mit zunehmender Erfahrung bei der Gewinnung besserer Ergebnisse von großen Sprachmodellen integrieren wir diese Erkenntnisse in die Benchmarks. Unsere Oktober-Version enthält bereits Anleitungen in einigen der Bewertungen und verbessert so die Leistung einiger Modelle noch weiter.

In den kommenden Monaten planen wir, noch tiefere Anleitungen für Modelle in aufgabenbezogenen Bereichen bereitzustellen.

Neues Modell mit beeindruckender Leistung: Mistral 7B

Mistral 7B ist ein neues Modell eines französischen KI-Unternehmens gleichen Namens. Obwohl es deutlich kleiner ist als die anderen Modelle, hat es die Basiskonfigurationen von Llama2 70B sowie alle Modelle mit den Größen 7B und 13B übertroffen.

Das ist wirklich beeindruckend. Es lohnt sich, in den nächsten Monaten mehr Aufmerksamkeit auf dieses Modell zu legen. Die Kosten- und Durchsatzmerkmale dieses Modells machen es noch attraktiver für lokale Implementierungen.

Ein weiteres Highlight dieses Modells ist, dass es unter der Apache-Lizenz veröffentlicht wurde, die verständlicher und weniger restriktiv ist als die Lizenz von Llama 2. Es gibt keine "Google"-Klauseln oder mögliche Verwirrungen hinsichtlich der Verwendung dieses Modells für nicht-englische Sprachen. Unsere Modellmarkierungen spiegeln diese Änderung in der Tabelle wider.