Die besten Sprachmodelle für digitale Produkte

Die Trustbit LLM Leaderboards

LLM-Empfehlungen von Trustbits Data & AI Experten

Die monatlichen LLM Leaderboards helfen dabei das beste Large Language Model für die digitale Produktentwicklung zu finden.

Basierend auf echten Benchmark-Daten aus unseren eigenen Softwareprodukten bewerten wir jeden Monat aufs Neue die Leistungsfähigkeit verschiedener LLM-Modelle bei der Bewältigung spezifischer Herausforderungen. Wir untersuchen spezifische Kategorien wie Dokumentenverarbeitung, CRM-Integration, externe Integration, Marketingunterstützung und Codegenerierung.

Vertrauen Sie auf uns, um Ihre Projekte auf das nächste Level zu heben!

Benchmarks für Juli 2024

Dieses Monat erwarten Sie folgende Insights & Highlights:

Codestral-Mamba 7B - neue effiziente LLM-Architektur, die erstaunlich gute Ergebnisse erzielt
GPT-4o Mini - günstiges, leichtes Modell. Das beste in seiner Klasse!
Mistral Nemo 12B - anständiges downloadbares Modell in seiner Klasse, entwickelt für Quantisierung (Kompression)
Mistral Large 123B v2 - lokales Modell, das das Niveau von GPT-4 Turbo v3 und Gemini Pro 1.5 erreicht. Es wäre das beste lokale Modell, wäre da nicht Meta Llama 3.1:
Meta Llama 3.1 - eine Reihe von Modellen mit freizügiger Lizenz, die in unserem Benchmark neue Rekorde aufgestellt haben.

LLM Benchmarks Juli 2024 →

Die Benchmark-Kategorien im Detail

Diese Kategorien beschreiben die Fähigkeiten des Trustbit LLM Leaderboards

Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?
Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?
Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?
Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?
Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?
Kann das Modell Code generieren und bei der Programmierung helfen?
Die geschätzten Kosten für die Ausführung der Arbeitslast. Für cloud-basierte Modelle berechnen wir die Kosten gemäß der Preisgestaltung. Für lokale Modelle schätzen wir die Kosten auf Grundlage der GPU-Anforderungen für jedes Modell, der GPU-Mietkosten, der Modellgeschwindigkeit und des operationellen Overheads.
Die Spalte "Speed" gibt die geschätzte Geschwindigkeit des Modells in Anfragen pro Sekunde an (ohne Batching). Je höher die Geschwindigkeit, desto besser.

Neugierig, wie sich die Scores entwickelt haben? Hier finden Sie alle Links zu bisher veröffentlichten Leaderboards

Leaderboard Juni 2024 →

Leaderboard Mai 2024 →

Leaderboard April 2024 →

Leaderboard März 2024 →

Leaderboard Februar 2024 →

Leaderboard Jänner 2024 →

Leaderboard Dezember 2023 →

Leaderboard November 2023 →

Leaderboard Oktober 2023 →

Leaderboard September 2023 →

Leaderboard August 2023 →

Leaderboard Juli 2023 →

LLM PERFORMANCE DEEP DIVE

Batching- Strategien für optimale LLM Perfomance

In dieser Serie untersucht unser Innovation & Machine Learning Experte Rinat Abdullin, wie man mit Batching-Strategien die Leistung von Large Language Models (LLMs) maximiert und damit die Effizienz und Qualität in verschiedenen Anwendungen steigert.

Mehr Business Value durch den Einsatz von ChatGPT und Co.

Erfahren Sie, wie Trustbit Large Language Models in Unternehmen einsetzt, was es dabei zu beachten gibt und warum unsere Kunden in diesem Kontext stark von unseren Partnerschaften profitieren.

Mehr erfahren

Möchten Sie mehr über den Einsatz von ChatGPT und Co erfahren?

Dann freuen wir uns, von Ihnen zu hören.

christoph.hasenzagl@trustbit.tech

+43 664 88454881