Ein Launch Release von OpenAI – GPT-4o: Anwendungsfälle, Funktionsweise und Zugang

Ein Launch Release von OpenAI – GPT-4o: Anwendungsfälle, Funktionsweise und Zugang

OpenAI hat am Montag sein neuestes großes Sprachmodell GPT-4o vorgestellt und damit den Fortschritt gegenüber seinem Vorgänger GPT-4 Turbo markiert. Entdecken Sie in den folgenden Abschnitten seine Funktionen, Effizienz und potenziellen Anwendungen.

Was ist OpenAI’s GPT-4o?

GPT-4o ist das neueste große Sprachmodell von OpenAI. Das „o“ im Namen steht für „omni“, abgeleitet vom lateinischen „jeder“ oder „alles“, und weist auf seine Fähigkeit hin, Eingabeaufforderungen zu verarbeiten, die eine Mischung aus Text, Audio, Bildern und Videos enthalten. Früher wurden in der ChatGPT-Oberfläche separate Modelle für verschiedene Inhaltstypen eingesetzt.

Beispielsweise wurde bei Sprachmodus-Interaktionen mit ChatGPT die Sprache mit Whisper in Text umgewandelt, eine Textantwort mit GPT-4 Turbo formuliert und der Antworttext dann mit TTS wieder in Sprache konvertiert.

Ebenso erforderte die Integration von Bildern in ChatGPT-Interaktionen eine Kombination aus GPT-4 Turbo und DALL-E 3. Diese Funktionen in einem einzigen Modell für verschiedene Inhaltsformate zu vereinen, bietet Potenzial für schnellere Verarbeitung, verbesserte Ergebnisqualität, eine schlankere Oberfläche und die Erforschung neuartiger Anwendungsfälle.

Was unterscheidet GPT-4o von GPT-4 Turbo?

Durch die Strategie eines All-in-One-Modells überwindet GPT-4o verschiedene Einschränkungen, die mit den bisherigen Sprachinteraktionsfunktionen verbunden waren.

1. Stimmton wird jetzt berücksichtigt, was emotionale Reaktionen ermöglicht

Im vorherigen OpenAI-System, das eine sequenzielle Kombination aus Whisper, GPT-4 Turbo und TTS umfasste, hatte das Reasoning-Engine GPT-4 nur Zugriff auf die transkribierten gesprochenen Wörter. Dieser Ansatz führte zum Verlust kritischer Elemente wie Stimmton, Hintergrundgeräuschen und Unterschieden zwischen mehreren Sprechern. Folglich war GPT-4 Turbo nur eingeschränkt in der Lage, Antworten mit verschiedenen Emotionen oder Sprachstilen zu generieren.

Mit einem einheitlichen Modell, das sowohl Text als auch Audio verarbeiten kann, können diese wertvollen Audioinformationen nun genutzt werden, um qualitativ hochwertigere Antworten mit einer größeren Bandbreite an Sprechstilen zu liefern.

Im folgenden Video von OpenAI zeigt GPT-4o seine Fähigkeit, sarkastische Ausgaben zu generieren.

2. Geringere Latenz ermöglicht Echtzeit-Gespräche

Die bisherige Drei-Modell-Pipeline führte zu einer geringen Verzögerung („Latenz“) zwischen der Interaktion mit ChatGPT und dem Erhalt einer Antwort.

OpenAI gab bekannt, dass die durchschnittliche Latenz für den Sprachmodus bei GPT-3.5 2,8 Sekunden und bei GPT-4 5,4 Sekunden beträgt. Im Gegensatz dazu beträgt die durchschnittliche Latenz für GPT-4o 0,32 Sekunden, was es neunmal schneller macht als GPT-3.5 und 17-mal schneller als GPT-4.

Diese reduzierte Latenz nähert sich der durchschnittlichen menschlichen Reaktionszeit von 0,21 Sekunden an und ist besonders wichtig für Gesprächsszenarien, in denen häufige Wechsel zwischen Mensch und KI stattfinden und sich Verzögerungen zwischen den Antworten summieren.

Diese Funktionalität erinnert an Googles Einführung von Instant, der automatischen Vervollständigung von Suchanfragen, im Jahr 2010. Obwohl die Suche normalerweise nicht viel Zeit in Anspruch nimmt, verbessert das Sparen einiger Sekunden bei jeder Nutzung das gesamte Produkterlebnis.

Ein vielversprechender Anwendungsfall, der durch die reduzierte Latenz von GPT-4o machbarer wird, ist die Echtzeit-Übersetzung von Sprache. OpenAI veranschaulichte ein Szenario, in dem zwei Kollegen, einer Englisch- und der andere Spanisch sprechend, miteinander kommunizieren, während GPT-4o die sofortige Übersetzung ihres Gesprächs ermöglicht.

https://youtu.be/WzUnEfiIqP4?si=dnnqaNxT4ncX7cfJ

3. Integriertes Sehen ermöglicht Beschreibungen eines Kamera-Feeds

Neben der Integration von Sprach- und Textfähigkeiten integriert GPT-4o auch Funktionen für Bilder und Videos. Das bedeutet, dass es bei Zugriff auf einen Computerbildschirm den Inhalt auf dem Bildschirm beschreiben, Fragen zu angezeigten Bildern beantworten oder sogar als unterstützender Begleiter bei Ihren Aufgaben fungieren kann.

In einem von OpenAI veröffentlichten Video mit Sal Khan von der Khan Academy hilft GPT-4o bei den Mathe-Hausaufgaben von Sal’s Sohn.

https://youtu.be/_nSmkyDNulk?si=sFvBOgk9hznhqf4f

Über die Bildschirminteraktion hinaus kann GPT-4o, wenn Sie ihm Zugriff auf eine Kamera gewähren, z. B. auf Ihrem Smartphone, seine visuelle Umgebung beschreiben.

In einer umfassenden Demonstration von OpenAI werden all diese Fähigkeiten kombiniert. Zwei Smartphones mit GPT-4o führen ein Gespräch. Ein GPT hat Zugriff auf die Smartphone-Kameras und beschreibt seine visuellen Beobachtungen einem anderen GPT ohne visuelle Fähigkeiten.

Das Ergebnis ist ein Drei-Wege-Gespräch zwischen einem Menschen und zwei KIs. Das Video enthält auch einen Abschnitt, in dem die KIs singen, eine Fähigkeit, die mit früheren Modellen nicht erreichbar war.

https://youtu.be/MirzFk_DSiI?si=Dv7HoVcNliXD3lJg

4. Bessere Tokenisierung für nicht-römische Alphabete bietet mehr Geschwindigkeit und ein besseres Preis-Leistungs-Verhältnis

Ein entscheidender Schritt im Arbeitsablauf großer Sprachmodelle (LLMs) ist die Umwandlung von Eingabeaufforderungstext in Token, die Einheiten von Text sind, die das Modell verstehen kann.

Im Englischen entspricht ein Token normalerweise einem einzelnen Wort oder Satzzeichen, obwohl einige Wörter in mehrere Token aufgeteilt werden können. Im Durchschnitt werden etwa drei englische Wörter durch ungefähr vier Token dargestellt.

Die Reduzierung der Anzahl der Token, die zur Darstellung von Sprache im Modell erforderlich sind, führt zu weniger Rechenoperationen und schnellerer Textgenerierung.

Da OpenAI seinen API-Benutzern die Kosten basierend auf der Anzahl der eingegebenen oder ausgegebenen Token berechnet, bedeuten weniger Token niedrigere Kosten für API-Benutzer.

GPT-4o verfügt über ein verbessertes Tokenisierungsmodell, das weniger Token pro Text benötigt. Diese Verbesserung ist besonders bemerkenswert bei Sprachen, die nicht das römische Alphabet verwenden.

Beispielsweise haben indische Sprachen wie Hindi, Marathi, Tamil, Telugu und Gujarati Reduzierungen der Token um das 2,9- bis 4,4-fache erfahren. Arabisch hat eine Token-Reduzierung um das 2-fache erfahren, während ostasiatische Sprachen wie Chinesisch, Japanisch, Koreanisch und Vietnamesisch Token-Reduzierungen um das 1,4- bis 1,7-fache erfahren haben.

5. Ausrollen auf den kostenlosen Plan

Die aktuelle Preisstruktur von OpenAI für ChatGPT erfordert, dass Benutzer für den Zugriff auf das Spitzenmodell zahlen: GPT-4 Turbo war bisher exklusiv auf den kostenpflichtigen Plänen Plus und Enterprise verfügbar.

Dies ändert sich jedoch, da OpenAI versprochen hat, GPT-4o auch im kostenlosen Plan anzubieten. Plus-Benutzer erhalten das Fünffache des Nachrichten-Kontingents im Vergleich zu Benutzern im kostenlosen Plan.

Die Bereitstellung erfolgt schrittweise, beginnend mit Red-Team-Mitgliedern (Testern, die Schwachstellen des Modells identifizieren sollen), die sofortigen Zugriff erhalten, gefolgt von einem breiteren Benutzerzugang, der im Laufe der Zeit ausgerollt wird.

6. Einführung der ChatGPT-Desktop-App

Obwohl nicht speziell an GPT-4o gebunden, hat OpenAI auch die ChatGPT-Desktopanwendung eingeführt. Angesichts der zuvor besprochenen Verbesserungen bei Latenz und Multimodalität sowie der Einführung der App ist klar, dass sich die Interaktionsdynamik mit ChatGPT verändern wird. Beispielsweise zeigte OpenAI eine Demonstration eines erweiterten Codierungs-Workflows unter Verwendung von Sprache und der ChatGPT-Desktop-App. Scrollen Sie im Abschnitt „Anwendungsfälle“ nach unten, um dieses Beispiel in Aktion zu sehen!

Wie funktioniert GPT-4o?

Zahlreiche Inhaltstypen, ein neuronales Netzwerk

Details zur Funktionsweise von GPT-4o sind begrenzt. Die einzige Einsicht, die OpenAI in seiner Ankündigung gegeben hat, ist, dass GPT-4o ein einheitliches neuronales Netzwerk ist, das auf Text-, Bild- und Audioeingaben trainiert wurde.

Dieser neuartige Ansatz unterscheidet sich von der bisherigen Methode, separate Modelle zu verwenden, die auf unterschiedlichen Datentypen trainiert wurden.

GPT-4o ist jedoch nicht das erste Modell, das einen multimodalen Ansatz verfolgt. Im Jahr 2022 stellte TenCent Lab SkillNet vor, ein Modell, das LLM-Transformer-Funktionen mit Computer-Vision-Techniken kombiniert, um die Erkennung chinesischer Schriftzeichen zu verbessern.

Ebenso entstand 2023 aus einer Zusammenarbeit der ETH Zürich, des MIT und der Stanford University WhisBERT, eine Variante der BERT-Reihe großer Sprachmodelle. Obwohl nicht bahnbrechend, zeichnet sich GPT-4o durch seine bemerkenswerte Ambition und Leistungsfähigkeit im Vergleich zu diesen früheren Bemühungen aus.

Ist GPT-4o eine radikale Änderung gegenüber GPT-4 Turbo?

Das Ausmaß der Änderungen an der Architektur von GPT-4o im Vergleich zu GPT-4 Turbo scheint interpretationsabhängig zu sein, je nachdem, ob man die Ingenieurs- oder Marketingteams von OpenAI konsultiert. Im April tauchte ein Bot namens „im-also-a-good-gpt2-chatbot“ auf LMSYS’s Chatbot Arena auf, einer Rangliste der besten generativen KIs. Diese rätselhafte KI wurde nun als GPT-4o enthüllt.

Die Aufnahme von „gpt2“ in den Namen ist bedeutsam. Es unterscheidet GPT-4o von GPT-2, einem Vorgänger sowohl von GPT-3.5 als auch von GPT-4. Das Suffix „2“ wurde weithin als Hinweis auf eine völlig neue Architektur innerhalb der GPT-Modellreihe interpretiert.

Anscheinend betrachten Einzelpersonen in den Forschungs- oder Ingenieursteams von OpenAI die Zusammenführung von Text-, Bild- und Audio-Inhaltstypen in einem einzigen Modell als eine ausreichend signifikante Änderung, um die erste Versionsnummererhöhung seit sechs Jahren zu rechtfertigen.

Umgekehrt hat das Marketingteam eine relativ zurückhaltende Namensgebung gewählt und die Konvention „GPT-4“ beibehalten.

GPT-4o Leistung im Vergleich zu anderen Modellen

OpenAI veröffentlichte Benchmark-Zahlen, die GPT-4o mit mehreren anderen Spitzenmodellen vergleichen:

  1. GPT-4 Turbo
  2. GPT-4 (ursprüngliche Veröffentlichung)
  3. Claude 3 Opus
  4. Gemini Pro 1.5
  5. Gemini Ultra 1.0
  6. Llama 3 400B

Von diesen sind nur drei Modelle für einen Vergleich relevant: GPT-4 Turbo, Claude 3 Opus und Gemini Pro 1.5. Diese Modelle haben in den letzten Monaten um den Spitzenplatz auf der LMSYS Chatbot Arena Rangliste gekämpft.

Obwohl Llama 3 400B in Zukunft ein Konkurrent werden könnte, befindet es sich noch in der Entwicklung. Daher konzentrieren sich die hier präsentierten Benchmark-Ergebnisse ausschließlich auf diese drei Modelle und GPT-4o.

Sechs Benchmarks wurden zur Bewertung verwendet:

  1. Massive Multitask Language Understanding (MMLU): Umfasst Aufgaben aus den Bereichen Grundschulmathematik, US-Geschichte, Informatik, Jura und mehr. Modelle müssen umfangreiches Weltwissen und Problemlösungsfähigkeiten besitzen, um bei diesem Test hohe Genauigkeit zu erzielen.
  2. Graduate-Level Google-Proof Q&A (GPQA): Enthält Multiple-Choice-Fragen, die von Fachexperten aus den Bereichen Biologie, Physik und Chemie erstellt wurden. Die Fragen sind von hoher Qualität und extrem schwierig, wobei Experten, die einen PhD in den entsprechenden Bereichen besitzen oder anstreben, eine Genauigkeit von 74% erreichen.
  3. MATH: Beinhaltet Mathematikaufgaben der Mittel- und Oberstufe.
  4. HumanEval: Bewertet die funktionale Korrektheit von Computercode, verwendet zur Bewertung der Codegenerierung.
  5. Multilingual Grade School Math (MSGM): Besteht aus Mathematikaufgaben der Grundschule, die in zehn Sprachen übersetzt wurden, einschließlich unterrepräsentierter Sprachen wie Bengali und Swahili.
  6. Discrete Reasoning Over Paragraphs (DROP): Konzentriert sich auf Fragen, die das Verständnis ganzer Absätze erfordern und Aufgaben wie Addition, Zählen oder Sortieren von Werten umfassen, die über mehrere Sätze verteilt sind.

Leistung von GPT-4o, GPT-4 Turbo, Gemini Pro 1.5 und Claude 3 Opus gegenüber sechs LLM-Benchmarks. Die Punktzahlen für jeden Benchmark reichen von 0 bis 100. Neu erstellt aus Daten von OpenAI. Für Gemini Pro 1.5 wurden keine Daten für den GPQA-Benchmark bereitgestellt.

GPT-4o übertrifft andere Modelle in vier Benchmarks, wird jedoch von Claude 3 Opus im MSGM-Benchmark und von GPT-4 Turbo im DROP-Benchmark übertroffen. Trotz dieser spezifischen Ergebnisse ist die Gesamtleistung von GPT-4o beeindruckend und deutet auf Potenzial für den neuen multimodalen Trainingsansatz hin.

Bei genauerer Betrachtung der GPT-4o-Zahlen im Vergleich zu GPT-4 Turbo sind die Leistungssteigerungen relativ bescheiden, mit nur wenigen Prozentpunkten Unterschied. Dies zeigt zwar bemerkenswerte Fortschritte innerhalb eines Jahres, bleibt jedoch weit hinter den dramatischen Leistungssprüngen von GPT-1 zu GPT-2 oder GPT-2 zu GPT-3 zurück.

Es zeichnet sich ab, dass eine Steigerung der Textlogik um 10% pro Jahr der neue Standard werden könnte. Die einfacheren Herausforderungen wurden gemeistert, was bedeutende Fortschritte in der Textlogik immer schwieriger macht.

Diese LLM-Benchmarks erfassen jedoch nicht vollständig die Leistung von KI bei multimodalen Problemen. Das Konzept des multimodalen Trainings ist noch relativ neu, und es fehlt an effektiven Methoden zur Messung der Kompetenz eines Modells in Text, Audio und Bild.

Insgesamt ist die Leistung von GPT-4o beeindruckend und zeigt Potenzial für den innovativen Ansatz des multimodalen Trainings.

GPT-4o Anwendungsfälle

1. GPT-4o für Datenanalyse und Codierungsaufgaben

Aktuelle GPT-Modelle und ihre Ableger wie GitHub Copilot sind bereits in der Lage, Code-Unterstützung zu bieten, einschließlich Code-Schreiben, Fehlererklärung und Fehlerbehebung. Die multimodalen Fähigkeiten von GPT-4o eröffnen interessante Möglichkeiten.

In einem Werbevideo mit OpenAI CTO Mira Murati demonstrierten zwei OpenAI-Forscher, Mark Chen und Barret Zoph, die Verwendung von GPT-4o zur Interaktion mit Python-Code.

Der Code wird GPT als Text präsentiert, und die Sprachinteraktionsfunktion wird genutzt, um GPT um Erklärungen des Codes zu bitten. Nach der Ausführung des Codes wird die Bildverarbeitungsfähigkeit von GPT-4o genutzt, um Erklärungen zum Plot zu liefern.

Insgesamt stellt der Prozess, ChatGPT Ihren Bildschirm zu zeigen und verbal eine Frage zu stellen, einen potenziell einfacheren Workflow dar, als einen Plot als Bilddatei zu speichern, in ChatGPT hochzuladen und dann eine Frage zu tippen.

2. GPT-4o für Echtzeit-Übersetzung

Bereiten Sie sich darauf vor, GPT-4o auf Ihren Urlaub mitzunehmen. Mit seinen sprachlichen Fähigkeiten mit geringer Latenz ermöglicht GPT-4o Echtzeit-Übersetzungen, was es möglich macht (vorausgesetzt, Sie haben Roaming-Daten in Ihrem Handy-Tarif!). Dies macht Reisen in Länder, deren Sprache Sie nicht sprechen, viel einfacher.

3. Rollenspiele mit GPT-4o

ChatGPT hat sich als wertvolle Ressource für Rollenspielszenarien erwiesen, sei es, um ein Vorstellungsgespräch für Ihre Traum-Datenkarriere zu simulieren oder Ihr Verkaufsteam zu trainieren, um Produktverkäufe zu steigern.

Bisher unterstützte es hauptsächlich textbasierte Rollenspiele, was für einige Anwendungsfälle nicht optimal gewesen sein mag. Mit verbesserten Sprachfähigkeiten ist gesprochenes Rollenspiel nun eine praktikable Option.

Wenn Sie jedoch das traditionelle Text-Rollenspiel bevorzugen, können Sie novita.ai LLM API: wählen.

4. GPT-4o zur Unterstützung sehbehinderter Benutzer

Die Fähigkeit von GPT-4o, Videoeingaben von einer Kamera zu interpretieren und die Szene verbal zu beschreiben, hat ein erhebliches Potenzial als entscheidende Funktion für Menschen mit Sehbehinderungen. Im Wesentlichen spiegelt es die Audiobeschreibungsfunktion wider, die in Fernsehgeräten zu finden ist, erstreckt sich jedoch auf reale Situationen.

Zugriff auf GPT-4o in ChatGPT erhalten

Die Adresse für ChatGPT hat sich von chat.openai.com zu chatgpt.com geändert, was auf ein substantielles Engagement für KI als Produkt und nicht nur als Experiment hindeutet. Wenn Sie Zugriff auf GPT-4o auf Ihrem Konto haben, ist es sowohl in der mobilen App als auch online verfügbar.

Außerdem wurde begonnen, eine Mac-App an bestimmte Benutzer zu verteilen. Bei Links ist jedoch Vorsicht geboten, da Betrüger diese Veröffentlichung nutzen, um Malware auf Computer zu verteilen. Der sicherste Ansatz ist, auf eine E-Mail oder Benachrichtigung mit einem Link direkt von OpenAI zu warten.

Selbst wenn Sie einen funktionierenden Link für die App besitzen, wird der Zugriff erst gewährt, wenn er für Ihr OpenAI-Konto autorisiert wurde. Sie erhalten eine Fehlermeldung mit dem Text „Sie haben keinen Zugriff“, wenn Sie versuchen, sie vorzeitig zu verwenden.

Melden Sie sich bei ChatGPT an

Unabhängig davon, ob Sie die kostenpflichtige oder die kostenlose Version von ChatGPT wählen, besteht der erste Schritt darin, sich anzumelden. Besuchen Sie die Website oder laden Sie die App herunter und verknüpfen Sie sie mit Ihrem Konto. Wenn Sie noch kein Konto haben, registrieren Sie sich einfach.

Überprüfen Sie Ihre Modellauswahl

In der Nähe des oberen Bildschirmrands befindet sich ein Dropdown-Menü mit einer Liste von Modellen. Auf der Website wird möglicherweise bereits „GPT-4o“ als ausgewählt angezeigt, aber es könnten auch Optionen wie „GPT-4“ oder „GPT-3.5“ angezeigt werden. Wenn „GPT-4o“ nicht erscheint, haben Sie noch keinen Zugriff auf das Modell.

Auf mobilen Geräten sehen Sie, wenn Sie Zugriff haben, „ChatGPT 4o“ in der Mitte der Navigationsleiste oben auf dem Bildschirm.

Beginnen Sie zu chatten

Wenn Sie Zugriff haben, chatten Sie mit GPT-4o wie gewohnt mit GPT-4. Beachten Sie jedoch, dass Ratenbegrenzungen gelten und diese im kostenlosen Plan deutlich niedriger sind. Daher können Sie nur eine bestimmte Anzahl von Nachrichten pro Tag senden. Wenn Sie dieses Limit erreicht haben, können Sie das Gespräch mit GPT-4 oder GPT-3.5 fortsetzen.

Das Modell in einem Chat ändern

Sie haben auch die Möglichkeit, das KI-Modell zu wechseln, das Sie während einer Chat-Sitzung verwenden. Wenn Sie beispielsweise die Anzahl der Nachrichten, die Sie mit GPT-4o senden, regulieren möchten, könnten Sie den Chat mit GPT-3.5 beginnen. Wählen Sie dann das Funkelsymbol am Ende der Antwort.

Dies öffnet ein Modellmenü, und durch die Auswahl von GPT-4o, das möglicherweise für die Beantwortung einer komplexeren Mathe-Frage erforderlich ist, wird die nächste Antwort mit GPT-4o generiert.

Dateien hochladen

Wenn Sie Zugriff auf GPT-4o haben und sich im kostenlosen Plan befinden, können Sie jetzt Dateien zur Analyse hochladen. Diese Dateien können Bilder, Videos oder sogar PDFs sein. Anschließend können Sie GPT-4o beliebige Fragen zum Inhalt stellen.

GPT-4o Einschränkungen und Risiken

Die Regulierung für generative KI steckt noch in den Kinderschuhen, wobei der EU AI Act den derzeit wichtigsten rechtlichen Rahmen darstellt. Folglich müssen Unternehmen, die KI entwickeln, ihre eigenen Entscheidungen darüber treffen, was sichere KI ausmacht.

OpenAI verwendet ein Preparedness-Framework, um zu bewerten, ob ein neues Modell für die Veröffentlichung geeignet ist. Dieses Framework bewertet vier Hauptbereiche der Besorgnis:

  1. Cybersicherheit: Bewertung, ob die KI die Produktivität von Cyberkriminellen steigern oder die Erstellung von Exploits erleichtern könnte.
  2. BCRN: Untersuchung, ob die KI Experten bei der Entwicklung biologischer, chemischer, radiologischer oder nuklearer Bedrohungen helfen könnte.
  3. Überzeugung: Bewertung des Potenzials der KI, überzeugende (potenziell interaktive) Inhalte zu generieren, die Personen dazu beeinflussen, ihre Überzeugungen zu ändern.
  4. Modellautonomie: Untersuchung, ob die KI als autonomer Agent fungieren kann, der Aktionen in Verbindung mit anderer Software ausführt.

Jeder Bereich der Besorgnis wird als Niedrig, Mittel, Hoch oder Kritisch kategorisiert, und die Gesamtbewertung des Modells entspricht der höchsten Bewertung unter den vier Kategorien.

OpenAI verpflichtet sich, kein Modell zu veröffentlichen, das eine kritische Besorgnis darstellt. Diese Sicherheitsschwelle ist jedoch relativ niedrig, da eine kritische Besorgnis als etwas definiert ist, das die menschliche Zivilisation erheblich stören könnte. GPT-4o vermeidet dies problemlos und erhält eine mittlere Besorgnisbewertung.

Unvollkommene Ausgabe

Wie bei allen generativen KIs üblich, verhält sich das Modell möglicherweise nicht immer wie erwartet. Die Computer-Vision-Technologie ist nicht fehlerfrei, was bedeutet, dass Interpretationen von Bildern oder Videos nicht garantiert korrekt sind.

Ebenso sind Sprachtrankskriptionen selten zu 100% präzise, insbesondere wenn der Sprecher einen starken Akzent hat oder Fachterminologie verwendet.

OpenAI veröffentlichte ein Video, das einige Ausschnitte zeigt, in denen GPT-4o nicht wie beabsichtigt funktionierte. Bemerkenswerte Fehlschläge waren erfolglose Übersetzungen zwischen zwei nicht-englischen Sprachen, unangemessener Tonfall (z. B. herablassend klingen) und das Sprechen in der falschen Sprache.

Beschleunigtes Risiko von Audio-Deepfakes

Die OpenAI-Ankündigung räumt ein, dass „die Audio-Modalitäten von GPT-4o verschiedene neue Risiken mit sich bringen“. In vielerlei Hinsicht hat GPT-4o das Potenzial, die Verbreitung von Deepfake-Betrugsanrufen zu beschleunigen, bei denen KI Prominente, Politiker und Bekannte von Personen imitiert. Dies ist eine Herausforderung, die sich wahrscheinlich verschlimmern wird, bevor sie wirksam angegangen wird, und GPT-4o besitzt die Fähigkeit, die Überzeugungskraft von Deepfake-Betrugsanrufen erheblich zu steigern.

Um dieses Risiko zu adressieren, ist die Audioausgabe auf eine Auswahl vordefinierter Stimmen beschränkt.

Es ist vorstellbar, dass technisch versierte Betrüger GPT-4o zur Generierung von Textausgaben und dann ihr eigenes Text-to-Speech-Modell verwenden könnten. Es bleibt jedoch ungewiss, ob dieser Ansatz immer noch die Vorteile in Bezug auf Latenz und Tonfall behalten würde, die GPT-4o bietet.

Wie viel kostet GPT-4o?

Trotz seiner höheren Geschwindigkeit im Vergleich zu GPT-4 Turbo und verbesserten Bildverarbeitungsfähigkeiten wird GPT-4o etwa 50% günstiger sein als sein Vorgänger. Wie auf der OpenAI-Website angegeben, kostet die Nutzung des Modells 5 $ pro Million Token für die Eingabe und 15 $ pro Million Token für die Ausgabe.

Fazit

GPT-4o stellt einen bedeutenden Fortschritt in der generativen KI dar, indem es Text-, Audio- und Bildverarbeitung in einem einzigen effizienten Modell integriert. Diese Innovation verspricht schnellere Antworten, immersivere Interaktionen und ein breiteres Anwendungsspektrum, von Echtzeit-Übersetzung über verbesserte Datenanalyse bis hin zu verbesserter Zugänglichkeit für Sehbehinderte.

novita.ai, die Komplettlösung für grenzenlose Kreativität, die Ihnen Zugang zu über 100 APIs bietet. Von Bildgenerierung und Sprachverarbeitung bis hin zur Audioverbesserung und Videobearbeitung, günstiges Pay-as-you-go-Modell – es befreit Sie von GPU-Wartungsproblemen, während Sie Ihre eigenen Produkte erstellen. Probieren Sie es kostenlos aus.

Empfohlene Lektüre

Was ist der Unterschied zwischen LLM und GPT

LLM Leaderboard 2024 Vorhersagen enthüllt

Novita AI LLM Inference Engine: der größte Durchsatz und die günstigste verfügbare Inferenz