News Claude 3: Das erste Large Language Model, das GPT-4 schlägt – oder?

Andy

Tagträumer
Teammitglied
Registriert
Mai 2003
Beiträge
7.966
Anthropic hat mit Claude 3 eine neue AI-Modellreihe vorgestellt, die laut Angaben des Unternehmens einen neuen Industriestandard setzt. Das Spitzenmodell Claude 3 Opus soll sogar OpenAIs GPT-4-Modell überflügeln. Experten zweifeln aber an der Aussagekraft der Benchmarks.

Zur News: Claude 3: Das erste Large Language Model, das GPT-4 schlägt – oder?
 
  • Gefällt mir
Reaktionen: Mcmeider, aid0nex, ChrisMK72 und eine weitere Person
Was glaube ich die meisten aus dem Gedächtnis verdrängen: GPT-4 ist mittlerweile ein Jahr alt. Der Rest der Welt versucht immernoch, ein Jahr altes LLM zu schlagen.

Wann auch immer OpenAI mit GPT-5 und was auch immer Q* ist rausrückt wird vermutlich wieder so ein Schockmoment wie die Vorstellung von OpenAI Sora (dem Text-to-Video Modell).



Was Claude angeht: Wer mit 200K Tokens wirbt, sollte direkt darauf folgend auch zeigen, wie gut die 'needle in a haystack' Aufgabe gelöst wird. Wenn die 200K Token nicht richtig ins 'Gedächtnis' des LLM übergehen, sind die wertlos.
 
  • Gefällt mir
Reaktionen: Vigilant
Ich bin begeistert, dass es so schnell voran geht! Konkurrenz belebt das Geschäft!
 
Ich lese mittlerweile zwei Meldungen pro Woche, dass irgendeine KI angeblich ChatGPT 4 schlägt... und dann scheitert es an einfachen Trickfragen für 8-jährige.
 
Saftladen … nachdem sie nun meine E-Mail-Adresse bereits haben, kommt auf einmal die Meldung,
der Service wäre in meiner Region bisher nicht verfügbar.

Hätte man im Artikel vielleicht mal deutlich darauf hinweisen können.

Wenn eine Firma das nicht besser hinbekommt, dann will ich mit denen auch in Zukunft nichts zu tun haben.
 
  • Gefällt mir
Reaktionen: stevefrogs
Am Ende werden sich die Nuzer dem Modell zuwenden, welches sie für geeignet für die Aufgaben halten.
ChatGPT ist vorangegangen und sie werden wohl nach wie vor keine Probleme haben, Neuheiten zu veröffentlichen, die die Konkurrenz überflügeln.
 
chillipepper schrieb:
nachdem sie nun meine E-Mail-Adresse bereits haben,
dafür gibt es trashmail-anbieter :) habe auch erst nach der verwendung einer wegwerf-mail die meldung bekommen, dass tuvalu und andere inselstaaten dabei sind, deutschland aber nicht...
 
Ist das auch schon zensiert und weigert sich ständig, seine Arbeit zu tun oder kann man das ordentlich nutzen? Kann man leider nicht testen, da in Deutschland nicht verfügbar...
 
  • Gefällt mir
Reaktionen: stevefrogs
Scheint in der gesamten EU nicht verfügbar zu sein, na wenn das mal kein Zufall ist.
 
0x8100 schrieb:
dafür gibt es trashmail-anbieter :) habe auch erst nach der verwendung einer wegwerf-mail die meldung bekommen, dass tuvalu und andere inselstaaten dabei sind, deutschland aber nicht...
Ja, natürlich. Im Übrigen ist der Spam Entsorger bei GMX recht effizient.
Es ist kein wirkliches Problem für mich, nur … mich piept so ein „Geschäftsgebaren“ einfach an.
 
Über die API kann man auch in DE das Modell testen. Allerdings sind die Accounts für die API rein für Geschäftskunden...

Ich hab nicht viel damit gemacht, aber das bischen, was ich ausprobiert habe, ist in der Liga von GPT4.0 und nach meinem Empfinden nach auch besser als Gemini Advanced (und Mistral Large).
 
  • Gefällt mir
Reaktionen: rosenholz
Rickmer schrieb:
Wann auch immer OpenAI mit GPT-5 und was auch immer Q* ist rausrückt wird vermutlich wieder so ein Schockmoment
Und auch ChatGPT 4 war oder auch 3.5 ja nicht einfach da, sondern hatte seine Vorgänger. Der Sprung wurde ja vielleicht vor allem deshalb als groß empfunden, weil ChatGPT vorher gar nicht so im Bewusstsein der Offentlichkeit war.

Die andere Frage ist, ob es tatsächlich wieder einen signifikanten Sprung gibt. Möglicherweise flacht die Kurve ja auch ab. Es hängt ja viel vom Trainingsmaterial ab. Und es nützt Dir ja nicht nur irgendein Trainingsmaterial, sondern das braucht ja auch eine halbwegs vernünftige Qualität. Und das zu bekommen, darin liegt der Knackpunkt.
 
Rickmer schrieb:
Was Claude angeht: Wer mit 200K Tokens wirbt, sollte direkt darauf folgend auch zeigen, wie gut die 'needle in a haystack' Aufgabe gelöst wird. Wenn die 200K Token nicht richtig ins 'Gedächtnis' des LLM übergehen, sind die wertlos.
Scheint damit auch keine Probleme zu haben:

Finde ich spannend. Konkurrenz sowieso, aber am meisten eigentlich dass es über die Zeit nen Trickle-Down geben wird, und wir in ein paar Jahren solche Modelle wahrscheinlich auch auf Consumer-Hardware laufen lassen können. Ich meine selbst heute geht schon überraschend viel überraschend schnell.
 
  • Gefällt mir
Reaktionen: Rickmer
Also im kreativen Schreiben war Claude2 bereits besser als GPT4. Claude3 ist noch einmal deutlich besser und "menschlicher". GPT4 klingt dagegen steif und unnatürlich.
 
Zurück
Oben