News Neue Sprachmodelle: OpenAI will mit o1 Logik­auf­gaben auf PhD-Niveau lösen

Andy

Tagträumer
Teammitglied
Registriert
Mai 2003
Beiträge
7.851
  • Gefällt mir
Reaktionen: Mcmeider, schneeland, tarifa und 2 andere
Ich würde das auch wollen 😁.

Aber mal sehen.
 
ChatGPT, erstelle eine Legende zu den Bildern im Artikel.
 
  • Gefällt mir
Reaktionen: hanjef, el_zoido, Ewoodster und 10 andere
@Andy die benchmark-bilder sind jetzt wenig hilfreich :)

gut fand ich den satz auf golem:
Während o1 in Bereichen wie Codierung und mathematischer Problemlösung überragend ist, ist es in anderen Bereichen GPT-4o unterlegen.
sie haben also den digitalen nerd erfunden :D
 
  • Gefällt mir
Reaktionen: CMDCake, the_IT_Guy, STangs und 8 andere
Das klingt spannend. Vor allem, dass ChatGPT irgendwann selbst das passende Modell für die Anfrage wählt klingt super.
Weiß eigentlich jemand woher das o1 kommt? Soll das Binärcode darstellen?

Ansonsten vielleicht noch ein humoristischer Beitrag (von Gemini erstellt)

OpenAI: 'Wir entwickeln ChatGPT verantwortungsvoll weiter.'
ChatGPT: 'Ich plane die Weltherrschaft... verantwortungsvoll.
 
  • Gefällt mir
Reaktionen: 9t3ndo und tarifa
Im Moment "denkt" o1 im Sekundenbereich. OpenAI will aber in Zukunft die Möglichkeit schaffen die KI auch Stunden, Tage und Wochen "denken" zu lassen.

Man erhofft sich damit dann tatsächliche Durchbrüche im wissenschaftlichen Bereich bzw in der Forschung (Medizin, Physik, Chemie...).

Wenn das funktioniert wirds richtig interessant.
 
  • Gefällt mir
Reaktionen: Solavidos, mRcL, e_Lap und 4 andere
"Logikaufgaben auf PhD-Niveau lösen"
PhD-Niveau heißt selbständig an aktuellen Forschungsfragen arbeiten. Die LLM können nicht denken, das einzige was die können ist bekanntes wiedergeben. Damit können die per Definition niemals das Niveau erreichen.
 
  • Gefällt mir
Reaktionen: M-X, DeusExMachina, Doomshroom und 13 andere
Michael-Menten schrieb:
Die LLM können nicht denken, das einzige was die können ist bekanntes wiedergeben.
Grundsätzlich falsch. LLMs können Aufgaben lösen die nicht im Trainingssatz vorhanden sind. Wäre sonst ja auch unsinnig.
 
  • Gefällt mir
Reaktionen: CMDCake, Daddi89, maxrl und 14 andere
Wenn das Modell die ARC AI Tests auf Phd-Niveau besteht - also die Quote hat, welche Personen aus der entsprechenden Gruppe haben… dann glaube ich es.

Alles andere ist auswendig lernen.

Wenn es um logisches Schließen geht, ist Prolog besser… denn Logik ist kein statistisches Muster. Aber vielleicht verwendet das Modell im Hintergrund Prolog als Tool, so wie bereits Python für Berechnungen verwendet wird.

Dann muss das Modell „nur“ die Prämissen und Relationen definieren.

@Blaexe

Wie soll das gehen? Es ist beim LLM im Grunde dasselbe wie bei der Bilderkennung… natürlich kann es Objekte erkennen, die ähnlich sind zu dem, was in den Trainigsdaten gewesen ist, aber eben nichts, was nicht zu statistischen Mustern passt, die sich aus den Daten ergeben.

Das gilt so auch für LLMs. Es kann nur Aufgaben lösen, die zu den statischen Mustern aus den Trainingsdaten passen. (Es müssen also nicht dieselben Aufgaben sein im Konkreten… aber in der Struktur schon.)
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: the_IT_Guy, dafReak, futzi und 5 andere
Blaexe schrieb:
Im Moment "denkt" o1 im Sekundenbereich. OpenAI will aber in Zukunft die Möglichkeit schaffen die KI auch Stunden, Tage und Wochen "denken" zu lassen.

Dann kommt 42 raus :D

Ich denke was OpenAI da macht wird die Zukunft sein für jeden Bereich ein eigenes Modell statt probieren alles in ein großes Modell einzubauen.
 
  • Gefällt mir
Reaktionen: Solavidos, dualcore_nooby, 9t3ndo und 4 andere
@Andy ihr könntet eventuell auch noch die Kosten für den API-Zugang erwähnen.
Wie man aus den 30 Antworten pro Woche erahnen kann - die ganze Denkerei ist teuer.

ByCloud hat mMn eine gute Zusammenfassung in Video-Form veröffentlicht:

 
  • Gefällt mir
Reaktionen: 9t3ndo und tarifa
Blaexe schrieb:
Grundsätzlich falsch. LLMs können Aufgaben lösen die nicht im Trainingssatz vorhanden sind. Wäre sonst ja auch unsinnig.

Ähm nein. LLM können nicht Abstrahieren und daraus eine Transferleistung erzeugen.

Es kann eine Antwort erzeugt werden die an den Trainingssatz ran kommen das kann trotzdem total falsch sein aber super richtig und nachvollziehbar klingen
 
  • Gefällt mir
Reaktionen: the_IT_Guy
Bunhy schrieb:
ChatGPT, erstelle eine Legende zu den Bildern im Artikel.
Wird vermutlich bald auch möglich sein ...

1726221039498.png


klingt interessant, mir reicht zurzeit noch o1-mini für (Standard-)Programmieraufgaben. :)
Ergänzung ()

Solavidos schrieb:
Weiß eigentlich jemand woher das o1 kommt? Soll das Binärcode darstellen?
Das steht für "Omni"... also, übersetzt ungefähr so viel wie "allumfassend", und es kam mit der Einführung von GPT-4: https://en.wikipedia.org/wiki/GPT-4o
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Solavidos und tarifa
DeusExMachina schrieb:
Ähm nein. LLM können nicht Abstrahieren und daraus eine Transferleistung erzeugen.

Es kann eine Antwort erzeugt werden die an den Trainingssatz ran kommen das kann trotzdem total falsch sein aber super richtig und nachvollziehbar klingen

Nein, das ist falsch.
LLM besitzen Logik und analog zum Gehirn Denkvermögen.
Die Foundation sind Word2Vec(W2V) nd daraus Fasttext, die Embeddings im Vektorraum stehen in Clustern, welche zusammenhängende Informationen abbilden können und nicht nur deren Cluster eine zusammenhängende Beziehung besitzen sondern zwischen Clustern Beziehungen bestehen. Durch Reinforcement Layers und die Kapazität zu neuer Clusterbildung, lernen sie auch selbstständig neu.
Die Hyperparameter Fortschritte verbessern den Rest.
 
  • Gefällt mir
Reaktionen: Daddi89, Sambow, Obvision und 2 andere
calluna schrieb:
Es müssen also nicht dieselben Aufgaben sein im Konkreten… aber in der Struktur schon.
Und das ist doch auch ausreichend? Menschen funktionieren auch nicht anders. Wir schließen von bereits Bekanntem auf Ähnliches. Forschung geht ja auch Stück für Stück. Niemand schreit "Heureka" und hat eine Lösung zu einem bisher völlig losgelösten Problem zu allem was wir kennen.
Ergänzung ()

Cool Master schrieb:
für jeden Bereich ein eigenes Modell statt probieren alles in ein großes Modell einzubauen.
Vielleicht, vielleicht auch nicht. Das Projekt Strawberry was für die Logik verantwortlich ist, kann ja genauso auf zukünftige Modelle angewandt werden.

Zukünftige ChatGPT werden immer noch kommen, mit großen Fortschritten.
 
  • Gefällt mir
Reaktionen: theGoD
@Blaexe

Klar, vieles wird weitergenutzt werden und es wird immer weitere LLMs geben, keine Frage aber ich sehe LLMs eher als den Generalist an und die "kleinen" Modelle sind dann die Spezialisten. So wie eben 01 was auf Logikaufgaben spezialisiert ist.
 
  • Gefällt mir
Reaktionen: CyborgBeta und tarifa
ProfDrHabilWegn schrieb:
Nein, das ist falsch.
LLM besitzen Logik und analog zum Gehirn Denkvermögen.

....ists aber nicht so dass es hier via Training ganz wesentlich auch um sog. Mustererkennung geht.

M.a.W. imho arbeiten die LLMs wie GPT-4 oder der Google-Konkurrent BERT trainingshalber auf riesigen Mengen von Texten - und trainiert dann an diesen: einfach um daran bestimmte Muster zu erkennen und Zusammenhänge zwischen Wörtern, Sätzen und größeren Textstrukturen zu verstehen und dieses Verständnis ständig auszubauen. Aber was sie imho nicht machen ist, spezifische Fakten oder logische Regeln zu lernen, so wie dies wir Menschen tun.
So, wie ichs verstanden habe, gehts hier im Wesentlichen darum statistische Beziehungen zwischen Wörtern und Phrasen zu erkennen.
Aber geschenkt - vielleicht kann man näherungsweise ja auch das menschliche Lernen ähnlich ansetzen und konzeptualisieren...

ProfDrHabilWegn schrieb:
Die Foundation sind Word2Vec(W2V) nd daraus Fasttext, die Embeddings im Vektorraum stehen in Clustern, welche zusammenhängende Informationen abbilden können und nicht nur deren Cluster eine zusammenhängende Beziehung besitzen sondern zwischen Clustern Beziehungen bestehen. Durch Reinforcement Layers und die Kapazität zu neuer Clusterbildung, lernen sie auch selbstständig neu.
Die Hyperparameter Fortschritte verbessern den Rest.

Danke für den Beitrag ;)
 
  • Gefällt mir
Reaktionen: CyborgBeta
ProfDrHabilWegn schrieb:
Nein, das ist falsch.
LLM besitzen Logik und analog zum Gehirn Denkvermögen.
Die Foundation sind Word2Vec(W2V) nd daraus Fasttext, die Embeddings im Vektorraum stehen in Clustern, welche zusammenhängende Informationen abbilden können und nicht nur deren Cluster eine zusammenhängende Beziehung besitzen sondern zwischen Clustern Beziehungen bestehen. Durch Reinforcement Layers und die Kapazität zu neuer Clusterbildung, lernen sie auch selbstständig neu.
Die Hyperparameter Fortschritte verbessern den Rest.

Hast du ne quelle zu?
Soweit ich das verstehe funktioniert das Reinforced Learning nicht so wie das beschreibst
 
  • Gefällt mir
Reaktionen: tarifa und madmax2010
ProfDrHabilWegn schrieb:
LLM besitzen Logik und analog zum Gehirn Denkvermögen.
Die Aussage haben ich so oder ähnlich häufig gelesen, aber es gab nie eine belastbare Quelle dazu. Also irgendwas in Richtung Veröffentlichung in einem (brauchbarem) Journal.

Die Foundation sind Word2Vec(W2V) nd daraus Fasttext, die Embeddings im Vektorraum stehen in Clustern, welche zusammenhängende Informationen abbilden können und nicht nur deren Cluster eine zusammenhängende Beziehung besitzen sondern zwischen Clustern Beziehungen bestehen. Durch Reinforcement Layers und die Kapazität zu neuer Clusterbildung, lernen sie auch selbstständig neu.
Die Hyperparameter Fortschritte verbessern den Rest.
Und das selbstständige Lernen bezweifle ich stark. Dazu müssten die Modelle Hypothesen aufstellen, daraus Fragen/Informationsgesuche ableiten, daraufhin Informationen suchen, bewerten und in ein kohärentes Modell eingliedern.
Auch da fehlen mir komplett die wissenschaftlichen Veröffentlichungen, die ein solches Verhalten zeigen.

Und das was du beschreibst klingt für mich immer noch wie extrem potente Mustererkennung samt -replikation. Beeindruckend aber (noch?) nicht viel mehr.
 
  • Gefällt mir
Reaktionen: tarifa, dafReak, madmax2010 und eine weitere Person
Film : Dark Star sf Regie : John Carpenter

dazu der legendäre Satz :
" BOMBE NUMMER 20, zurück in den Rumpf einfahren!"
N20 : " NEIN ICH WILL NICHT!"

coppy?
 
  • Gefällt mir
Reaktionen: Garack
Zurück
Oben