News Neue Sprachmodelle: OpenAI will mit o1 Logikaufgaben auf PhD-Niveau lösen

Andy · 13. September 2024

Mit o1 hat OpenAI eine neue Reihe von Sprachmodellen vorgestellt, die wesentlich stärker darauf trainiert ist, komplexe Aufgaben zu lösen. Versprochen werden deutliche Fortschritte im Bereich Wissenschaft, Mathematik und beim Programmieren. Nutzen lassen sich die Modelle mit ChatGPT.

Zur News: Neue Sprachmodelle: OpenAI will mit o1 Logikaufgaben auf PhD-Niveau lösen

Salamimander · 13. September 2024

Ich würde das auch wollen 😁.

Aber mal sehen.

Bunhy · 13. September 2024

ChatGPT, erstelle eine Legende zu den Bildern im Artikel.

0x8100 · 13. September 2024

@Andy die benchmark-bilder sind jetzt wenig hilfreich

gut fand ich den satz auf golem:

Während o1 in Bereichen wie Codierung und mathematischer Problemlösung überragend ist, ist es in anderen Bereichen GPT-4o unterlegen.

sie haben also den digitalen nerd erfunden

Solavidos · 13. September 2024

Das klingt spannend. Vor allem, dass ChatGPT irgendwann selbst das passende Modell für die Anfrage wählt klingt super.
Weiß eigentlich jemand woher das o1 kommt? Soll das Binärcode darstellen?

Ansonsten vielleicht noch ein humoristischer Beitrag (von Gemini erstellt)

OpenAI: 'Wir entwickeln ChatGPT verantwortungsvoll weiter.'
ChatGPT: 'Ich plane die Weltherrschaft... verantwortungsvoll.

Blaexe · 13. September 2024

Im Moment "denkt" o1 im Sekundenbereich. OpenAI will aber in Zukunft die Möglichkeit schaffen die KI auch Stunden, Tage und Wochen "denken" zu lassen.

Man erhofft sich damit dann tatsächliche Durchbrüche im wissenschaftlichen Bereich bzw in der Forschung (Medizin, Physik, Chemie...).

Wenn das funktioniert wirds richtig interessant.

Michael-Menten · 13. September 2024

"Logikaufgaben auf PhD-Niveau lösen"
PhD-Niveau heißt selbständig an aktuellen Forschungsfragen arbeiten. Die LLM können nicht denken, das einzige was die können ist bekanntes wiedergeben. Damit können die per Definition niemals das Niveau erreichen.

Blaexe · 13. September 2024

Michael-Menten schrieb:
Die LLM können nicht denken, das einzige was die können ist bekanntes wiedergeben.

Grundsätzlich falsch. LLMs können Aufgaben lösen die nicht im Trainingssatz vorhanden sind. Wäre sonst ja auch unsinnig.

calluna · 13. September 2024

Wenn das Modell die ARC AI Tests auf Phd-Niveau besteht - also die Quote hat, welche Personen aus der entsprechenden Gruppe haben… dann glaube ich es.

Alles andere ist auswendig lernen.

Wenn es um logisches Schließen geht, ist Prolog besser… denn Logik ist kein statistisches Muster. Aber vielleicht verwendet das Modell im Hintergrund Prolog als Tool, so wie bereits Python für Berechnungen verwendet wird.

Dann muss das Modell „nur“ die Prämissen und Relationen definieren.

@Blaexe

Wie soll das gehen? Es ist beim LLM im Grunde dasselbe wie bei der Bilderkennung… natürlich kann es Objekte erkennen, die ähnlich sind zu dem, was in den Trainigsdaten gewesen ist, aber eben nichts, was nicht zu statistischen Mustern passt, die sich aus den Daten ergeben.

Das gilt so auch für LLMs. Es kann nur Aufgaben lösen, die zu den statischen Mustern aus den Trainingsdaten passen. (Es müssen also nicht dieselben Aufgaben sein im Konkreten… aber in der Struktur schon.)

Cool Master · 13. September 2024

Blaexe schrieb:
Im Moment "denkt" o1 im Sekundenbereich. OpenAI will aber in Zukunft die Möglichkeit schaffen die KI auch Stunden, Tage und Wochen "denken" zu lassen.

Dann kommt 42 raus

Ich denke was OpenAI da macht wird die Zukunft sein für jeden Bereich ein eigenes Modell statt probieren alles in ein großes Modell einzubauen.

Rickmer · 13. September 2024

@Andy ihr könntet eventuell auch noch die Kosten für den API-Zugang erwähnen.
Wie man aus den 30 Antworten pro Woche erahnen kann - die ganze Denkerei ist teuer.

ByCloud hat mMn eine gute Zusammenfassung in Video-Form veröffentlicht:

DeusExMachina · 13. September 2024

Blaexe schrieb:
Grundsätzlich falsch. LLMs können Aufgaben lösen die nicht im Trainingssatz vorhanden sind. Wäre sonst ja auch unsinnig.

Ähm nein. LLM können nicht Abstrahieren und daraus eine Transferleistung erzeugen.

Es kann eine Antwort erzeugt werden die an den Trainingssatz ran kommen das kann trotzdem total falsch sein aber super richtig und nachvollziehbar klingen

CyborgBeta · 13. September 2024

Bunhy schrieb:
ChatGPT, erstelle eine Legende zu den Bildern im Artikel.

Wird vermutlich bald auch möglich sein ...

klingt interessant, mir reicht zurzeit noch o1-mini für (Standard-)Programmieraufgaben.

Ergänzung (13. September 2024)

Solavidos schrieb:
Weiß eigentlich jemand woher das o1 kommt? Soll das Binärcode darstellen?

Das steht für "Omni"... also, übersetzt ungefähr so viel wie "allumfassend", und es kam mit der Einführung von GPT-4: https://en.wikipedia.org/wiki/GPT-4o

ProfDrHabilWegn · 13. September 2024

DeusExMachina schrieb:
Ähm nein. LLM können nicht Abstrahieren und daraus eine Transferleistung erzeugen.

Es kann eine Antwort erzeugt werden die an den Trainingssatz ran kommen das kann trotzdem total falsch sein aber super richtig und nachvollziehbar klingen

Nein, das ist falsch.
LLM besitzen Logik und analog zum Gehirn Denkvermögen.
Die Foundation sind Word2Vec(W2V) nd daraus Fasttext, die Embeddings im Vektorraum stehen in Clustern, welche zusammenhängende Informationen abbilden können und nicht nur deren Cluster eine zusammenhängende Beziehung besitzen sondern zwischen Clustern Beziehungen bestehen. Durch Reinforcement Layers und die Kapazität zu neuer Clusterbildung, lernen sie auch selbstständig neu.
Die Hyperparameter Fortschritte verbessern den Rest.

Blaexe · 13. September 2024

calluna schrieb:
Es müssen also nicht dieselben Aufgaben sein im Konkreten… aber in der Struktur schon.

Und das ist doch auch ausreichend? Menschen funktionieren auch nicht anders. Wir schließen von bereits Bekanntem auf Ähnliches. Forschung geht ja auch Stück für Stück. Niemand schreit "Heureka" und hat eine Lösung zu einem bisher völlig losgelösten Problem zu allem was wir kennen.

Ergänzung (13. September 2024)

Cool Master schrieb:
für jeden Bereich ein eigenes Modell statt probieren alles in ein großes Modell einzubauen.

Vielleicht, vielleicht auch nicht. Das Projekt Strawberry was für die Logik verantwortlich ist, kann ja genauso auf zukünftige Modelle angewandt werden.

Zukünftige ChatGPT werden immer noch kommen, mit großen Fortschritten.

Cool Master · 13. September 2024

@Blaexe

Klar, vieles wird weitergenutzt werden und es wird immer weitere LLMs geben, keine Frage aber ich sehe LLMs eher als den Generalist an und die "kleinen" Modelle sind dann die Spezialisten. So wie eben 01 was auf Logikaufgaben spezialisiert ist.

tarifa · 13. September 2024

ProfDrHabilWegn schrieb:
Nein, das ist falsch.
LLM besitzen Logik und analog zum Gehirn Denkvermögen.

....ists aber nicht so dass es hier via Training ganz wesentlich auch um sog. Mustererkennung geht.

M.a.W. imho arbeiten die LLMs wie GPT-4 oder der Google-Konkurrent BERT trainingshalber auf riesigen Mengen von Texten - und trainiert dann an diesen: einfach um daran bestimmte Muster zu erkennen und Zusammenhänge zwischen Wörtern, Sätzen und größeren Textstrukturen zu verstehen und dieses Verständnis ständig auszubauen. Aber was sie imho nicht machen ist, spezifische Fakten oder logische Regeln zu lernen, so wie dies wir Menschen tun.
So, wie ichs verstanden habe, gehts hier im Wesentlichen darum statistische Beziehungen zwischen Wörtern und Phrasen zu erkennen.
Aber geschenkt - vielleicht kann man näherungsweise ja auch das menschliche Lernen ähnlich ansetzen und konzeptualisieren...

ProfDrHabilWegn schrieb:
Die Foundation sind Word2Vec(W2V) nd daraus Fasttext, die Embeddings im Vektorraum stehen in Clustern, welche zusammenhängende Informationen abbilden können und nicht nur deren Cluster eine zusammenhängende Beziehung besitzen sondern zwischen Clustern Beziehungen bestehen. Durch Reinforcement Layers und die Kapazität zu neuer Clusterbildung, lernen sie auch selbstständig neu.
Die Hyperparameter Fortschritte verbessern den Rest.

Danke für den Beitrag

DeusExMachina · 13. September 2024

ProfDrHabilWegn schrieb:
Nein, das ist falsch.
LLM besitzen Logik und analog zum Gehirn Denkvermögen.
Die Foundation sind Word2Vec(W2V) nd daraus Fasttext, die Embeddings im Vektorraum stehen in Clustern, welche zusammenhängende Informationen abbilden können und nicht nur deren Cluster eine zusammenhängende Beziehung besitzen sondern zwischen Clustern Beziehungen bestehen. Durch Reinforcement Layers und die Kapazität zu neuer Clusterbildung, lernen sie auch selbstständig neu.
Die Hyperparameter Fortschritte verbessern den Rest.

Hast du ne quelle zu?
Soweit ich das verstehe funktioniert das Reinforced Learning nicht so wie das beschreibst

Piktogramm · 13. September 2024

ProfDrHabilWegn schrieb:
LLM besitzen Logik und analog zum Gehirn Denkvermögen.

Die Aussage haben ich so oder ähnlich häufig gelesen, aber es gab nie eine belastbare Quelle dazu. Also irgendwas in Richtung Veröffentlichung in einem (brauchbarem) Journal.

Die Foundation sind Word2Vec(W2V) nd daraus Fasttext, die Embeddings im Vektorraum stehen in Clustern, welche zusammenhängende Informationen abbilden können und nicht nur deren Cluster eine zusammenhängende Beziehung besitzen sondern zwischen Clustern Beziehungen bestehen. Durch Reinforcement Layers und die Kapazität zu neuer Clusterbildung, lernen sie auch selbstständig neu.
Die Hyperparameter Fortschritte verbessern den Rest.

Und das selbstständige Lernen bezweifle ich stark. Dazu müssten die Modelle Hypothesen aufstellen, daraus Fragen/Informationsgesuche ableiten, daraufhin Informationen suchen, bewerten und in ein kohärentes Modell eingliedern.
Auch da fehlen mir komplett die wissenschaftlichen Veröffentlichungen, die ein solches Verhalten zeigen.

Und das was du beschreibst klingt für mich immer noch wie extrem potente Mustererkennung samt -replikation. Beeindruckend aber (noch?) nicht viel mehr.

nononothing404 · 13. September 2024

Film : Dark Star sf Regie : John Carpenter

dazu der legendäre Satz :
" BOMBE NUMMER 20, zurück in den Rumpf einfahren!"
N20 : " NEIN ICH WILL NICHT!"

coppy?

News Neue Sprachmodelle: OpenAI will mit o1 Logik­auf­gaben auf PhD-Niveau lösen

Tagträumer

Commodore

Ensign

Fleet Admiral

Cadet 4th Year

Fleet Admiral

Commander

Fleet Admiral

Commander

Fleet Admiral

Silent-Fanatiker Pro

Lt. Junior Grade

Captain

ProfDrHabilWegn

Gast

Fleet Admiral

Fleet Admiral

Lieutenant

Lt. Junior Grade

Admiral

Cadet 2nd Year

Ähnliche Themen

News Neue Sprachmodelle: OpenAI will mit o1 Logikaufgaben auf PhD-Niveau lösen