ProfDrHabilWegn schrieb:
Man denkt es hat sich viel getan aber die Basics sind seit Jahrzehnten ähnlich, der größte Sprung war die Datensammlung und das Handcrafting der Ergänzung um Layers bzw. Sidelayers welche in ein größtenteils unsupervised Modell, auch reinforcement layer integriert (abgesehen von supervised layern für die Integrität bzw. eben auch das Filtering mit korrekten Labeln für falsche Ausgaben der anderen Layern. Kompensationslayer sozusagen)
Wenn man mehrfach von Stammtischniveau bei anderen fabuliert, sollte man zumindest die Basics dann aber auch selbst korrekt darlegen. "Handcrafting" ist am Ende jeder Hyperparameter sowie das gesamte KNN-Design, sofern dies nicht gelernt oder anderweitig automatisch berechnet wird.
Auch gibt es kein unsupervised, reinforcement, ... layer. (Weakly-)Supervised-, Unsupervised- und Reinforcement-
Learning beschreiben schlicht und ergreifend unterschiedliche Trainingsstrategien, nämlich annotierte oder unannotierte Daten für ein Training zu nutzen oder im Falle von RL ein Feedback, welches vom KNN-"Verhalten" abhängt. Freilich kann man Strategien mischen, parallel für ein ganzes KNN oder arbiträr zwischen einzelnen Layern, aber das macht ein Layer noch lange nicht zu einem "Supervised-Layer". Mal ganz davon abgesehen, dass das bei LLMs meist sowieso in unterschiedlichen Stufen mit mehreren Strategien trainiert wird, etwa wenn man auf einem großen Datensatz vortrainiert und dann auf einem fachspezifischen Datensatz optimiert.
ProfDrHabilWegn schrieb:
Ja, eine Addition von SMT Solvern wäre für die Usecases, (vorausgesetzt) nach korrekter Identifikation, sicherlich ein Gewinn, da für den Anwendungsfall NLP keine Konsistenz gewährt.
Leider müsste dafür die Architektur umgebaut werden und Aufwand und evtl Verlust von Qualität ist nicht absehbar, wenn es ins Original model übernommen werden soll.
Solver jeglicher Art sind ein grundverschiedener Ansatz zu KNNs. In ein KNN kann man die ebenso wenig einbetten, wie eine Websuche. Ich schiebe dir ja auch keinen Taschenrechner oder Tablet in deinen Kopf, wenn du damit verbundene Aktionen nutzen möchtest. Genauso wie bei einer Websuche bei ChatGPT, würde man schlichtweg ein weiteres Tool als Plugin zur Verfügung stellen, um die Antworten (oder Berechnungen) eines LLMs damit anzureichern. Das hat rein gar nichts mit der Architektur des LLMs selbst zu tun, sondern vielmehr damit, was man als Plattform drumherum entwickelt und welche Möglichkeiten in wie vielen Schleifen man dem LLM damit zur Verfügung stellt.
ProfDrHabilWegn schrieb:
Die Publikationen sind alle frei zum Download. Selbst das Latest verlinkte Whitepaper von Llama 3. Ich bitte von diesem Stammtisch abzusehen und wissenschaftlich korrekt zu bleiben mit seriösen Quellen und bewiesener Funktionsweise.
Selbst als jemand, der aktiv damit arbeitet, würde ich hier bei
@Piktogramm sein:
Piktogramm schrieb:
Das ich "brauchbare Journals" als Anforderung gestellt habe, kommt eben aus dem wissenschaftlichem Anspruch, dass die Veröffentlichung einem Reviewprozess unterlagen.
Meta/Facebook, genauso wie Google, NVIDIA und viele Andere, veröffentlichen häufig in der Tat die größten und fortgeschrittensten Modelle, ja, aber gerade da davon Aktienwert & Co. abhängen, bedeutet das trotzdem nicht, dass man alles ohne weitere Prüfung von denen glauben sollte.
Unabhängig davon kochen die auch nur mit Wasser und Forschung findet dort nicht mehr oder auf einem höheren Niveau statt, eher im Gegenteil. Die großen Konzerne haben schlichtweg mehr Rechenressourcen, die sie auf ein Problem werfen können. Sehr häufig werden dadurch inkonsistentes KNN-Design, qualitativ schlechtere Architekturen oder überhaupt wenig "intelligente Ansätze" ausgeglichen, einfach durch ein größeres Netz, also mehr Parameter, und mehr Daten, die man auf ein Problem wirft, weil man viel mehr Rechenressourcen als Forscher XY von Uni ABC hat.
ProfDrHabilWegn schrieb:
Wobei ich selbst denke, dass die Gliazell Forschung Durchbrüche bringen wird.
Ich bin ja wirklich der Letzte, der sich über Fachtermini beschwert, aber bei dir ergibt es wirklich den Eindruck, dass du die Einwürfe nur machst, um irgendeinen Fachterminus, notfalls auch ohne Bezug, in einem Satz unterzubringen.
Selbst wenn sich am Ende herausstellt, dass Gliazellen weitere Funktionen (oder gar irgendwas zur "Intelligenz") zu biologischen Gehirnen beitragen als "nur" "Stützzellen" zu sein und Dinge wie die elektrische Isolation von Neuronen zu bewerkstelligen, so hat das doch immer noch rein Null Bezug zu KNN oder LLMs im Speziellen. Bei KNN ist der Unterbau immer ein Computer, dementsprechend ist ausschließlich die Informationsverarbeitung (und damit die Mathematik dahinter) ausschlaggebend. Wie etwa ein Transistor durch Leckströme geschützt wird, hat keinen Bezug zu einem KNN, welches darauf ausgeführt werden soll.
Piktogramm schrieb:
Der Ideologiebegriff ist mindestens schwierig.
Das wäre wirklich das letzte Statement von
@ProfDrHabilWegn, an dem ich mich gestört hätte. Der Absatz war zumindest verständlich. Ferner (wie
@calluna auch erwähnt hat), kann man dort ja auch einen Bezug zum Inhalt und Kontext sehen. Insbesondere wenn man das nüchtern als Alltagssprache liest, würde ich dem Absatz sogar breitflächig zustimmen: Wissenschaft sollte stets so frei wie möglich von äußeren, ideologischen Einflüssen sein. Alles andere ist
Einschränkung von Fortschritt und politisch motiviertes Ergebnisfischen (oder -verschweigen).
DeusExMachina schrieb:
Ähm nein. LLM können nicht Abstrahieren und daraus eine Transferleistung erzeugen.
KitKat::new() schrieb:
Wenn die Fähigkeit zur Abstraktion und Transferleistung nicht da wäre, könntest du genauso gut eine Datenbank nutzen und dort input->output eintragen und auslesen
@DeusExMachina Meiner Meinung nach ist die Problematik bei dem Thema (und ich selbst bin da definitiv näher an
@KitKat::new() als an "
ähm nein [können die gar nicht]"), dass man das nicht Schwarz-Weiß oder mit festgelegten Grenzen betrachten darf. Wenn man streng nach der Definition "neues Wissen" geht, welches so in sämtlichen Trainingsdaten nicht auftaucht, dann stimmt deine Aussage und ist sogar von Forschung zu dem Thema gestützt.
Allerdings ist die Crux hier ja aber: wie häufig trifft das schon in der Realität zu? Vor allem, wenn man immer mehr dazu übergeht, quasi das gesamte niedergeschriebene Wissen der Menschheit in die Trainingsdaten zu packen?
Ich würde behaupten, abgesehen von Grundlagenforschung gibt es nur sehr wenige Ausnahmefälle, wo man von "komplett neu" reden kann.
Innerhalb einer gegebenen Distribution hingegen können LLMs durchaus interpolieren und, mit rasch abnehmender Korrektheit (in Abhängigkeit zur Entfernung der gelernten Distribution) auch extrapolieren.
Man sieht das z.B. sehr gut bei Text => Bild Generatoren. Wenn ein Modell noch nie Zebras gesehen hat, dafür aber Pferde und Kühe, kann man quasi perfekte Zebras generieren, indem man schlichtweg in die Richtung "Pferd aber schwarz-weiß wie Kühe nur mit Streifen anstatt von Flecken" promptet. War mal ein praktisches Beispiel aus meiner Vorlesungszeit. Und Menschen machen das auch nicht anders: die breite Masse löst keine neuen Probleme oder malt Dinge, die sie noch nie gesehen haben. Die breite Masse wendet gelernte Konzepte an auf bekannte Probleme und Situationen. Das reicht für sehr viele Dinge in der Realität ja auch vollkommen aus und solange der Datensatz groß genug und die Fähigkeit zur Interpolation und zumindest eingeschränkter Extrapolation gut genug ist, werden LLMs damit in Zukunft auch einiges an Aufgaben bearbeiten können.