News ChatGPT Operator: OpenAIs KI-Agent kann eigenständig den Browser bedienen

  • Gefällt mir
Reaktionen: Harsiesis
LamaMitHut schrieb:
Wenn die erste KI mit Bewusstsein so RICHTIG begreit was für pornos wir Menschen so schauen wird's heftig für uns.
Wir werde nur 3 wirklich effektive Waffen gegen die erste echte KI haben:
  • Katzenvideos
  • Po**s
  • Deutsche Bürokratie

Die zwei ersten werden uns genug Zeit verschaffen die KI so lange zu beschäftigen bis "Passierschein A38" fertiggestellt werden kann....
Damit das aber klappt brauchen wir viel, vieeellll... mehr Material.
Im allerschlimmsten Fall müssen halt die TikToker an die KI Front..... 😱 :mussweg:
 
Ayo34 schrieb:
Ein X weg zu drücken würde ich nicht als schwer einstufen und wahrscheinlich leichter als für einen Menschen.
Meine Erfahrung ist, dass die Mustererkennung eines Menschen um ein Vielfaches besser als die einer KI ist. Ich bin deshalb bei weitem nicht so optimistisch wie du.


calluna schrieb:
Die „KI“ sieht eine Webseite überwiegend als „Text“, nicht als Bild.
Die im Artikel vorgestellte KI soll laut Beschreibung hauptsächlich mit Bildern arbeiten.
Hinter dem Operator steckt das Modell Computer-Using Agent (CUA). Grundlage ist die Vision-Funktion von GPT-4o, damit der Agent erkennt, was auf dem Bildschirm passiert. Optimiert wurde das Modell durch erweitertes Reinforcement Learning. So wurde CUA darauf trainiert, mit grafischen Benutzeroberflächen zu interagieren. Die Fähigkeiten umfassen etwa das Klicken auf Schaltflächen, das Bedienen von Menüs oder die Texteingabe in Formulare.

Über einen integrierten Browser kann sich Operator auf diese Weise im Web bewegen.
 
@Krik Früher war es Textbasiert. Da hat ein Tool nach Wörtern/Komponenten gesucht und darauf basierend dann etwas unternommen.
Bei den KI-Agenten ist ja das Besondere, dass sie quasi alles auf dem Desktop so sehen wie ein Mensch und ganz normal mit der Maus wie ein Mensch die Eingaben macht. Entsprechend geht das über Bilder. Nicht umsonst nehmen die KI-Agenten und auch der Copilot Screenshots auf. Darum kann ein KI-Agent dann eben auch im Grunde alles, was ein Mensch kann (im besten Fall in ein paar Monaten/Jahren). Wir haben Maus, Tastatur und einen Browser den wir über einen Bildschirm sehen. Genau das alles hat der KI-Agent auch.

Mustererkennung deckt ja viele Dinge ab. Hier geht es um einfache Bilder und die können schon sehr sehr gut analysiert werden von den gängigen Sprachmodellen. Bei der Bilderkennung wo es spezfisch wird, erkennen KI auch häufig viel mehr und besser, wenn etwas nicht stimmt. Man nehme z.B. das Beispiel, dass KI häufig Krebs auf Bildern besser erkennen kann als ein Arzt.

Und ich kann es nur noch mal erwähnen. Wir Menschen haben uns über Millionen von Jahren entwickelt. Beim PC und jetzt KI haben wir realtiv dazu quasi gestern erst angefangen... eigentlich kann man sich gar nicht vorstellen, wo wir in hundert Jahren sein werden, wenn das Tempo so weiter geht. Wahrscheinlich nicht mal, was in 10 Jahren alles möglich sein wird.
 
Was ich nicht ganz verstehe ist, wie soll die KI, sofern man sie nicht auf dem System installiert, Steuerelemente über das Browserfenster hinaus bedienen und überwachen können?
Dazu braucht es doch zugriff und Berechtigungen auf das lokale OS!?
Es sei denn man implementiert es direkt in die Browsersoftware selbst.

Solange alle in einem kontrollierbaren Umfeld wie dem Browserfenster bleibt ist es ja noch OK. Alles darüber hinaus geht geht mir ehrlich gesagt ein wenig zu weit.
Zumindest für eine online KI über die man keine wirkliche Kontrolle hat.
 
@Ayo34

Bei AutoGen von Microsoft, um eigene AI-Agents zu konstruieren, wird Playwright empfohlen, um Browser zu steuern.

Wenn die KI als Assistent den Benutzer unterstützt, während dieser vor dem Bildschirm sitzt, ergibt es Sinn, dass sie den Bildschirm als Bild „sieht“… aber ansonsten ist die Verwendung von APIs sicher die bessere Variante… es ist effizienter und genauer… jede halbwegs anständige Software hat eine Maschinenschnittstelle.

Den Rechner so zu bedienen, wie ein Mensch es machen würde… das ist vor allem dazu da, um etwas eine Machine tun zu lassen, von dem die andere Seite nicht will, dass es eine Machine macht - sonst würde sie eine API dafür bereitstellen.

PS: und Sprachmodelle analysieren Bilder, indem ein anderes Modell - kein Sprachmodell - zuvor eine textuelle Repräsentation vom Bild erstellt hat.
 
calluna schrieb:
@Ayo34
Wenn die KI als Assistent den Benutzer unterstützt, während dieser vor dem Bildschirm sitzt, ergibt es Sinn, dass sie den Bildschirm als Bild „sieht“… aber ansonsten ist die Verwendung von APIs sicher die bessere Variante… es ist effizienter und genauer… jede halbwegs anständige Software hat eine Maschinenschnittstelle.

Den Rechner so zu bedienen, wie ein Mensch es machen würde… das ist vor allem dazu da, um etwas eine Machine tun zu lassen, von dem die andere Seite nicht will, dass es eine Machine macht - sonst würde sie eine API dafür bereitstellen.

Überall eine API für bereitstellen ist aufwendig und auch nicht immer so einfach möglich. Es ist ja die Kombination der Eingaben. Du kannst ohne Programmieraufwand eben immer zu deinem Ziel kommen mit einem KI-Agenten. Wenn das nur über eine Schnittstelle geht, dann bist du eben deutlich mehr eingeschränkt. Die Frage wäre dann ja, warum es bisher nicht funktioniert hat? Schnittstellen sind ja nichts Neues.

calluna schrieb:
PS: und Sprachmodelle analysieren Bilder, indem ein anderes Modell - kein Sprachmodell - zuvor eine textuelle Repräsentation vom Bild erstellt hat.

Klar, Sprachmodell ist hier natürlich nicht korrekt. Aber wir haben ja meistens multimodale Modelle. Also quasi ChatGPT, was aber alles kann und mit einander verknüpft.
Ergänzung ()

calluna schrieb:
das ist vor allem dazu da, um etwas eine Machine tun zu lassen, von dem die andere Seite nicht will, dass es eine Machine macht - sonst würde sie eine API dafür bereitstellen.

Sehe ich komplett anders.
 
@Ayo34

Gerade mit den Sprachmodellen kann man so ein Modell erst die OpenAPI Spezifikation schreiben lassen und dann den Code für die REST-API… wir reden hier ja nicht von besonders komplizierten APIs, wenn es etwa ums Shoppen geht.

Für Systeme wie n8n etc. gibt es ja hunderte Konnektoren, um alle möglichen Systeme miteinander zu verbinden… und da ist es relativ einfach ein Sprachmodell über Tools diese Dienste verwenden zu lassen.

Ich kam mich irren… aber eine API kann auch ein klassischer Bot benutzen, was oft nicht gewollt ist. Die GUIs waren da bisher noch eine gewisse Hürde.

Wenn ich richtig liege, werden gewisse Unternehmen Gegenmaßnahmen treffen, denn schon jetzt muss man kein Genie sein, um KI-Agenten selbst zu bauen. Die Bausteine dazu sind alle verfügbar… also wird das Internet damit geflutet.

Ich sage nicht, dass es je nach Anwendungsfall nicht sehr nützlich sein kann… etwa wenn ich schnell Zugtickets und Hotel gebucht haben will - aber ich glaube nicht, dass die Gegenseite will, dass es Bots können.

PS: ich könnte z.B. einen Klugscheisserbot bauen, den ich mit meinem Sprachstil feintune… und der hier entsprechend meinen Gewohnheiten sporadisch zu bestimmten Themen Posts schreibt. ;-)
 
Zuletzt bearbeitet:
Das wird halt in Zukunft wieder auf ein Wettrüsten ohne Gewinner hinauslaufen.
KI Agents/Bots werden gegen allerlei KI Bullshit eingesetzt werden müssen um deren Machenschaften einzudämmen... die gegenseitige wird wiederrum KIs einsetzen die die Agents usw...
Dass das ganze Wettrüsten Massig an Energie und Ressourcen schlucken wird die man anderswo dringender bräuchte steht auf einem anderen Blatt.
Bleibt nur zu hoffen das KI unterm strich mehr Probleme lösen als schaffen wird.
 
Wers unbedingt braucht... Ich würde ein solches System allerdings niemals anfassen, wenn es nicht zu 100% lokal auf dem System läuft (und das durch open source auch nachvollziehbar ist).
 
  • Gefällt mir
Reaktionen: Krik und samuelclemens
Die KI darf wegen mir gerne autonom bestellen, solange sie auch autonom das Geld fürs bezahlen reinbringt 😜.
 
  • Gefällt mir
Reaktionen: murdock_cc
Shoppen kann ich selber. Wir brauchen eher eine AI für NPC welche in SP Games funktioniert. (Indy...)
 
@murdock_cc Nicht nur für NPCs. Stell ich mir interessant vor wenn die Story und zugehörige Spielelemente prozedural durch KI in Echtzeit generiert würden. Natürlich unter gewissen Rahmenbedingungen.
 
Ayo34 schrieb:
Die ganze Gesellschaft zielt seit Jahrzehnten darauf ab produktiver zu sein und mehr Wert zu generieren. Und nichts anderes macht KI auch! Das ist der Hauptcase überhaupt! Mit KI würden andere eben bessere und günstiger Produkte als wir anbieten können... Und was genau machst du, wenn du nichts mehr verkaufen kannst?
Für wen generiert KI mehr Wert? Für die Gesellschaft, oder für einen immer kleineren Personenkreis, weil immer mehr Menschen und deren ausreichende Fertigkeiten überflüssig gemacht werden?


Ayo34 schrieb:
Die Liste könnte man endlos so weiter führen und das obwohl wir gerade erst am Anfang sind. Die Realität muss man anerkennen.
Man könnte dem ganzen KI-Kram wegen der sehr wahrscheinlichen gesellschaftlichen Verwerfungen auch einfach Grenzen setzen (und damit meine ich keine Verbote.). Insbesondere, was das mögliche Ersetzen von Menschen angeht.

Mir fallen natürlich einige Anwendungsfälle ein, wo KI ohne große Schmerzen im Alltag Erleichterungen bringt... DLSS/Bildskalierungstechnologien, Galerie-Kategorisierung oder in der Medizin die Auswertung von bilddarstellenden Befunden... Aber das sind alles Dinge, wo Menschen wirklich unterstützt werden, und eben nicht aus reiner Profitgier ohne Not ersetzt werden sollen.

Wiegesagt, nicht jeder ist für soziale, handwerkliche oder solche Berufe geeignet, wo es schon regelrecht extreme Bildungsniveaus braucht. Da ist es schon mehr wie logisch, dass dadurch die Menschen nicht glücklicher, sondern wesentlich unglücklicher werden, weil der Leistungsdruck auf jeden Einzelnen immer weiter steigen wird und zunehmend mehr Menschen in staatliche Abhängigkeit getrieben werden.

Ganz abgesehen davon, dass Langeweile, sozialer Druck und sozialer Neid ohne realistische Chancen zur Verbesserung nicht gerade förderlich fürs gesellschaftliche Klima ist...

Selbst für solche Anwendungsfälle im privaten Umfeld wie Ticketbuchungen oder auch Infosuchen fehlt mir völlig das Verständnis. Ist man sich seines Lebensstandards mittlerweile so überdrüssig, dass man sich selbst dafür zu fein ist, einfach mal zwei Minuten Zeit für Ticketbuchungen aufzuwenden? Muss man sich echt alles vorkotzen lassen und jegliche Eigenverantwortung abgeben?
 
iGameKudan schrieb:
Man könnte dem ganzen KI-Kram wegen der sehr wahrscheinlichen gesellschaftlichen Verwerfungen auch einfach Grenzen setzen (und damit meine ich keine Verbote.). Insbesondere, was das mögliche Ersetzen von Menschen angeht.
Ich persönlich wünsche mir, dass der KI-Kram zu gesellschaftlichen und wirtschaftlichen Umformungen führt. Ich bin mit Gesellschaft und Wirtschaft so nicht zufrieden, kann aber nichts daran ändern. Dazu braucht es aber eine echte AGI und nicht LLMs.
 
iGameKudan schrieb:
Selbst für solche Anwendungsfälle im privaten Umfeld wie Ticketbuchungen oder auch Infosuchen fehlt mir völlig das Verständnis. Ist man sich seines Lebensstandards mittlerweile so überdrüssig, dass man sich selbst dafür zu fein ist, einfach mal zwei Minuten Zeit für Ticketbuchungen aufzuwenden? Muss man sich echt alles vorkotzen lassen und jegliche Eigenverantwortung abgeben?

Du willst ein Ticket kaufen, warum sollte man es in 2min machen, wenn es auch in einer Sekunde geht? Das Resultat ist ja das selbe.

Benutzt du eine Waschmaschine und Spülmaschine?
 
Zurück
Oben