News Europcar: Geleakte Kundendaten stammen „wahrscheinlich von ChatGPT“

kicos018 schrieb:
Das ist irgendwie auch ein Schlag ins Gesicht für ChatGPT (oder anderen KI), wenn die es nicht mal schafft korrekt die PLZ den Orten zuzuordnen.
(Falls es überhaupt damit generiert wurde)
Oder das ist bewusst so, damit die Software für genau solche Zwecke nicht verwendet werden kann.
 
Welchen Sinn macht es, Chat GPT mit dem Generieren von 50 Mio Fake-Kundendaten zu "beauftragen"?
Und gibt es nicht ein Limit bzgl. der generierten Daten pro Kunde?
 
FrAGgi schrieb:
Auf einen Schlag nicht, nein.
Dann nimmste halt paar Pfennig für den API Zugang in die Hand. Als wäre das jetzt die Hürde. Von teurer KI Rechenzeit wird man noch immer meilenweit entfernt sein.
Funktioniert das so?

Ein Datenbanksatz wäre (laut AI, lol) ~300 Tokens groß.
Laut OpenAI API pricing kosten 1000 Chat-GPT4 Token $0.06.
Wir wären also bei einem Preis von 900.000$ für 50.000.000 Datensätze.
Keine Ahnung ob das realistisch ist, hört sich aber erstmal ganz gut an?

Auch ganz interessant: Chat GPT 4 kann ~15 Token pro Sekunde erstellen. Wäre für eine Instanz eine Laufzeit von über 31 Jahren. :D
Ergänzung ()

0x8100 schrieb:
der begriff "chatgpt" wird doch nur verwendet, weil er gewisse bekanntheit hat und als synonym für "generatives sprachmodell" verwendet wird. installier dir gpt4all oder ollama und mach das ganze zuhause. kein "chatgpt" von openai benötigt.
Was soll das ändern? Meinst du die entsprechende Datenbank mit 50.000.000 Datensätzen wäre dann berechenbarer oder bezahlbarer? Selbst wenn du mit L2 auf auf viele token/s kommst und eine 4090 besitzt, müsste dein armer PC knapp 10 Jahre durchgehend rechnen. Oder sehe ich das falsch?
 
Zuletzt bearbeitet:
Ohhhh, das gefällt mir. Diese Foren mit gefälschten Datensätzen zu fluten, die sich in wenigen Minuten generieren lassen, ist genau mein Humor!
 
  • Gefällt mir
Reaktionen: dualcore_nooby
aLanaMiau schrieb:
Was soll das ändern? Meinst du die entsprechende Datenbank mit 50.000.000 Datensätzen wäre dann berechenbarer oder bezahlbarer? Selbst wenn du mit L2 auf auf viele token/s kommst und eine 4090 besitzt, müsste dein armer PC knapp 10 Jahre durchgehend rechnen. Oder sehe ich das falsch?
einfach mal etwas kreativ werden: lass dir 50000 datensätze erstellen, die schön echt aussehen und dann würfelst du die werte der einzelnen spalten durcheinander und kombinierst sie klassisch zu neuen datensätzen.
 
  • Gefällt mir
Reaktionen: Zarlak
kicos018 schrieb:
Das ist irgendwie auch ein Schlag ins Gesicht für ChatGPT (oder anderen KI), wenn die es nicht mal schafft korrekt die PLZ den Orten zuzuordnen.

Entgegen der ganzen Erklärungsversuche hier im Thread warum ChatGPT das nicht könne: Ich habe es getestet und ChatGPT (mit GPT4) scheint es doch zu können.

Zunächst hat er mir PLZ verwendet die zum Ort passen, aber nicht unbedingt zu der genutzten Straße und Hausnummer.
Nach dem Hinweis darauf hat er mir korrekte Adressen ausgespuckt (ich habe jetzt nur die ersten 3 geprüft).

1706715525943.png



Danach habe ich ihm noch verklickert dass er bei den Emails realistische domains nutzen soll und etwas kreativere Zusammensetzungen und bei den Namen auch anteilig der Bevölkerungsgruppen...

1706716531937.png


Man muss ihm halt sehr genau klar machen was man erwartet...
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: kicos018, Coeckchen und floTTes
0x8100 schrieb:
einfach mal etwas kreativ werden: lass dir 50000 datensätze erstellen, die schön echt aussehen und dann würfelst du die werte der einzelnen spalten durcheinander und kombinierst sie klassisch zu neuen datensätzen.
aLanaMiau schrieb:
Das faked jedes klassische Programm mit ein paar Listen einfacher, schneller und weniger offensichtlich.
Statt eine KI zu bemühen kannst du auch direkt ein Telefonbuch nehmen. Oder eine von den 999 anderen Leak-Listen.... aber dann würde sich das ja nicht so reißerisch anhören. ;)
 
ChatGPT, du alter Hacker!

Damit könnte man die Welt auch retten. Wir füttern alle Sprachmodelle mit Unsinn. Dann brabbeln die wie 2-Jährige! :evillol:

Habe ich überlesen, wie groß der Datensatzauszug war?
Bloß weil sie nicht zu Europcar passen, heißt das ja nicht, dass sie nicht dennoch eine hohe Trefferquote hätten.
 
es steht doch gar nicht fest, dass chatgpt verwendet wurde. europcar behauptet nur, dass es wahrscheinlich sein könnte.
 
  • Gefällt mir
Reaktionen: Zarlak, netzgestaltung und Schatten123
aLanaMiau schrieb:
Im Free-Plan kann ChatGPT dir mal eben eine Liste mit 50.000.000 Datensätzen erstellen?


Regelbasierte Algorithmik.
Äh es wurden doch keine 50 Mio Daten geliefert sondern nur ne Handvoll. Und nur die musste man erzeugen....die restlichen 49999959 existieren nicht
 
  • Gefällt mir
Reaktionen: 2Stoned und x37
Habe schon mal beruflich einen Datensatz erstellt, der für ein Dashboard-Mockup verwendet wurde, um Kunden die Möglichkeiten von Business Intelligence, intelligenter Verknüpfung von Quellen und Visualisierung (mit PowerBI, Tableau, SAP BO etc.) zu demonstrieren. Wir hatten im Team erfahrene Data Analysts, die reale Daten aus Projekten gut kennen und hatten mit dem Know-How der Fälschungsqualität kein Problem. Das Ding musste aber in Demonstration willkürlichen Drilldowns Stand halten und vernünftige Infos ausspucken. Wer schon mal versucht hat, einen solchen komplexen Datensatz (und wenn man die Rulesets erst mal hat, ist es egal, ob 10k oder 100m Datensätze) zu erstellen, wird die Aufgabe ganz sicher ohne ChatGPT machen - und trotzdem an der schieren Komplexität der verschiedenen Informationsdimensionen verzweifeln. Wir haben am Ende eine Handvoll Datensätze sehr genau modelliert und haben die per Skript zielgenau in den Demos anvisiert. Sonst keine Chance, so etwas in der Dimension 50m Datensätze zu fälschen, ohne dass ein beliebiger Junior Analyst nach 5 Min den BS aufdecken kann.
 
Tevur schrieb:
also ich hab neulich auch nen größeren Datensatz zum Testen unserer Auswerte-Software generiert.
Da haben die einzelnen Werte auch nicht plausibel zueinander gepasst
Ach so: Da hat die KI die Daten her!
 
"Gonzago is really a fictional character, but not a real fictional character" (S. Kripke, Reference and Existence, p. 78). :)
 
Zuletzt bearbeitet:
aLanaMiau schrieb:
Im Free-Plan kann ChatGPT dir mal eben eine Liste mit 50.000.000 Datensätzen erstellen?
Stimmt schon, dass das ein Problem wäre... Wenn man es denn tatsächlich tut. Aber haben wir hier denn überhaupt Belege, dass das der Fall ist? Behaupten kann man viel. Wenn dieser selbsternannte, angebliche Hacker schon seine Beispieldaten fälscht, wird er vielleicht auch nicht davor zurückschrecken, es noch einen Schritt weiter zu treiben und möglicherweise insgesamt etwas anbieten, was gar nicht existiert. Also auch nicht als Fake. Falls irgendjemand dumm genug ist, diesen angeblichen Datensatz zu kaufen, bekommt derjenige dann ganz einfach: Nichts.
 
Hoffe, dass es wirklich keine echten Daten sind. Europcar kann auch behaupten, das wären generierte Daten. Ich glaube weder Europcar noch dem Hacker. Europcar soll das einfach kontrollieren.
 
kicos018 schrieb:
Das ist irgendwie auch ein Schlag ins Gesicht für ChatGPT (oder anderen KI), wenn die es nicht mal schafft korrekt die PLZ den Orten zuzuordnen.
(Falls es überhaupt damit generiert wurde)

ChatGPT ist halt wie unsere Politiker: Redet viel, klingt erstmal gut und stimmig, bei genauerem Hinsehen passt das alles nicht zusammen und ergibt keinen Sinn.

Das sind halt Sprachmodelle: Sie berechnen Sätze, die gut klingen und so in dem Kontext wahrscheinlich formuliert werden würden. Ob das dann wirklich stimmt, ist was anderes. Deswegen sind die meisten Menschen ja so beeindruckt von ChatGPT: Es kann Texte konstruieren, die einfach so klingen als wäre die KI allwissend.
 
  • Gefällt mir
Reaktionen: dev/random
FuSiOnPaiNz schrieb:
Ich glaube weder Europcar noch dem Hacker. Europcar soll das einfach kontrollieren.
Was soll Europcar noch kontrollieren? Und was würde es dir bringen, wen du denen doch sowieso nicht glaubst? :p
 
ChatGPT: "ich war's nicht 🙈"

Die 2020er werden wohl das Jahrzehnt der KIs werden.

Bin gespannt, wie sich das entwickelt.
Es wird wie bei allen Dingen so sein, dass es nicht in die falschen Hände geraten darf, aber es früher oder später geschehen wird.

Grüße
 
kicos018 schrieb:
Das ist irgendwie auch ein Schlag ins Gesicht für ChatGPT (oder anderen KI), wenn die es nicht mal schafft korrekt die PLZ den Orten zuzuordnen.
(Falls es überhaupt damit generiert wurde)
So cool diese KIs usw auch sein mögen: Was ich bisher so damit herumgespielt habe ließ mich den "Intelligenz"-part doch noch schwer vermissen. Ich empfand Texte und Bilder bisher eher nur oberflächlich passend. Da bekommt man einen schönen Text, der aber aus leeren Floskeln besteht oder mit falschen Informationen gefüllt ist. Bilder folgen gewissen Stilen und Standard Szenen, aber Details bekommt man nicht richtig hin.

Insofern würde es mich nicht überraschen, wenn ein so erstellter Datensatz gerade so realistisch erscheint, dass man doch mal 1-2 Einträge durchlesen muss und dann die Unstimmigkeiten gleich bemerkt. :D

Für mich ist es bis jetzt noch nur eine bessere Google Suche, die auch mehrere Quellen zusammenfassen KANN. Allerdings mit dem Nachteil, dass ich dann nicht mehr so schnell erkenne ob die Quellen Quatsch waren.
 
  • Gefällt mir
Reaktionen: bossbeelze
Zurück
Oben