Hi zusammen.
Ich hab mir ein kleines Script gebaut, dass mir täglich ein paar mal den Preis für Hardware, die mich interessiert aus dem Internet abruft. Die Daten packe ich in eine Datenbank und will sie später auch als Chart anzeigen lassen, damit ich die Preisentwicklung über einen Monat oder länger hinweg nachvollziehen kann.
Zum abrufen benutze ich cURL oder Wget. Auf einer Testseite und auf Mindfactory funktioniert das auch gut.
Aber ich wollte gern auch die Preise auf mehreren Seiten im Auge haben und darum wollte ich zum Beispiel auch noch Notebooksbilliger etc. einbinden. Einige Seiten machen da aber Probleme und wollen anscheinend nicht automatisch ausgelesen werden. Dort werde ich immer an einen Captcha weitergeleitet. Über einen ColdFusion-Dienst auf meiner Arbeit konnte ich es lösen, indem ich den Useragent gespooft habe und auch direkt den HTTPS-Port angesteuert habe.
Zu Hause habe ich aber keinen ColdFusion-Server, sondern einen Ubuntu-Server mit dem bereits vorhandenen Bash-Script.
Weiß jemand, wie ich dieses Problem mit Bash bzw. Linux allgemein lösen kann? Eine öffentliche API gibt es für die weiteren Seiten, die ich einbinden will, leider nicht so weit ich weiß.
Ich hab mir ein kleines Script gebaut, dass mir täglich ein paar mal den Preis für Hardware, die mich interessiert aus dem Internet abruft. Die Daten packe ich in eine Datenbank und will sie später auch als Chart anzeigen lassen, damit ich die Preisentwicklung über einen Monat oder länger hinweg nachvollziehen kann.
Zum abrufen benutze ich cURL oder Wget. Auf einer Testseite und auf Mindfactory funktioniert das auch gut.
Aber ich wollte gern auch die Preise auf mehreren Seiten im Auge haben und darum wollte ich zum Beispiel auch noch Notebooksbilliger etc. einbinden. Einige Seiten machen da aber Probleme und wollen anscheinend nicht automatisch ausgelesen werden. Dort werde ich immer an einen Captcha weitergeleitet. Über einen ColdFusion-Dienst auf meiner Arbeit konnte ich es lösen, indem ich den Useragent gespooft habe und auch direkt den HTTPS-Port angesteuert habe.
Zu Hause habe ich aber keinen ColdFusion-Server, sondern einen Ubuntu-Server mit dem bereits vorhandenen Bash-Script.
Weiß jemand, wie ich dieses Problem mit Bash bzw. Linux allgemein lösen kann? Eine öffentliche API gibt es für die weiteren Seiten, die ich einbinden will, leider nicht so weit ich weiß.