HTML Wie unter Windows einen String auf einer Website suchen?

Techflaws.org · 13. Februar 2024

Es soll kurzfristig eine Liste mit in den Filialen verbauter Hardware erstellt werden, die über die https Website des Herstellers abgefragt werden kann. Dazu muss in Chrome/Edge/Firefox eine URL aufgerufen werden und beim Vorhandensein eines bestimmtem Strings im Text der Website JA in eine lokale Textdatei geschrieben werden. Womit lässt sich das am einfachsten bewerkstelligen?

TorenAltair · 13. Februar 2024

Mit einer Programmiersprache Deiner Wahl und Parsing.

Raijin · 13. Februar 2024

Ich werfe einfach mal curl in den Raum. Webseite mit curl ziehen, parsen, Log schreiben. curl gibt's auch für Windows.

Fame93 · 13. Februar 2024

Ich würde es mit Python angehen:
Mit den beiden Libaries request & beautifulsoup4

Wenn Programmieren nicht deine Stärke ist könntest du es auch mit der Software KNIME und der Erweiterung Palladian versuchen

VG FaMe

LencoX2 · 13. Februar 2024

Mit Windows Boardmitteln geht das mit Batch oder Powershell und curl.
Oder etwas mehr Flexibilität gibt es mit Node.js und Javascript.
Usw...

tollertyp · 13. Februar 2024

Bei PowerShell geht es auch ohne curl.

Simon#G · 13. Februar 2024

Techflaws.org schrieb:
Womit lässt sich das am einfachsten bewerkstelligen?

Wenn Bash/Sh verfügbar ist und die typischen Bordmittel geht es einfach. Für Windows/PowerShell gibts sicherlich vergleichbare Befehle. Da kenn ich mich aber nicht aus.

curl https://example.com/ | grep -q "asking for permission" && echo "JA" >> log.txt

Hier mal beispielhaft für example.com und den Text "aksing for permission", der auf der Seite auftaucht. Wenn dein String durch HTML-Tags unterbrochen ist, wird es komplexer und du brauchst evtl. einen Parser oder eine andere Technik um den reinen Text aus der Seite zu extrahieren. Das hier ist die absolute Billoversion.

tollertyp · 13. Februar 2024

Das hat mir ChatGPT ausgespuckt für die PowerShell (schreibt aber nicht in eine Datei):

Code:

# URL der HTML-Seite
$url = "https://www.example.com"

# Text, den du überprüfen möchtest
$desiredText = "gewünschter Text"

# HTML-Inhalt der Seite abrufen
$htmlContent = Invoke-WebRequest -Uri $url

# Überprüfen, ob der gewünschte Text im HTML-Inhalt enthalten ist
if ($htmlContent.Content -match $desiredText) {
    Write-Output "Die HTML-Seite enthält den gewünschten Text."
} else {
    Write-Output "Die HTML-Seite enthält nicht den gewünschten Text."
}

LencoX2 · 13. Februar 2024

Hm.
Warum nicht gleich Chat GPT gefragt?

andy_m4 · 13. Februar 2024

Raijin schrieb:
Webseite mit curl ziehen, parsen, Log schreiben

Als Ergänzung:
Wenn man dann noch grep hin zu nimmt, hat mans ja fast schon:
curl -s myurl | grep -q "ABC" && echo "JA" > mytextfile.txt
(für myurl natürlich die richtige Adresse eintragen und für JA die gesuchte Zeichenkette; regexp möglich)

Ergänzung (13. Februar 2024)

Oh. Da war jemand minimal schneller :-)

Techflaws.org · 13. Februar 2024

tollertyp schrieb:
Das hat mir ChatGPT ausgespuckt für die PowerShell (schreibt aber nicht in eine Datei):

Danke, mit einer beliebigen URL funktioniert das sogar fast. Suche ich auf unserer Firmenwebseite nach der dort angegebenen Telefonnummer, gibt es einen Treffer; ändere ich eine Ziffer, so dass die Nummer nicht übereinstimmt, keinen, gut! Suche ich unsere Firmenseite allerdings nach dem gefragten String - A ab, kommt auch die Meldung, der sei gefunden worden, obwohl er nicht vorkommt, nicht einmal im Quelltext.

Noch problematischer scheint zu sein, dass die URL des Kunden auf .aspx mit ein paar angehängten Parametern endet. Führe ich das Skript mit dieser URL durch, kommt eine Fehlermeldung, in der die URL verhackstückt ist:

Invoke-WebRequest : Server Error in '/wwwroot' Application.
Object reference not set to an instance of an object.

Description: An unhandled exception occurred during the execution of the current web request. Please review the stack trace for more information about the error and where it originated in the code.

Exception Details: System.NullReferenceException: Object reference not set to an instance of an object.

Source Error: An unhandled exception was generated during the execution of the current web request. Information regarding the origin and location of the exception can be identified using the exception stack trace below.

Stack Trace:
[NullReferenceException: Object reference not set to an instance of an object.]

   wwwroot.custNet.Maintenance.Stores.OrganizationStoreConfiguration.createFloorsTable(DataTable pTable) in C:\Users\lokaal\Documents\GitHub\retail-custnet-maintenance\custMaintenance\custNet\Maintenance\Stores\OrganizationStoreConfigurat

ion.aspx.cs:156
wwwroot.custNet.Maintenance.Stores.OrganizationStoreConfiguration.Page_Load(Object sender, EventArgs e) in C:\Users\
lokaal\Documents\GitHub\retail-custnet-maintenance\custMaintenance\custNet\Maintenance\Stores\OrganizationStoreConfigur
ation.aspx.cs:71
System.EventHandler.Invoke(Object sender, EventArgs e) +0
System.Web.UI.Control.OnLoad(EventArgs e) +95
System.Web.UI.Control.LoadRecursive() +59
System.Web.UI.Page.ProcessRequestMain(Boolean includeStagesBeforeAsyncPoint, Boolean includeStagesAfterAsyncPoint)
+678
Version Information: Microsoft .NET Framework Version:4.0.30319; ASP.NET Version:4.7.4081.0
In C:\test\scrape.ps1:8 Zeichen:16
+ $htmlContent = Invoke-WebRequest -Uri $url
+ ~~~~~~~~~~~~~~~~~~~~~~~~~~~
+ CategoryInfo : InvalidOperation: (System.Net.HttpWebRequest:HttpWebRequest) [Invoke-WebRequest], WebExc
eption
+ FullyQualifiedErrorId : WebCmdletWebResponseException,Microsoft.PowerShell.Commands.InvokeWebRequestCommand

tollertyp · 13. Februar 2024

Dann musst du evtl Zeichen escapen?
Enthält die URL bzw. die Paramter denn Gänsefüßchen?

Code:

https://www.google.com/search?q="Hallo"

vs

Code:

https://www.google.com/search?q=%22Hallo%22

Techflaws.org · 13. Februar 2024

Die enthält neben Buchstaben und Ziffern die Zeichen / ? =.

tollertyp · 13. Februar 2024

Die sollten kein Problem darstellen. Hast du curl?
Kann curl die URL korrekt verarbeiten?

Techflaws.org · 13. Februar 2024

Curl wirft auch eine Fehlermeldung mit verhackstückter URL aus.

tollertyp · 13. Februar 2024

Und die URL 1:1 im Browser funktioniert problemlos, auch in einem privaten Fenster?

Techflaws.org · 14. Februar 2024

Good find!

Im Browser ja, aber nicht in einem privaten Fenster, da kommt dann auch die Fehlermeldung. Es scheint, als müsse man in dem Browser-Fenster eingeloggt sein, um diese Unterseite aufrufen zu können. Bin ich also in Chrome auf der Seite eingeloggt und kopiere den Link auf die gewünschte Unterseite, kann ich sie in Firefox nicht aufrufen. Ich muss mich erst in Firefox auch noch einloggen und dann funktioniert der Link.

Evtl. wird da ein Cookie für eine Session oder so gesetzt, das beim Zugriff über die Powershell fehlt.

tollertyp · 14. Februar 2024

Gewisse Informationen kann man bei solchen Sachen auch mitgeben... Du müsstest, falls es ein Cookie ist, das vorher halt "extrahieren".

Also mit PowerShell könnte eine Erweiterung für ein Session-Cookie so aussehen:

Code:

# Cookie-Daten
$cookieData = @{
    Name = "cookieName"
    Value = "cookieValue"
}

# Anfrage an die Webseite senden und Cookie speichern
$response = Invoke-WebRequest -Uri $url -SessionVariable session -WebSession $cookieData

Raijin · 14. Februar 2024

Eine grundsätzliche Anmerkung dazu: Du solltest den Zyklus für die Aktualisierung nicht zu eng gestalten. Wenn dein scraper zu häufig bei der Webseite anklopft und womöglich auch Daten ausliest, die in der robots.txt eigentlich nicht "erlaubt" sind, kann das dem Betreiber der Webseite übel aufstoßen und wenn's ihm zu bunt wird, sperrt er eventuell sogar den Account. Sporadisches Auslesen ist halb so wild, aber .. .. was weiß ich.. sekündliche Preisaktualisierungen oder sowas können unerwünscht sein.

tollertyp · 14. Februar 2024

Aus dem einleitenden Satz dieses Threads geht für mich nichts hervor, was für irgendeinen Zyklus spricht.

HTML Wie unter Windows einen String auf einer Website suchen?

Lt. Junior Grade

Rear Admiral

Fleet Admiral

Cadet 4th Year Pro

Commander

Banned

Lt. Junior Grade

Banned

Commander

Admiral

Lt. Junior Grade

Banned

Lt. Junior Grade

Banned

Lt. Junior Grade

Banned

Lt. Junior Grade

Banned

Fleet Admiral

Banned

Ähnliche Themen