C# Webseite (Bsp. Github) wird unvollständig gelesen. Warum ?

Micke · 17. November 2022

Hallo Forum,
ich möchte den Inhalt einer Webseite einlesen. Leider erhalte ich dabei nicht alle Elemente die im Browser zu sehen sind, sondern nur einen string der dem "Seitenquelltext anzeigen" entspricht.

Die Abfrage erfolgt damit:

Code:

HttpClient client = new();
string uri = "https://github.com/notepad-plus-plus/notepad-plus-plus/releases/latest"
var content = await client.GetStringAsync(uri).ConfigureAwait(false);

Dabei fehlt der "Assets" Block mit den Downloads der Github Seite. Sprich dieser Block landet nicht in content.
Wie muss der Aufruf hierfür angepasst werden ?

Das besondere an "Assets" ist, daß die Links der Downloads von der Webseite nachgeladen werden.
Allerdings sollte client.GetStringAsync(uri) m.M.n. erst dann mit einem string zurückkehren, wenn die Seite vollständig aufgebaut wurde. Falsche Erwartung ?

Danke schonmal

PS: Das "Warum" in der Frage fragt warum der Code nicht das erwartete liefert. Nicht ob Webseiten dynamische Bestandteile haben können.

madmax2010 · 17. November 2022

fehlen die da?
https://github.com/robots.txt

tbh sieht das aber echt nicht aus, als ob di ein website, dondern eher ein Release aus einem repo ziehen willst..
Willst du das repo ziehen: https://stackoverflow.com/questions...nloading-github-private-repo-programmatically
Sonst halt latest.zip nehmen

Was hast du den vor? Selenium ist auch etwas, was dir vielleicht helfen kann

Dalek · 17. November 2022

Das wird vermutlich auf der Client-Seite in JS geladen, und dann steht das halt einfach nicht im HTML Quelltext. Ich würde hier einfach direkt die Github API verwenden, die ist für sowas gedacht und das ist dann auch viel einfacher als das zu scrapen.

Micke · 17. November 2022

Besten Dank. GitHub dient allerdings nur als Bsp. weil es bekannt ist und mir das Verhalten dort auffiel.

NatokWa · 17. November 2022

Die wenigsten Seiten stehen noch als "Echter" Quelltext im Web. Das sind idr. nur noch Scripte welche die Seite "Live" aufbauen und dabei unter anderem deine Cookis etc. beachten.

Das man dort niemals einen vollständigen "Quelltext" erhält, dürfte selbstverständlich sein .... erst recht wenn man diesen versucht zu laden ohne es überhaupt auf zu rufen.

pseudopseudonym · 17. November 2022

Kannst mal mit curl https://github.com/ (warum unterstüzt CB eigentlich kein Markdown...) testen, ob's an dir liegt, oder ob nicht mehr statischer Content kommt.
Für das, was die anderen hier schon angesprochen haben, kannst du dir z. B. Selenium mal angucken.

M4ttX · 17. November 2022

Ja, wenn es um Javascript geht, das nicht geladen wird, dann schafft Selenium Abhilfe.

Und auch noch bei anderen, störenden Kleinigkeiten.

Micke · 17. November 2022

Danke danke, aber automat. Testen ist hierbei nicht die Intension. Ich brauche tatsächlich den string zum weiterverarbeiten.

pseudopseudonym schrieb:
Kannst mal mit curl https://github.com/ testen, ob's an dir liegt, oder ob nicht mehr statischer Content kommt.

danke für den Hinweis - ausprobiert, curl liefert den fehlenden Block ebenfalls nicht.

pseudopseudonym · 17. November 2022

@Micke
Dann kommst du um Tools wie Selenium nicht herum.

Micke · 17. November 2022

Selenium kann also mehr als Tests, interessant, und damit gelöst.... danke für die Tips.
Es tut, aber elegant ist m.M.n. anders ... da ist die letzte Zeile noch nicht getippert

madmax2010 · 17. November 2022

Was und wie hast du gemacht?

joshim · 18. November 2022

Die eigentliche Frage: ist das von dem Webseitenbetreiber überhaupt erwünscht? Scraper landen bei mir schneller im Block/Challenge als sie requesten können.

pseudopseudonym · 18. November 2022

@joshim
Nur die Scraper, die du als solche identifizierst

heulendoch · 26. November 2022

Du kannst das auch mit WebView machen, dann brauchst du allerdings eine GUI.

Micke · 26. November 2022

Danke, da bin ich gestern auch gelandet. Die MS Edge Engine direkt anzapfen zu können hat was.

floq0r · 2. Dezember 2022

joshim schrieb:
Scraper landen bei mir schneller im Block/Challenge als sie requesten können.

Wie erkennst du die denn wenn User-Agent, HTTP Header inkl. Cookies passen? Dann ginge es nur ums Abfragemuster und das wird dann einfach randomized delayed und auf gängige Bürozeiten eingeschränkt. Wie lang so ein Scrape dauert ist meistens unerheblich solang mans nicht von Hand machen muss.

Suche

C# Webseite (Bsp. Github) wird unvollständig gelesen. Warum ?

Micke

Lt. Junior Grade

madmax2010

Fleet Admiral

Dalek

Lieutenant

Micke

Lt. Junior Grade

NatokWa

Lt. Commander

pseudopseudonym

Admiral

M4ttX

Vice Admiral

Micke

Lt. Junior Grade

pseudopseudonym

Admiral

Micke

Lt. Junior Grade

madmax2010

Fleet Admiral

joshim

Banned

pseudopseudonym

Admiral

heulendoch

Lt. Junior Grade

Micke

Lt. Junior Grade

floq0r

Captain