Chia plotting bricht ab PC stürzt ab und farming bricht ab

deadletters schrieb:
Speicher läuft auf XMP1. QVL ist bestimmt die Hersteller-Kompatibilitätsliste - richtig? Ja, steht drin. Ganz genau dieser Speicher, mit genau der Nummer.
Ok, wenn es ohne XMP auch nicht klappt.....
D.h. alle Stresstest laufen einwandfrei, ob mit oder ohne HDD dran.
Sobald du aber mit der CPU plotten willst BSOD, sobald Chia das System unter gewisse Last setzt, BSOD.

Hast du alle Treiber von Gigabyte auf dem Board, insbesondere alles was den Chipsatz betrifft? Und mal danach unter Windows Update die optionalen Updates gecheckt ob es da neue Treiber gibt?
Hast du Speicher Integrität im Windows Sicherheits Dashboard an, falls ja, mal ausmachen.
 
-=Azrael=- schrieb:
Ok, wenn es ohne XMP auch nicht klappt.....
D.h. alle Stresstest laufen einwandfrei, ob mit oder ohne HDD dran.
Bei den Stresstests waren nur die internen HDDs angeschlossen
-=Azrael=- schrieb:
Sobald du aber mit der CPU plotten willst BSOD, sobald Chia das System unter gewisse Last setzt, BSOD.
BSOD nur beim CPU-Plotten. Welche Last bringt Chia sonst noch mit sich?
-=Azrael=- schrieb:
Hast du alle Treiber von Gigabyte auf dem Board, insbesondere alles was den Chipsatz betrifft? Und mal danach unter Windows Update die optionalen Updates gecheckt ob es da neue Treiber gibt?
Auf meinem laufenden System ist alles, alles, alles up-to-date.
Alle Treiber von der Gigabyte-Seite, die dann noch aufgefrischt über das Gigabyte-Controll-Center, dazu alles aus'm Intel Treiber- und Support_Assistent, und Windows Update auch.
-=Azrael=- schrieb:
Hast du Speicher Integrität im Windows Sicherheits Dashboard an, falls ja, mal ausmachen.
War und ist aus.
 
deadletters schrieb:
Bei den Stresstests waren nur die internen HDDs angeschlossen
Die USB Platten kann man erstmal ignorieren.
deadletters schrieb:
BSOD nur beim CPU-Plotten. Welche Last bringt Chia sonst noch mit sich?
Blocks die in deine lokale DB geschrieben werden, wenn diese im Chia Network gefunden werden, Plots werden nach Proofs "gecheckt"(öffnen/schließen). Bei compressed Plots erhöht sich diese Last, Ende des Monats gibt dann noch mehr Last, da Diff/Plotfilter angepasst wird.
Wobei hier entweder die CPU oder halt die GPU belastet wird.
deadletters schrieb:
Auf meinem laufenden System ist alles, alles, alles up-to-date.
deadletters schrieb:
Ok, dann kann man das auch mal abhaken.

Gibts sowas wie Above 4G im BIOS? Hatte schon lange kein Intel Board in der Hand. ;)

Ich würde mir auch mal die CPU und den Sockel anschauen, auch wenn ich davon ausgehe, das dein System ordentlich gekühlt ist.
Du könntest natürlich erstmal ein anderes Board(Hersteller) zum testen holen, hast du da den selben Fehler dann bleibt nur noch CPU oder RAM.
 
-=Azrael=- schrieb:
Blocks die in deine lokale DB geschrieben werden, wenn diese im Chia Network gefunden werden, Plots werden nach Proofs "gecheckt"(öffnen/schließen). Bei compressed Plots erhöht sich diese Last, Ende des Monats gibt dann noch mehr Last, da Diff/Plotfilter angepasst wird.
Wobei hier entweder die CPU oder halt die GPU belastet wird.
System stürzt nur beim Plotten ab. Wenn einfach die GUI läuft, steigen immer wieder die einzelnen Chia Anwendungen aus. Farmer, Harvester, Node, Wallet.
-=Azrael=- schrieb:
Gibts sowas wie Above 4G im BIOS? Hatte schon lange kein Intel Board in der Hand. ;)
Irgendwas mit 4G hab ich im BIOS. Weiss jetzt nur nicht auswendig was. Ist das relevant?
-=Azrael=- schrieb:
Ich würde mir auch mal die CPU und den Sockel anschauen, auch wenn ich davon ausgehe, das dein System ordentlich gekühlt ist.
Mir kam vor ein paar Minuten, dass ich Flüssigmetallwärmeleitpaste verwende. Kann das eine Rolle spielen? Im Sinne von, ist davon etwas auf irgendwelche umliegenden Leiter gekommen, und das verursacht das Ganze?
Aber müsste es dann nicht auch bei einem 2Std. Durchlauf von Prime aufgefallen sein?
Als Lüfter hab ich den Deepcool AG500 BK ARGB.
-=Azrael=- schrieb:
Du könntest natürlich erstmal ein anderes Board(Hersteller) zum testen holen, hast du da den selben Fehler dann bleibt nur noch CPU oder RAM.
Es ist alles so crazy, da ich mit den Komponenten ja schon ausführlich geplottet hab, ausser, dass ich eben beim RAM einen Garantietausch hatte. Waren aber dann wieder die gleichen Riegel, nur neu.
Aber ich hab tatsächlich mal den Lüfter neu aufgesetzt.
 
deadletters schrieb:
System stürzt nur beim Plotten ab. Wenn einfach die GUI läuft, steigen immer wieder die einzelnen Chia Anwendungen aus. Farmer, Harvester, Node, Wallet.
Da das System versuch auf IRQ zuzugreifen die nicht vorhanden sind.
deadletters schrieb:
Irgendwas mit 4G hab ich im BIOS. Weiss jetzt nur nicht auswendig was. Ist das relevant?
Nicht wirklich, man aber mal mit on und off testen.
deadletters schrieb:
Mir kam vor ein paar Minuten, dass ich Flüssigmetallwärmeleitpaste verwende. Kann das eine Rolle spielen? Im Sinne von, ist davon etwas auf irgendwelche umliegenden Leiter gekommen, und das verursacht das Ganze?
Das kann eine Ursache sein ja. Vielleicht stimmt auch der Anpressdruck des Kühler nicht mehr.
Vielleicht ist etwas im Sockel.
deadletters schrieb:
Aber müsste es dann nicht auch bei einem 2Std. Durchlauf von Prime aufgefallen sein?
2h sagen nichts aus, dass sollte schon bis zu 24h laufen. Oder einfach mal über Nacht laufen lassen.
deadletters schrieb:
Es ist alles so crazy, da ich mit den Komponenten ja schon ausführlich geplottet hab, ausser, dass ich eben beim RAM einen Garantietausch hatte.
Ok, kann natürlich sein, das hier der Mem Controller ein wegbekommen hat, je nachdem was vorgefallen ist.
 
-=Azrael=- schrieb:
Da das System versuch auf IRQ zuzugreifen die nicht vorhanden sind.
Es gibt noch etwas weiteres , was- aus meiner Sicht - sehr komisch ist:
Ich hab gestern meine letzte 16TB HDD ausrangiert, bzw. es ist im Gange. Seit gestern Abend verschieben die Plots von der 16TB Platte auf eine 18TB. Das Ganze lass ich am PC laufen.
Nun das Komische:
In der Zeit, in der der Kopiervorgang läuft, läuft die GUI ohne weiteres. Verliert die Plots nicht, farmt brav, und die Synchronisation der DB ist auch nicht abgebrochen. Selbiges hab ich zuvor beim Umzug von Plots von 16 auf 18TB Platten beobachten können.
Wie kommt das?
Und es sind 48 HDDs angeschlossen.
Abstürze beim Plotten finden auch während der Verschiebung statt. Das hab ich schon getestet.

-=Azrael=- schrieb:
Nicht wirklich, man aber mal mit on und off testen.
Werde ich testen.
-=Azrael=- schrieb:
Das kann eine Ursache sein ja. Vielleicht stimmt auch der Anpressdruck des Kühler nicht mehr.
Vielleicht ist etwas im Sockel.
Uff, OK, das heisst die Tage zeitraubende Arbeit.
-=Azrael=- schrieb:
2h sagen nichts aus, dass sollte schon bis zu 24h laufen. Oder einfach mal über Nacht laufen lassen.
Hm, OK, dann muss das wohl mal sein.
-=Azrael=- schrieb:
Ok, kann natürlich sein, das hier der Mem Controller ein wegbekommen hat, je nachdem was vorgefallen ist.
Was vorgefallen ist kann ich nicht sagen, nur dass die Bezeichnung eines RAM-Riegels in HWMonitor als Hieroglyphen dargestellt wurde, dass hab ich nach und nach entdeckt, da die Lichtsteuerung des PCs nicht mehr funktioniert hat.
 
Das wäre zu leicht. Ist deaktiviert. Und Festplatten Ausschalten hatte ich zuerst auf 0, hat sich immer wieder von Nie auf 0 geändert, daher steht es aktuell auf 1000000 Minuten, dass nicht da nachher doch ein Missverständnis ist, dass 0 heisst, sobald keine Aktivität = Festplatten aus. Aber keine Veränderung.
 
Komisch, bei mir bleibt es auf Nie, 0 bedeutet aber auch nie.
Ok, dann hat dies nichts mit USB zu tun.
Bevor du das System auseinander baust, lass einfach mal über Nacht Prime95 laufen, den Test wo alles getestet wird.

Und noch ein Tipp, wenn das System wieder stabil läuft, dann:
  • ein C7 Plot erstellen und danach eine Simulation durchführen, Bladebit sagt dir dann wie viele Plots deine GPU beim neuen Plotfilter unterstützen kann, sonst guckst du am Ende in die Röhre.
  • beim plotten mit Bladebit definitiv den automatischen Plotcheck durchführen und einen Grenzwert für die Qualität festlegen. Das wird zwar die Zeit zwischen den Plots etwas erhöhen, stellt aber sicher, das alle Plots ok sind und alle Plots z.B. eine Look Up Qualität von z.B. 80 oder 90% haben, je nachdem was du wählst.
 
Prime läuft nun seit fast 7h. Mir kam die Idee - hey schmeiss doch mal parallel das Plotten an. Seit 16Uhr werden nebenher Plots per Madmax erstellt, hier und da ein Abbruch, inzwischen aber bereits der 3. Plot, in Folge ohne Abbruch, fast fertiggestellt, da die Plots jeweils ca 1h benötigen.
Aber kein BSOD.

In der GUI bisher auch kein weiterer Aussetzer.
 
Ok, dann vielleicht mal doch die Kiste auseinanderbauen und CPU/Sockel anschauen.
Kann ja sein das doch irgendwo deine Metallpaste ist.
 
Nun hab ich noch dazu eine weitere Instanz plotten in gang gesetzt.
Heute Abend werd ich sowieso nicht mehr schrauben, somit kann ich Prime auch bis morgen laufen lassen.
Mal sehen, vielleicht findet ja doch noch ein BSOD statt.
Finde ich irgendwo eine Protokolldatei von Prime?

Hab schon überlegt, ob das MB nicht vielleicht irgendwo eine kalte Lötstelle hat, und wenn jetzt alles die ganze Zeit läuft, und warm ist, es einfach funktioniert, und wenn es wieder abkühlt das Problem wieder auftaucht.

Ich versuche morgen daran zu denken, einen weiteren Versuch zu starten, falls alles einfach läuft.
Plotten starten, bis es stabil plottet, danach Prime stoppen, und abwarten was geschieht.
Ergänzung ()

-=Azrael=- schrieb:
Und noch ein Tipp, wenn das System wieder stabil läuft, dann:
  • ein C7 Plot erstellen und danach eine Simulation durchführen, Bladebit sagt dir dann wie viele Plots deine GPU beim neuen Plotfilter unterstützen kann, sonst guckst du am Ende in die Röhre.
  • beim plotten mit Bladebit definitiv den automatischen Plotcheck durchführen und einen Grenzwert für die Qualität festlegen. Das wird zwar die Zeit zwischen den Plots etwas erhöhen, stellt aber sicher, das alle Plots ok sind und alle Plots z.B. eine Look Up Qualität von z.B. 80 oder 90% haben, je nachdem was du wählst.
Vielen Dank hierfür noch. Vielen Dank auch allgemein, für Deine ausdauernde, geduldige Unterstützung.
Kannst Du mir dafür die Befehlszeilen geben?
 
Zuletzt bearbeitet:
deadletters schrieb:
Hab schon überlegt, ob das MB nicht vielleicht irgendwo eine kalte Lötstelle hat, und wenn jetzt alles die ganze Zeit läuft, und warm ist, es einfach funktioniert, und wenn es wieder abkühlt das Problem wieder auftaucht.
Daran hab ich auch gedacht oder ein Problem mit C-States der CPU.
deadletters schrieb:
Kannst Du mir dafür die Befehlszeilen geben?
Ja, allerdings erst im laufe des Tages, da ich das alte System nochmal aufbauen muss um einige Daten zu sichern.
 
Heute morgen um viertel nach 5 hat sich der PC neu gestartet. Ich hab dann Prime nochmal angeschmissen, und nicht plotten lassen. Um viertel nach 11 kam es dann zu einem weiteren Neustart.
Also auseinandernehmen?
 
Ja ich würde mir mal die CPU, den Sockel und alles drumherum angucken.

Bladebit CUDA 3.1: https://github.com/Chia-Network/bladebit/releases

CLI würde so aussehen:
bladebit_cuda -f <key> -c <contractaddress> -n 1 --compress 7 cudaplot --disk-128 --check 100 --check-threshold 0.8 -t1 F:\temp1\ -t2 f:\temp2\ D:\plots

Die Plots werden dann geprüft und ein min. Qualität von 80% haben.
Ich selber habe habe 90% gewählt. Ist der Plot nicht ok oder erreicht die min. Qualität nicht, dann wird dieser gelöscht.
Die Plots sollten ebenfalls auf einer SSD liegen, bevor man diese auf eine HDD verschiebt.

Beachte das unter Windows weder der Modus mit 16GB noch ein anderer Modus einwandfrei laufen wird.
Unter Windows braucht man min. 128GB RAM.
In Linux sieht das anderes aus.
 
Zuletzt bearbeitet:
cuda ist ja in chia mit drin, also muss ich es ja nicht extra runterladen - oder?
Wofür steht check 100? Ich nehme an check-treshold 0.8 steht für 80% Güte, check-treshold 0.9 wären dann 90% richtig?

Es steht zwar dran, dass 128GB benötigt werden, mit meinen 64GB läuft es aber dennoch auch. Dauert zwar ewig, aber läuft.

Hast Du mir auch noch die Zeile für die Simulation?
 
Nope, alles was du brauchst ist aber Bestandteil des Windows Treibers für deine GPU.

-check 100 bedeutet das der Plot 100 mal auf proofs geprüft wird, dies ist wichtig damit der Plot auch ok ist und eine gewissen Qualität hat. Kannst es aber auch erhöhen, dauert aber länger.
Ein Wert der geringer als 100 ist, sagt quasi nicht aus.
-check-treshold 0.8 hast du schon richtig erkannt.


Einfach
CPU: bladebit_cuda -t 2 simulate --no-cuda -n 1000 -p 8 /mnt/ssd/plot-k32-dein.plot
GPU: bladebit_cuda simulate -n 1000 /mnt/ssd/plot-k32-dein.plot

Erweitert:
CPU: bladebit_cuda -t 2 simulate --no-cuda -n 1000 -p 8 --power 360 --size 400TB -f 512 /mnt/ssd/plot-k32-dein.plot
GPU: bladebit_cuda simulate -n 1000 --power 360 --size 400TB -f 512 /mnt/ssd/plot-k32-dein.plot

-t (threads)
-p (parallel contexts)

"p * t <= total system threads. So with a 2 core 4 thread cpu you have the options for -t and -p: 1:4, 2:2 , 4:2
More contexts increases memory usage, more threads can improves max latency. Note that -t must come before ""simulate"" everything else behind it."

-n (number of iterations) -n 1000 is recommended
-f (filter setting) default is 512 (current filter), -f 256 would simulate the result after the first filter reduction described in CHIP-12

-- power (duration in seconds)
-- size (farm size to simulate)
"These two are used together to simulate a fictitious farm of x size for y seconds.
e.g., adding --power 120 --size 1PB to the command, simulates a farm of 1PB for a duretion of 120 seconds. "

Hier nach ein Link zu Plots per Drive:
https://xch.farm/plots-per-drive/
 
Zuletzt bearbeitet:
-=Azrael=- schrieb:
CLI würde so aussehen:
bladebit_cuda -f <key> -c <contractaddress> -n 1 --compress 7 cudaplot --disk-128 --check 100 --check-threshold 0.8 -t1 F:\temp1\ -t2 f:\temp2\ D:\plots
ich bin in keinem pool, und meinen öffentlichen pool schlüssel nimmt es nicht an. und das in chia integrierte bladebit nimmt die checks nicht an.
 
Zuletzt bearbeitet:
Siehe weiter oben, da hast du den standalone release von Bladebit.

Dann geh z.B. in spacefarmes.io und erstelle einen Contract. NFT Plots können jederzeit wieder in den Solo Modus gehen, was ich dir nicht empfehlen würde.
Wichtiger ist, das du vorher mit dem neuen Plot Filter planst, Ende des Monats geht der Plotfilter von 512 auf 256 runter, würde mich nicht wundern wenn es noch eine Filteranpassung dieses Jahr gibt oder ein Wechsel auf k33 Plots um Plot grinding zu verhindern.

Bei https://xch.farm/plots-per-drive/ hast du einen Punkt mit max Farm Size, da sieht du wie sich alles verändern kann.
 
Zuletzt bearbeitet:
Jetzt PC tot.
Nachdem ich die CPU raus hatte und das im Sockel entdeckt hab, und versucht es etwas sauber zu machen:
1000018348.jpg
 
Zurück
Oben