Häufige Freezes - Hardware- oder Softwareproblem?

Photon

Rear Admiral
Registriert
Apr. 2006
Beiträge
5.141
Hallo Community,

ich habe hier eine ganz seltsame Geschichte anzubieten. Vor einigen Tagen erschien Kernel 3.0 im testing-Repo von Archlinux. Ich habe den Kernel aktualisiert, am gleichen Tag habe ich den Kernel-Energieverbrauch-Fix (Erzwingen von ASPM) von http://www.webupd8.org/2011/06/linux-kernel-power-issue-fix.html ausprobieren wollen und den entsprechenden Eintrag in der menu.lst vorgenommen.

Am nächsten Tag habe ich mehrfach einen Totalfreeze des Systems erlebt (Kursor bewegungslos, Maus- und Tastatureingaben wirkungslos). Die Freezes lassen sich mit 90%-er Wahrscheinlichkeit durch Abspielen eines (Flash-)Videos hervorrufen, treten aber auch sehr häufig beim bloßen Surfen auf. Ich hatte natürlich den Kernel-Update und den oben erwähnten Fix im Verdacht, leider hat ein Downgrade des Kernels und das Entfernen des Fixes aus der menu.lst keine Besserung gebracht. Mehr noch, ich konnte soeben die Freezes in einer LiveCD-Sitzung (PartedMagic) reproduzieren!

Das schließt im Prinzip Softwarefehler schon fast aus. Allerdings irritiert mich, dass die Freezes gerade nach dem Kernel-Update bzw. ASPM-Fix auftraten - bisher hatte ich nie mit Freezes zu kämpfen. Außerdem ist an der Hardware in den letzten Monaten nichts verändert worden. Ich habe trotzdem einen Memtest- und einen Smart-Check laufen lassen, beide ergebnislos.

Meine Befürchtung ist nun, dass der ASPM-Fix irgendwas am Bios zerschossen oder, schlimmer noch, am Mainboard selbst verbraten hat. Wie kann man so ein Problem angehen?

Vielen Dank für Ratschläge,
Photon
 
Gut wäre es jetzt herauszufinden ob dein BIOS ASPM ohne "fix" überhaupt hätte aktivieren lassen. Wenn ja kann es schonmal nicht daran liegen. Steht in der BIOS ACPI FADT (Fixed ACPI Description Table).

Waidmanns Heil!
 
Vielen Dank für den Tipp! Habe bei der Suche nach einer Methode die FADT auszulesen folgenden Thread über das gleiche Problem mit einem ähnlichen Board (ich habe das Asus A8N-E, dort geht es um ein A8N-VM CSM) gefunden: http://forums.gentoo.org/viewtopic-t-446071-start-0.html Werde gleich mal acpi=off probieren, bevor ich mich an ein BIOS-Update wage. Zu den FADT hab ich aber leider nichts gefunden, wie kommt man denn am besten an sie?

edit: Vielleicht hilft das ja was:

Code:
$ dmesg | grep -i aspm
[    0.099195] pci 0000:01:00.0: disabling ASPM on pre-1.1 PCIe device.  You can enable it with 'pcie_aspm=force'
[    0.099644] Unable to assume _OSC PCIe control. Disabling ASPM

Code:
$ dmesg | grep -i acpi
[    0.000000]  BIOS-e820: 000000007fff0000 - 000000007fff3000 (ACPI NVS)
[    0.000000]  BIOS-e820: 000000007fff3000 - 0000000080000000 (ACPI data)
[    0.000000] DMI: System manufacturer System Product Name/A8N-E, BIOS ASUS A8N-E ACPI BIOS Revision 1013 04/07/2006
[    0.000000] ACPI: RSDP 000f7560 00014 (v00 Nvidia)
[    0.000000] ACPI: RSDT 7fff3040 00034 (v01 Nvidia AWRDACPI 42302E31 AWRD 00000000)
[    0.000000] ACPI: FACP 7fff30c0 00074 (v01 Nvidia AWRDACPI 42302E31 AWRD 00000000)
[    0.000000] ACPI: DSDT 7fff3180 065F2 (v01 NVIDIA AWRDACPI 00001000 MSFT 0100000E)
[    0.000000] ACPI: FACS 7fff0000 00040
[    0.000000] ACPI: SSDT 7fff9880 000F7 (v01 PTLTD  POWERNOW 00000001  LTP 00000001)
[    0.000000] ACPI: MCFG 7fff99c0 0003C (v01 Nvidia AWRDACPI 42302E31 AWRD 00000000)
[    0.000000] ACPI: APIC 7fff97c0 0007C (v01 Nvidia AWRDACPI 42302E31 AWRD 00000000)
[    0.000000] ACPI: Local APIC address 0xfee00000
[    0.000000] Nvidia board detected. Ignoring ACPI timer override.
[    0.000000] If you got timer trouble try acpi_use_timer_override
[    0.000000] ACPI: PM-Timer IO Port: 0x4008
[    0.000000] ACPI: Local APIC address 0xfee00000
[    0.000000] ACPI: LAPIC (acpi_id[0x00] lapic_id[0x00] enabled)
[    0.000000] ACPI: LAPIC (acpi_id[0x01] lapic_id[0x01] disabled)
[    0.000000] ACPI: LAPIC_NMI (acpi_id[0x00] high edge lint[0x1])
[    0.000000] ACPI: LAPIC_NMI (acpi_id[0x01] high edge lint[0x1])
[    0.000000] ACPI: IOAPIC (id[0x02] address[0xfec00000] gsi_base[0])
[    0.000000] ACPI: INT_SRC_OVR (bus 0 bus_irq 0 global_irq 2 dfl dfl)
[    0.000000] ACPI: BIOS IRQ0 pin2 override ignored.
[    0.000000] ACPI: INT_SRC_OVR (bus 0 bus_irq 9 global_irq 9 high level)
[    0.000000] ACPI: INT_SRC_OVR (bus 0 bus_irq 14 global_irq 14 high edge)
[    0.000000] ACPI: INT_SRC_OVR (bus 0 bus_irq 15 global_irq 15 high edge)
[    0.000000] ACPI: IRQ9 used by override.
[    0.000000] ACPI: IRQ14 used by override.
[    0.000000] ACPI: IRQ15 used by override.
[    0.000000] Using ACPI (MADT) for SMP configuration information
[    0.014916] ACPI: Core revision 20110316
[    0.084351] PM: Registering ACPI NVS region at 7fff0000 (12288 bytes)
[    0.085696] ACPI: bus type pci registered
[    0.087550] ACPI: EC: Look up EC in DSDT
[    0.091964] ACPI: Interpreter enabled
[    0.092000] ACPI: (supports S0 S1 S3 S4 S5)
[    0.092149] ACPI: Using IOAPIC for interrupt routing
[    0.097619] ACPI: No dock devices found.
[    0.097685] PCI: Ignoring host bridge windows from ACPI; if necessary, use "pci=use_crs" and report a bug
[    0.097775] ACPI: PCI Root Bridge [PCI0] (domain 0000 [bus 00-ff])
[    0.099298] ACPI: PCI Interrupt Routing Table [\_SB_.PCI0._PRT]
[    0.099457] ACPI: PCI Interrupt Routing Table [\_SB_.PCI0.HUB0._PRT]
[    0.099610]  pci0000:00: Requesting ACPI _OSC control (0x1d)
[    0.128788] ACPI: PCI Interrupt Link [LNK1] (IRQs 3 4 5 7 9 10 11 12 14 15) *0, disabled.
[    0.129150] ACPI: PCI Interrupt Link [LNK2] (IRQs 3 4 5 7 9 10 11 12 14 15) *0, disabled.
[    0.129513] ACPI: PCI Interrupt Link [LNK3] (IRQs *3 4 5 7 9 10 11 12 14 15)
[    0.129826] ACPI: PCI Interrupt Link [LNK4] (IRQs *3 4 5 7 9 10 11 12 14 15)
[    0.130138] ACPI: PCI Interrupt Link [LNK5] (IRQs 3 4 5 7 9 10 11 12 14 15) *0, disabled.
[    0.130503] ACPI: PCI Interrupt Link [LUBA] (IRQs 3 4 5 7 9 10 *11 12 14 15)
[    0.130816] ACPI: PCI Interrupt Link [LUBB] (IRQs 3 4 5 7 9 10 11 12 14 15) *0, disabled.
[    0.131178] ACPI: PCI Interrupt Link [LMAC] (IRQs 3 4 *5 7 9 10 11 12 14 15)
[    0.131492] ACPI: PCI Interrupt Link [LACI] (IRQs 3 4 5 7 9 10 *11 12 14 15)
[    0.131805] ACPI: PCI Interrupt Link [LMCI] (IRQs 3 4 5 7 9 10 11 12 14 15) *0, disabled.
[    0.132167] ACPI: PCI Interrupt Link [LSMB] (IRQs *3 4 5 7 9 10 11 12 14 15)
[    0.132489] ACPI: PCI Interrupt Link [LUB2] (IRQs 3 4 *5 7 9 10 11 12 14 15)
[    0.132802] ACPI: PCI Interrupt Link [LIDE] (IRQs 3 4 5 7 9 10 11 12 14 15) *0, disabled.
[    0.133417] ACPI: PCI Interrupt Link [LSID] (IRQs 3 4 5 7 9 10 *11 12 14 15)
[    0.133740] ACPI: PCI Interrupt Link [LFID] (IRQs 3 4 *5 7 9 10 11 12 14 15)
[    0.134061] ACPI: PCI Interrupt Link [LPCA] (IRQs 3 4 5 7 9 10 11 12 14 15) *0, disabled.
[    0.134437] ACPI: PCI Interrupt Link [APC1] (IRQs 16) *0, disabled.
[    0.134621] ACPI: PCI Interrupt Link [APC2] (IRQs 17) *0, disabled.
[    0.134804] ACPI: PCI Interrupt Link [APC3] (IRQs 18) *0
[    0.134966] ACPI: PCI Interrupt Link [APC4] (IRQs 19) *0
[    0.135104] ACPI: PCI Interrupt Link [APC5] (IRQs *16), disabled.
[    0.135272] ACPI: PCI Interrupt Link [APCF] (IRQs 20 21 22 23) *0
[    0.135501] ACPI: PCI Interrupt Link [APCG] (IRQs 20 21 22 23) *0, disabled.
[    0.135751] ACPI: PCI Interrupt Link [APCH] (IRQs 20 21 22 23) *0
[    0.135980] ACPI: PCI Interrupt Link [APCJ] (IRQs 20 21 22 23) *0
[    0.136209] ACPI: PCI Interrupt Link [APCK] (IRQs 20 21 22 23) *0, disabled.
[    0.136886] ACPI: PCI Interrupt Link [APCS] (IRQs 20 21 22 23) *0
[    0.137115] ACPI: PCI Interrupt Link [APCL] (IRQs 20 21 22 23) *0
[    0.137345] ACPI: PCI Interrupt Link [APCZ] (IRQs 20 21 22 23) *0, disabled.
[    0.137600] ACPI: PCI Interrupt Link [APSI] (IRQs 20 21 22 23) *0
[    0.137835] ACPI: PCI Interrupt Link [APSJ] (IRQs 20 21 22 23) *0
[    0.138069] ACPI: PCI Interrupt Link [APCP] (IRQs 20 21 22 23) *0, disabled.
[    0.138538] PCI: Using ACPI for IRQ routing
[    0.146169] pnp: PnP ACPI init
[    0.146224] ACPI: bus type pnp registered
[    0.146459] pnp 00:00: Plug and Play ACPI device, IDs PNP0a08 PNP0a03 (active)
[    0.146735] system 00:01: Plug and Play ACPI device, IDs PNP0c02 (active)
[    0.147398] system 00:02: Plug and Play ACPI device, IDs PNP0c02 (active)
[    0.147454] pnp 00:03: Plug and Play ACPI device, IDs PNP0200 (active)
[    0.147513] pnp 00:04: Plug and Play ACPI device, IDs PNP0b00 (active)
[    0.147562] pnp 00:05: Plug and Play ACPI device, IDs PNP0800 (active)
[    0.147617] pnp 00:06: Plug and Play ACPI device, IDs PNP0c04 (active)
[    0.147818] pnp 00:07: Plug and Play ACPI device, IDs PNP0700 (active)
[    0.148073] pnp 00:08: Plug and Play ACPI device, IDs PNP0501 (active)
[    0.148552] pnp 00:09: Plug and Play ACPI device, IDs PNP0401 (active)
[    0.148826] pnp 00:0a: Plug and Play ACPI device, IDs PNPb006 (active)
[    0.149037] pnp 00:0b: Plug and Play ACPI device, IDs PNPb02f (active)
[    0.149148] system 00:0c: Plug and Play ACPI device, IDs PNP0c02 (active)
[    0.149820] system 00:0d: Plug and Play ACPI device, IDs PNP0c01 (active)
[    0.149830] pnp: PnP ACPI: found 14 devices
[    0.149862] ACPI: ACPI bus type pnp unregistered
[    0.186230] Switching to clocksource acpi_pm
[    0.243729] apm: overridden by ACPI.
[    0.951743] ACPI: PCI Interrupt Link [APCL] enabled at IRQ 23
[    1.001894] ACPI: PCI Interrupt Link [APCF] enabled at IRQ 22
[    1.062482] ACPI: PCI Interrupt Link [APSI] enabled at IRQ 21
[    1.063520] ACPI: PCI Interrupt Link [APSJ] enabled at IRQ 20
[    1.336951] ata2: nv_mode_filter: 0x739f&0x739f->0x739f, BIOS=0x7000 (0xc000) ACPI=0x701f (60:600:0x13)
[    4.868331] ACPI: Power Button [PWRB]
[    4.868476] ACPI: Power Button [PWRF]
[    4.869252] ACPI: Fan [FAN] (on)
[    4.879887] ACPI: acpi_idle registered with cpuidle
[    5.001080] ACPI: PCI Interrupt Link [APCH] enabled at IRQ 23
[    5.107962] ACPI: PCI Interrupt Link [APC3] enabled at IRQ 18
[    5.143724] parport_pc 00:09: reported by Plug and Play ACPI
[    5.149881] ACPI: Thermal Zone [THRM] (40 C)
[    5.165932] ACPI: PCI Interrupt Link [APC4] enabled at IRQ 19
[    5.524594] ACPI: PCI Interrupt Link [APCJ] enabled at IRQ 22
 
Zuletzt bearbeitet:
Unable to assume _OSC PCIe control. Disabling ASPM
Dein BIOS geht also schonmal nicht so ganz korrekt mit dem ACPI um.

acpidump gibt alle möglichen tabellen aus, leider im rohformat und bei mir gab es kein match für aspm, den ich verstehen würde ^^

Hier kannst du rausfinden ob deine Geräte ASPM können: http://linuxwireless.org/en/users/Documentation/ASPM
Interessanter ist aber vielleicht der part:
You can also muck with ASPM settings to debug root complex/endpoints. This is a feature which should *not* be used by the average user, this is designed more for developers, choosing the wrong parameters can damage your device.
Ob damit aber das bloße anschalten von ASPM gemeint ist? Kann ich mir irgendwie schwerlich vorstellen.


EDITH sagt, hätte man doch nur mal die manpage bis zum ende gelesen:
Code:
acpidump -t FACP > FACP.dat
acpixtract -a FACP.dat
iasl -d FACP.dat
Meiner sagt "PCIe ASPM Not Supported (V4) : 0". Was sich auch mit lspci -vvv deckt. Aber ob es jetzt schädlich ist wenn man es per OS trotzdem forciert? Ich probier es erstmal nicht aus ;)
 
Zuletzt bearbeitet von einem Moderator:
Hmm, so sieht die decodierte Datei aus:

Code:
/*
 * Intel ACPI Component Architecture
 * AML Disassembler version 20110316-32 [Apr  1 2011]
 * Copyright (c) 2000 - 2011 Intel Corporation
 * 
 * Disassembly of FACP.dat, Thu Jul 28 19:14:20 2011
 *
 * ACPI Data Table [FACP]
 *
 * Format: [HexOffset DecimalOffset ByteLength]  FieldName : FieldValue
 */

[000h 0000   4]                    Signature : "FACP"    /* Fixed ACPI Description Table */
[004h 0004   4]                 Table Length : 00000074
[008h 0008   1]                     Revision : 01
[009h 0009   1]                     Checksum : 89
[00Ah 0010   6]                       Oem ID : "Nvidia"
[010h 0016   8]                 Oem Table ID : "AWRDACPI"
[018h 0024   4]                 Oem Revision : 42302E31
[01Ch 0028   4]              Asl Compiler ID : "AWRD"
[020h 0032   4]        Asl Compiler Revision : 00000000

[024h 0036   4]                 FACS Address : 7FFF0000
[028h 0040   4]                 DSDT Address : 7FFF3180
[02Ch 0044   1]                        Model : 00
[02Dh 0045   1]                   PM Profile : 00 (Unspecified)
[02Eh 0046   2]                SCI Interrupt : 0009
[030h 0048   4]             SMI Command Port : 0000442E
[034h 0052   1]            ACPI Enable Value : A1
[035h 0053   1]           ACPI Disable Value : A0
[036h 0054   1]               S4BIOS Command : 00
[037h 0055   1]              P-State Control : 00
[038h 0056   4]     PM1A Event Block Address : 00004000
[03Ch 0060   4]     PM1B Event Block Address : 00000000
[040h 0064   4]   PM1A Control Block Address : 00004004
[044h 0068   4]   PM1B Control Block Address : 00000000
[048h 0072   4]    PM2 Control Block Address : 0000401C
[04Ch 0076   4]       PM Timer Block Address : 00004008
[050h 0080   4]           GPE0 Block Address : 00004020
[054h 0084   4]           GPE1 Block Address : 000044A0
[058h 0088   1]       PM1 Event Block Length : 04
[059h 0089   1]     PM1 Control Block Length : 02
[05Ah 0090   1]     PM2 Control Block Length : 01
[05Bh 0091   1]        PM Timer Block Length : 04
[05Ch 0092   1]            GPE0 Block Length : 08
[05Dh 0093   1]            GPE1 Block Length : 10
[05Eh 0094   1]             GPE1 Base Offset : 20
[05Fh 0095   1]                 _CST Support : 00
[060h 0096   2]                   C2 Latency : 0065
[062h 0098   2]                   C3 Latency : 03E9
[064h 0100   2]               CPU Cache Size : 0000
[066h 0102   2]           Cache Flush Stride : 0000
[068h 0104   1]            Duty Cycle Offset : 01
[069h 0105   1]             Duty Cycle Width : 03
[06Ah 0106   1]          RTC Day Alarm Index : 7D
[06Bh 0107   1]        RTC Month Alarm Index : 7E
[06Ch 0108   1]            RTC Century Index : 32
[06Dh 0109   2]   Boot Flags (decoded below) : 0000
               Legacy Devices Supported (V2) : 0
            8042 Present on ports 60/64 (V2) : 0
                        VGA Not Present (V4) : 0
                      MSI Not Supported (V4) : 0
                PCIe ASPM Not Supported (V4) : 0
[06Fh 0111   1]                     Reserved : 00
[070h 0112   4]        Flags (decoded below) : 000004A5
      WBINVD instruction is operational (V1) : 1
              WBINVD flushes all caches (V1) : 0
                    All CPUs support C1 (V1) : 1
                  C2 works on MP system (V1) : 0
            Control Method Power Button (V1) : 0
            Control Method Sleep Button (V1) : 1
        RTC wake not in fixed reg space (V1) : 0
            RTC can wake system from S4 (V1) : 1
                        32-bit PM Timer (V1) : 0
                      Docking Supported (V1) : 0
               Reset Register Supported (V2) : 1
                            Sealed Case (V3) : 0
                    Headless - No Video (V3) : 0
        Use native instr after SLP_TYPx (V3) : 0
              PCIEXP_WAK Bits Supported (V4) : 0
                     Use Platform Timer (V4) : 0
               RTC_STS valid on S4 wake (V4) : 0
                Remote Power-on capable (V4) : 0
                 Use APIC Cluster Model (V4) : 0
     Use APIC Physical Destination Mode (V4) : 0

Raw Table Data: Length 116 (0x74)

  0000: 46 41 43 50 74 00 00 00 01 89 4E 76 69 64 69 61  FACPt.....Nvidia
  0010: 41 57 52 44 41 43 50 49 31 2E 30 42 41 57 52 44  AWRDACPI1.0BAWRD
  0020: 00 00 00 00 00 00 FF 7F 80 31 FF 7F 00 00 09 00  .........1......
  0030: 2E 44 00 00 A1 A0 00 00 00 40 00 00 00 00 00 00  .D.......@......
  0040: 04 40 00 00 00 00 00 00 1C 40 00 00 08 40 00 00  .@.......@...@..
  0050: 20 40 00 00 A0 44 00 00 04 02 01 04 08 10 20 00   @...D........ .
  0060: 65 00 E9 03 00 00 00 00 01 03 7D 7E 32 00 00 00  e.........}~2...
  0070: A5 04 00 00                                      ....

Die ASPM-Zeile also genauso wie bei dir... Ansonsten: Habe die "acpi=off"-Option ausprobiert und nachdem er zweimal schon beim Boot eingefroren ist (ungefähr an der gleichen Stelle), habe ich sie wieder rausgenommen... Habe nun das ACPI im Bios ganz deaktiviert und warte auf den nächsten Freeze in der Hoffnung, dass nun keiner kommen wird. :)
 
Wie lief es mit dem Update?
ACPI ist ja eigentlich schon was das zumindest ich jeden tag benutze.
 
Das Bios-Update hab ich noch nicht gemacht, weil die erste Bios-Version für das A8N-E schon eine etwas höhere Versionsnummer hat, als das Update, von dem im Gentoo-Forum gesprochen wurde. Bin zwar nicht sicher, dass die Versionierung bei den beiden Mainboards übereinstimmt, scheint mir aber ziemlich wahrscheinlich (die Mainboards sind ähnlich, die Versionsnummern sind auch sehr nah beieinander).

Auf ACPI kann ich im Prinzip verzichten (wäre ja nur für Standby und Ruhezustand interessant, oder?), wenn dadurch die Freezes aufhören. :) Energiesparmodi benutze ich eh nicht.
Ergänzung ()

Tja, vergebliche Hoffnung, wieder ein Freeze. Weiß langsam nicht mehr, was man noch probieren könnte...
 
Ist es eigentlich ein hardfreeze? Lässt sich die NUM-LED toggeln? Nach einem altgr+druck+r? Wenn sysrq denn aktiv ist. Wenn es geht kannst du dann sicher auch auf TTY1 schalten und gucken ob der kernel was ausgespuckt hat (ohne quiet bzw mit verbose booten?). Wenn das umschalten nicht klappt könntest du noch versuchen mit e (statt r) SIGTERM an alles außer init zu senden, dann mit i SIGKILL.
Ansonsten der alte trick mit dem remote TTY, oder der neue mit dem KMS debugger.

Hast du eigentlich was an spannungen gedreht? Bzw. dreh mal alle wichtigen einen ticken rauf. Nach dem BIOS update und default laden ^^
 
Zuletzt bearbeitet von einem Moderator:
na halleluja !

und ich dachte ich wäre der einzige mit dem Problem

bei mir tritt das reproduzierbar nach einigen Stunden oder Tagen auf beim:

- beim Abspielen von Flash-Videos im Vollbildmodus
- hin- und herswitchen zwischen Programmen (alt-tab)
- häufiger oder eigentlich ausschließlich, wenn compositing (compiz-fusion) aktiviert ist
- relativ häufig beim surfen auf github


Grafikkarte ist eine 5850

Treiber: xf86-video-ati, libdrm, mesa (live ebuilds)


das tritt mit 2.6.39 [so ungefähr ab 2.6.39.1 - weiß gerade nicht, ob es auch mit 2.6.39 auftrat - mit neueren Versionen tritt es jedenfalls öfters auf] und 3.0.0 auf



es ist übrigens ein hardlock (magic sysrq key geht nicht, numlock zeigt auch keine Statusänderung)


an dem aspm-fix kann es wohl [zumindest bei mir] nicht liegen, da es mir früheren Kerneln (mindestens 2.6.37) noch aktiviert war und ging und dergleichen nicht auftrat




@Photon:

poste doch mal, mit welchem Kernel es neben 3.0 noch passiert [auf der livecd]

welche Grafikkarte, Treiber, etc. du einsetzt

wenn du auch eine ATI bzw. AMD Grafikkarte nutzt - versuch es einmal mit dem Catalyst

[ich hasse ihn zwar, weil er lauter ist, aber man kann zur Not die Lüftersteuerung auch manuell regeln, stabil war der jedoch in der Vergangenheit auch nicht gerade ^^]
 
Zuletzt bearbeitet:
Ok, die erste Frage, die sich mir stellt, ist ob die Freezes in beiden Fällen die gleiche Ursache haben. Die Vorgeschichte und die Hardware-Konfiguration ist ja denkbar unterschiedlich... Hab hier nämlich eine nVidia 7600GT mit dem proprietären Treiber am Laufen und das Problem trat das erste mal vor weniger als einer Woche auf. Außerdem konnte ich es schon zweimal aus einer LiveCD-Sitzung von PartedMagic (das mit einem älteren Kernel kommt) reproduzieren - aber eben nur in den letzten Tagen!

Was die Reproduzierbarkeit angeht: An manchen Tagen ist die Reproduzierbarkeit wunderbar: Kaum wird ein Flashvideo abgespielt, schon friert alles ein (Vollbild nicht erforderlich); an anderen Tagen umgekehrt keine Freezes bei Videos, dafür beim einfachen Arbeiten (gerade eben zum Beispiel beim Betrachten der Logs in einem Editor).

Compiz ist dauernd am Laufen, wäre vielleicht tatsächlich interessant, ohne Compiz zu testen (werd ich mal machen). An Spannungen hab ich nichts gedreht, CPU und Grafikkarte laufen auf Standardtakt.

Der Freeze ist insofern ein Hard Freeze, dass weder das Numlock-Umschalten funktioniert, noch der Kursor sich bewegen lässt. AltGr+Druck+R werd ich beim nächsten Freeze mal testen.

edit: Siehe auch https://bbs.archlinux.org/viewtopic.php?id=122832 Bin gespannt, ob auch in diesem Fall die Symptome ähnlich sind...

edit2: freak01: Es ist Parted Magic 6.1, Kernel 2.6.38.x (genauer weiß ich es noch nicht).
 
Zuletzt bearbeitet:
Nach sysrq dann nochmal numlock testen.
Irgendwie müssen sich doch infos über den freeze sammeln lassen? Ein "kompletter" kernel dump z.b.? Wenn man jetzt erfahrung im kernel hacking hätte.. ^^
 
Was noch verdächtig ist und mit dem Problem zu tun haben könnte: Unter Arch gibt es einen ganz hübschen Start-Vorgang, bei dem die gerade gestarteten Dienste in der Konsole aufgeführt werden und rechts wird der Status des jeweiligen Vorgangs angezeigt. Die Standardausgabe der jeweiligen Dienste wird versteckt. Sieht ungefähr so aus: http://allanmcrae.com/images/chakra/chakra09.png

Seit dem Tag, an dem die Freezes zum ersten Mal auftraten, erhalte ich ziemlich am Anfang des Boot-Vorgangs bei einem der Dienste eine "FAIL"-Meldung, außerdem wird danach der Standard-Output nicht mehr versteckt. Leider hat Letzteres zur Folge, dass die entsprechende Zeile schnell wieder vom Bildschirm verschwindet und ich nicht erkennen kann, was da schiefgelaufen ist. In /var/log/everything.log sehe ich aber leider keine Fehler... Sieht ungefähr so aus: http://no-paste.ch/show_411.html
 
Bei mir failed auch ständig firestarter, aber die firewall läuft trotzdem, hat also nicht unbedingt was auszusagen^^

Disabling lock debugging due to kernel taint. Ich würde es auf jeden fall mal ohne proprietären nvidia treiber probieren.
 
dann kann man eventuelle infos nur über ein remote-TTY bekommen. Soweit ich weiß.
 
Hmm, werd mich morgen mal schlau machen, wie das funktioniert (wenn du ein paar gute Links dazu hast, sag ich nicht nein :)).

Und noch eine schlechte Nachricht: Gerade mit Nouveau einen Freeze beim Abspielen eines Youtube-Videos gehabt...
 
Kann man Arch nicht mit einem Kommando starten das Zeile für Zeile die Bootmeldungen anzeigt? Eventuell lässt sich so der Dienst identifizieren der nicht korrekt startet.

Ansonsten scheint es Distributionsübergreifend zu sein, da Freak01 ja Gentoo benutzt, also ein Bug mit Kernel 3.0?

Seltsam aber das ältere Kernel dann auch nicht mehr laufen... Wird da irgendein Config angerührt?

Edit:

http://old.nabble.com/3.0-rc1:-powerpc-hangs-at-Kernel-virtual-memory-layout-td31745652.html

Ich hab aber wirklich keine Ahnung ob dich das Problem betrifft, da es hier um PPCs geht, die beschreiben aber auch Freezes mit Kernel 3.0 in Zusammenhang mit ASPM.
 
Zuletzt bearbeitet:
So ein Kommando wäre schon schön. :) Hab leider nichts derartiges finden können. Ich denke, die PPC-Geschichte ist etwas anders, hier friert ja schon beim Boot alles ein, bei mir erst nach längerer Benutzung.

Hier die Fortsetzung der Geschichte: Gestern Abend habe ich den Tipp von enteon ausprobieren wollen und packte einen alten Lappi aus, um mich von dort aus via SSH auf dem betroffenen PC anzumelden. Der PC hängt neben zwei anderen PCs an einem Router, der Laptop sollte sich per WLAN mit dem gleichen Router verbinden und dann per SSH übers lokale Netzwerk auf den Rechner zugreifen.

So war der Plan, doch leider fing bei einem Verbindungsversuch per WLAN der Router zu spinnen an und antwortete schließlich noch nicht mal mehr auf Pings. Das Internet verschwand auf allen angeschlossenen PCs.

Heute früh habe ich gleich mal einen Ping losgeschickt, doch der Router war immer noch nicht ansprechbar. Also habe ich ihn einige Male vom Strom genommen und, als das nichts half, habe ich die Konfiguration resettet. So ungefähr nach dem dritten Konfigurationsreset konnte ich mich per WLAN mit dem Router verbinden und mich in sein Konfigurations-Interface einloggen.

Nach einer erneuten Konfiguration des Routers haben alle PCs wieder Zugangs ins Netz - bis auf das Sorgenkind mit den Freezes. Hier ist das Netz mal da mal weg, sehr schön am Netzwerküberwachung-Applet zu sehen. Interessanterweise habe ich seit der ganzen Geschichte mit dem Router noch keinen einzigen Freeze gehabt (allerdings waren die Freezes auch gestern schon sehr selten).

Im Gegensatz zu den Freezes konnte ich die Netzwerkprobleme von der Parted Magic LiveCD aus nicht reproduzieren. Auch muss ich dazusagen, dass das Netz vor dem gestrigen Abend absolut stabil lief.

Könnte es sein, dass die Freezes und die neuerlichen Verbindungsabbrüche irgendwie zusammenhängen? Ich habe die wildesten Theorien, aber die Fakten sind noch wilder... Ob es eine Möglichkeit gibt, irgendeinen Verbindungsdaemon zu loggen, um den Verbindungsabbrüchen auf die Spur zu kommen?

In Ratlosigkeit,
Photon

edit: Nun sind auf einmal die Verbindungsaussetzer auch auf dem Laptop aufgetreten und ich habe den Router nochmal vom Strom genommen. Seitdem gibt es (bisher) keine Verbindungsabbrüche. Mal schauen, wie es mit den Freezes aussieht...
Ergänzung ()

Und wieder ein Freeze... Hat vielleicht jemand eine Anleitung für dieses Remote-TTY? Oder geht das vielleicht auch mit SSH? Und in beiden Fällen: Wie sollte man die Diagnostik angehen, falls SSHD beim Freeze nicht abkratzt?
 
Zuletzt bearbeitet:
Also ich hab es unter Debian Squeeze zum Teil das wenn ich Flash Elemente darstelle die Kiste abkackt. Treiber xorg-radeon.


@freak01 nich zu neue fglrx empfehlen die laufen meist nur mit älteren Kerneln ;).
 
der neuste catalyst läuft sogar mit 3.0.0 :p

der Monitor wacht bei mir mit fglrx seit einigen Versionen nicht mehr aus dem Standby bzw. sleep auf

-> no-go

also zurück zum xf86-video-ati (radeon) treiber


bis jetzt hatte ich keine freezes mehr [die kommen sicher noch - oder es ist tatsächlich stabiler geworden :) ]

ich hab libdrm mesa xf86-video-ati in der neusten testing - also nicht live-ebuild neu installiert

evtl. hat sich dadurch was zum Guten gewendet


wieder @topic:

@Photon:

hast du mal ein paar versionen von den nvidia blobs durchprobiert ?

es hört sich definitiv nach einem grafikkarten(-treiber) problem an

evtl. mal xorg.conf entfernen und mit einer neuen bzw. leeren versuchen


oder gleich direkt bei nvnews.net und deren forum vorbeischauen

da sind immer ein paar entwickler oder leute von nvidia unterwegs
 
Zurück
Oben