read-only Filesysteme nach intensiven Schreib-/Leseoperationen auf SSD

Begonnen von bluelupo, 2015/10/19, 16:55:32

Vorheriges Thema - Nächstes Thema

bluelupo

Hallo zusammen,

ich habe hier ein T430 mit einer SSD das mir gerade ziemlich Probleme macht. Ich baue auf diesem System die siduction-ISO's.

Wenn ich nun den Build anwerfe kommt nach einer gewissen Zeit folgende Meldung Journal und alle FS sind read-only gemountet.


Okt 19 16:31:13 darthvader kernel: ata1.00: exception Emask 0x0 SAct 0x7fffffff SErr 0x0 action 0x6 frozen
Okt 19 16:32:13 darthvader kernel: ata1.00: failed command: WRITE FPDMA QUEUED
Okt 19 16:32:13 darthvader kernel: ata1.00: cmd 61/20:00:48:59:0b/00:00:04:00:00/40 tag 0 ncq 16384 out
                                            res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Okt 19 16:32:13 darthvader kernel: ata1.00: status: { DRDY }
Okt 19 16:32:13 darthvader kernel: ata1.00: failed command: WRITE FPDMA QUEUED
Okt 19 16:32:13 darthvader kernel: ata1.00: cmd 61/08:08:70:5b:0b/00:00:04:00:00/40 tag 1 ncq 4096 out
                                            res 40/00:01:00:00:00/00:00:00:00:00/e0 Emask 0x4 (timeout)
Okt 19 16:32:13 darthvader kernel: ata1.00: status: { DRDY }
Okt 19 16:32:13 darthvader kernel: ata1.00: failed command: WRITE FPDMA QUEUED
Okt 19 16:32:13 darthvader kernel: ata1.00: cmd 61/18:10:80:5b:0b/00:00:04:00:00/40 tag 2 ncq 12288 out
                                            res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Okt 19 16:32:13 darthvader kernel: ata1.00: status: { DRDY }
Okt 19 16:32:13 darthvader kernel: ata1.00: failed command: WRITE FPDMA QUEUED
Okt 19 16:32:13 darthvader kernel: ata1.00: cmd 61/08:18:28:5c:0b/00:00:04:00:00/40 tag 3 ncq 4096 out
                                            res 40/00:fe:00:00:00/00:00:00:00:00/40 Emask 0x4 (timeout)
Okt 19 16:32:13 darthvader kernel: ata1.00: status: { DRDY }
Okt 19 16:32:13 darthvader kernel: ata1.00: failed command: WRITE FPDMA QUEUED
Okt 19 16:32:13 darthvader kernel: ata1.00: cmd 61/80:20:40:5c:0b/00:00:04:00:00/40 tag 4 ncq 65536 out
                                            res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)


Das extra angelegte Dateisystem für den ISO-Bau ist groß genug für den Bau der ISO's (20G) und wird auch nicht vollgeschrieben während des Laufes.


/dev/mapper/VGsys-LVbuild     20031    9268      9806   49% /mnt/share/build


Kann es sein das die SSD den Geist aufgibt?

Das System ist via LUKS/dm-crypt verschlüsselt


NAME                MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
sda                   8:0    0 223,6G  0 disk
├─sda1                8:1    0   350M  0 part  /boot
└─sda2                8:2    0 223,2G  0 part
  └─cryptsda2       254:0    0 223,2G  0 crypt
    ├─VGsys-LVroot  254:1    0     8G  0 lvm   /
    ├─VGsys-LVvar   254:2    0     6G  0 lvm   /var
    ├─VGsys-LVhome  254:3    0     2G  0 lvm   /home
    ├─VGsys-LVswap  254:4    0     2G  0 lvm   [SWAP]
    └─VGsys-LVbuild 254:5    0    20G  0 lvm   /mnt/share/build
sr0                  11:0    1  1024M  0 rom


Hardware Infos:

System:    Host: darthvader Kernel: 4.2.3-towo.1-siduction-amd64 x86_64 (64 bit gcc: 5.2.1)
           Console: tty 1 dm: lightdm Distro: siduction 15.1.0 White Room - kde - (201509060110)                                                                           
Machine:   System: LENOVO product: 2347A31 v: ThinkPad T430 serial: PBHYLXC  Chassis: type: 10 serial: PBHYLXC                                                             
           Mobo: LENOVO model: 2347A31 serial: 1ZLMB27D1FD Bios: LENOVO v: G1ETA7WW (2.67 ) date: 12/08/2014                                                               
CPU:       Dual core Intel Core i5-3320M (-HT-MCP-) cache: 3072 KB                                                                                                         
           flags: (lm nx sse sse2 sse3 sse4_1 sse4_2 ssse3 vmx) bmips: 10381                                                                                               
           clock speeds: min/max: 1200/3300 MHz 1: 1731 MHz 2: 1699 MHz 3: 1699 MHz 4: 1699 MHz                                                                             
Memory:    Array-1 capacity: 16 GB devices: 2 EC: None                                                                                                                     
           Device-1: ChannelA-DIMM0 size: 4 GB speed: 1600 MHz type: DDR3 (Synchronous)                                                                                     
           bus width: 64 bits manufacturer: Samsung part: M471B5273DH0-CK0 serial: 82D03BE3                                                                                 
           Device-2: ChannelB-DIMM0 size: 4 GB speed: 1600 MHz type: DDR3 (Synchronous)                                                                                     
           bus width: 64 bits manufacturer: Samsung part: M471B5273DH0-CK0 serial: 82D03BDE                                                                                 
Graphics:  Card: Intel 3rd Gen Core processor Graphics Controller bus-ID: 00:02.0 chip-ID: 8086:0166
           Display Server: X.org 1.17.2 drivers: intel (unloaded: fbdev,vesa)
           tty size: 172x39 Advanced Data: N/A for root out of X
Audio:     Card Intel 7 Series/C210 Series Family High Definition Audio Controller
           driver: snd_hda_intel bus-ID: 00:1b.0 chip-ID: 8086:1e20
           Sound: Advanced Linux Sound Architecture v: k4.2.3-towo.1-siduction-amd64
Network:   Card-1: Intel 82579LM Gigabit Network Connection
           driver: e1000e v: 3.2.5-k port: 5080 bus-ID: 00:19.0 chip-ID: 8086:1502
           IF: enp0s25 state: up speed: 1000 Mbps duplex: full mac: 00:21:cc:c9:da:cc
           Card-2: Intel Centrino Advanced-N 6205 [Taylor Peak]
           driver: iwlwifi bus-ID: 03:00.0 chip-ID: 8086:0085
           IF: wlp3s0 state: down mac: 60:67:20:03:9a:52
           WAN IP: 188.193.110.18 IF: wlp3s0 ip: N/A ip-v6: N/A
           IF: enp0s25 ip: 192.168.188.60 ip-v6: fe80::221:ccff:fec9:dacc
Drives:    HDD Total Size: 240.1GB (8.9% used)
           ID-1: /dev/sda model: INTEL_SSDSC2BW24 size: 240.1GB serial: CVCV228103D2240CGN temp: 0C
           Optical: /dev/sr0 model: HL-DT-ST DVDRAM GT50N rev: LT20 dev-links: cdrom,cdrw,dvd,dvdrw
           Features: speed: 24x multisession: yes
           audio: yes dvd: yes rw: cd-r,cd-rw,dvd-r,dvd-ram state: running
Partition: ID-1: / size: 7.8G used: 5.0G (68%) fs: ext4 dev: /dev/dm-1
           label: ROOT uuid: 53e1f377-4cab-4ac7-9cfa-a16ae9353939
           ID-2: /home size: 2.0G used: 550M (30%) fs: ext4 dev: /dev/dm-3
           label: HOME uuid: 34a36435-17ee-4025-8f58-73412371c614
           ID-3: /boot size: 331M used: 65M (21%) fs: ext4 dev: /dev/sda1
           label: BOOT uuid: 2ee03f0f-1213-4ae9-b631-0810741359a7
           ID-4: /var size: 5.9G used: 2.4G (42%) fs: ext4 dev: /dev/dm-2
           label: VAR uuid: b7bd571f-45d6-4d57-91bc-0ecd120afdce
           ID-5: /mnt/share/build size: 20G used: 11G (54%) fs: ext4 dev: /dev/dm-5
           label: BUILD uuid: c493339b-ff28-4b96-a0bf-14fa1ef9152d
           ID-6: swap-1 size: 2.15GB used: 0.00GB (0%) fs: swap dev: /dev/dm-4
           label: N/A uuid: bd29801b-75e3-4424-a052-28e8e76c1179
RAID:      No RAID data: /proc/mdstat missing-is md_mod kernel module loaded?
Unmounted: ID-1: /dev/sda2 size: 239.69G label: N/A uuid: bd04b0e7-bd1d-4cb2-8ea2-1348b8f2b420
           ID-2: /dev/dm-0 size: 239.69G label: N/A uuid: N/A
Sensors:   System Temperatures: cpu: 42.0C mobo: N/A
           Fan Speeds (in rpm): cpu: 2570
Info:      Processes: 179 Uptime: 1 min Memory: 205.5/7689.1MB Init: systemd v: 227 runlevel: 5 Gcc sys: 5.2.1
           Client: Shell (bash 4.3.421 running in tty 1) inxi: 2.2.28


EDIT: Die Firmware INTEL SSD520 (240GB) ist aktuell laut Firmware-Update-Tool von Intel

Maik

Kenne diese/ähnlich lautende Meldungen von ein ext4 System her, nach x-ten Mal Datenträger Fix für Bkp/Dep kein Bock mehr darauf gehabt daher der Wechsel zu XFS und seither ist Ruhe.(Manuelle Checks sind alle in Grünen).
Zum Schluss bin ich mir aber nicht zu 100% sicher ob da eventuell ein SW Fehler vorliegt/vorlag oder an den "gereinigten" Systemkomponenten (RAM & CO) bei der Fehlersuche.

der_bud

Hi bluelupo, vor einiger Zeit hatte ich das bei nem Bekannten mal gesehen und wir hatten uns damals die Finger nach der Fehlermeldung wundgegoogelt. Es sah so aus als wenn das mit bestimmten Kombinationen aus Bios/Controller/Firmware/Drive immer mal vorkommt, Plattenfehler bei hoher Last/hohem Durchsatz.
Irgendwie schien bei den Bugreports auch immer NCQ eine Rolle zu spielen, und es gab vor einiger Zeit sogar Berichte dass dies Feature bei einigen Herstellern fehlerhaft oder zumindest so implementiert wäre das es ja nach Ansprache durch den Kernel Probleme geben könnte (FUD? finde die Quellen nicht).

Du könntest einerseits mal versuchen per Grub-Kernelzeile mit libata.force=noncq oder direkt auf ata1 bezogen libata.force=1:noncqzu booten. Alternativ mal im Bios die Platte von Ahci Mode auf IDE Mode zurückstellen, das deaktiviert auch NCQ und anderes ohne dass die Plattenperformance darunter allzu deutlich leiden müsste.

---
Einige Quellen zu libata.force sowie "ich auch"-Bugs zu Deiner Fehlermeldung, teilweise mit mehr libata.force-Varianten (wie 3Gb/s statt 6Gb/s usw) :
Intel SSD failed
failed command: READ FPDMA QUEUED
libata ncq kernel errors
Zickige SSD (Windows, aber passt)
Du lachst? Wieso lachst du? Das ist doch oft so, Leute lachen erst und dann sind sie tot.

bluelupo

Hi der_bud,

ich werde mal im BIOS auf IDE zurückschalten und beobachten. In der Zwischenzeit habe ich mein BIOS des T430 noch aktualisiert, das hat aber leider keine positiven Auswirkungen gehabt.

bluelupo

Das Zurückstellen auf IDE Mode im BIOS bringt nichts. Ich habe immer noch das gleiche Fehlerbild. Immer wenn längere Zeit intensiv auf die SSD zugegriffen wird tauchen obige Fehlermeldungen auf und das Laptop mountet all Filesystem seine auf Read-Only. Auch ein geregelter Shutdown ist nicht mehr möglich, es hilft nur noch der Druck auf die Powertaste.

Ob es helfen würde die Intel SSD gegen ein anderes Fabrikat (zB Samsung) auszutauschen? Aber ich fürchte fast das ist kein Diskproblem. Wie seht ihr das?

EDIT: Firmware der Intel SSD und das BIOS sind auf den aktuellsten Stand

OppaErich

Hallo,

Du schriebst "nach einiger Zeit", dann könnte dass ein thermisches Problem sein. Kannst Du das Ding testweise offen betreiben damit die Wärme abstrahlen kann ? Dass das Kabel zu lang ist schließe ich bei einem Laptop einfach mal aus.

bluelupo

Hi OppaErich,

es ist in der Tat so. Das Problem tritt unter Last immer so nach 20-21 Minuten auf, wobei der Laptop nicht unter Vollast (CPU) steht.