The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"BUG: soft lockup - CPU#2 stuck for 10s!"
Вариант для распечатки  
Пред. тема | След. тема 
Форумы OpenNET: Виртуальная конференция (Public)
Изначальное сообщение [ Отслеживать ]

"BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 10-Окт-09, 20:39 
Приветствую!

В логах много сообщения типа:

Oct 10 19:05:52 ns kernel: BUG: soft lockup - CPU#0 stuck for 10s! [swapper:0]
Oct 10 19:05:53 ns kernel: BUG: soft lockup - CPU#3 stuck for 10s! [swapper:0]
Oct 10 19:05:53 ns kernel: BUG: soft lockup - CPU#2 stuck for 10s! [dd:29344]
Oct 10 19:05:54 ns kernel: BUG: soft lockup - CPU#0 stuck for 10s! [swapper:0]
Oct 10 19:05:55 ns kernel: BUG: soft lockup - CPU#3 stuck for 10s! [swapper:0]
Oct 10 19:05:55 ns kernel: BUG: soft lockup - CPU#2 stuck for 10s! [dd:29344]
Oct 10 19:05:56 ns kernel: BUG: soft lockup - CPU#0 stuck for 10s! [swapper:0]
Oct 10 19:05:56 ns kernel: BUG: soft lockup - CPU#0 stuck for 10s! [swapper:0]

Соответственно для swapper:

Oct 10 19:05:53 ns kernel: BUG: soft lockup - CPU#3 stuck for 10s! [swapper:0]
Oct 10 19:05:53 ns kernel: CPU 3:
Oct 10 19:05:53 ns kernel: Modules linked in: ip_conntrack_netbios_ns xt_state ip_conntrack nfnetlink iptable_filter ip_tables
ipt_REJECT ip6t_REJECT xt_tcpudp ip6table_filter ip6_tables x_tables ipv6 xfrm_nalgo crypto_api dm_mirror dm_multipath scsi_d
h video hwmon backlight sbs i2c_ec button battery asus_acpi acpi_memhotplug ac parport_pc lp parport floppy sg shpchp e1000e e
1000 i2c_i801 i2c_core serio_raw pcspkr dm_raid45 dm_message dm_region_hash dm_log dm_mod dm_mem_cache usb_storage ata_piix li
bata sd_mod scsi_mod raid1 ext3 jbd uhci_hcd ohci_hcd ehci_hcd
Oct 10 19:05:53 ns kernel: Pid: 0, comm: swapper Not tainted 2.6.18-164.el5 #1
Oct 10 19:05:53 ns kernel: RIP: 0010:[<ffffffff80064bcc>]  [<ffffffff80064bcc>] .text.lock.spinlock+0x2/0x30
Oct 10 19:05:53 ns kernel: RSP: 0018:ffff81011fcbff08  EFLAGS: 00000282
Oct 10 19:05:53 ns kernel: RAX: 0000000000091188 RBX: ffffffff8030c080 RCX: ffff81011fcbff30
Oct 10 19:05:53 ns kernel: RDX: ffff8100433f72c0 RSI: ffff81000101f560 RDI: ffffffff8030c100
Oct 10 19:05:53 ns kernel: RBP: ffff81011fcbfe80 R08: 00000000340cf100 R09: ffff810080beb200
Oct 10 19:05:53 ns kernel: R10: ffff81011fcbff98 R11: 0000000000000202 R12: ffffffff8005dc8e
Oct 10 19:05:53 ns kernel: R13: ffff81000101f560 R14: ffffffff80077717 R15: ffff81011fcbfe80
Oct 10 19:05:53 ns kernel: FS:  0000000000000000(0000) GS:ffff81011fc556c0(0000) knlGS:0000000000000000
Oct 10 19:05:53 ns kernel: CS:  0010 DS: 0018 ES: 0018 CR0: 000000008005003b
Oct 10 19:05:53 ns kernel: CR2: 00002b050954e000 CR3: 0000000112869000 CR4: 00000000000006e0
Oct 10 19:05:53 ns kernel:
Oct 10 19:05:53 ns kernel: Call Trace:
Oct 10 19:05:53 ns kernel:  <IRQ>  [<ffffffff8009d704>] __rcu_process_callbacks+0xe4/0x1a1
Oct 10 19:05:53 ns kernel:  [<ffffffff8009d7e4>] rcu_process_callbacks+0x23/0x43
Oct 10 19:05:53 ns kernel:  [<ffffffff80093ebb>] tasklet_action+0x89/0xfd
Oct 10 19:05:53 ns kernel:  [<ffffffff8001235a>] __do_softirq+0x89/0x133
Oct 10 19:05:53 ns kernel:  [<ffffffff8005e2fc>] call_softirq+0x1c/0x28
Oct 10 19:05:53 ns kernel:  [<ffffffff8006cb14>] do_softirq+0x2c/0x85
Oct 10 19:05:53 ns kernel:  [<ffffffff8006b2cc>] default_idle+0x0/0x50
Oct 10 19:05:53 ns kernel:  [<ffffffff8005dc8e>] apic_timer_interrupt+0x66/0x6c
Oct 10 19:05:53 ns kernel:  <EOI>  [<ffffffff8006b2f5>] default_idle+0x29/0x50
Oct 10 19:05:53 ns kernel:  [<ffffffff8004939e>] cpu_idle+0x95/0xb8
Oct 10 19:05:53 ns kernel:  [<ffffffff80076e23>] start_secondary+0x45a/0x469

и для dd:

Oct 10 19:05:53 ns kernel: BUG: soft lockup - CPU#2 stuck for 10s! [dd:29344]
Oct 10 19:05:53 ns kernel: CPU 2:
Oct 10 19:05:53 ns kernel: Modules linked in: ip_conntrack_netbios_ns xt_state ip_conntrack nfnetlink iptable_filter ip_tables
ipt_REJECT ip6t_REJECT xt_tcpudp ip6table_filter ip6_tables x_tables ipv6 xfrm_nalgo crypto_api dm_mirror dm_multipath scsi_d
h video hwmon backlight sbs i2c_ec button battery asus_acpi acpi_memhotplug ac parport_pc lp parport floppy sg shpchp e1000e e
1000 i2c_i801 i2c_core serio_raw pcspkr dm_raid45 dm_message dm_region_hash dm_log dm_mod dm_mem_cache usb_storage ata_piix li
bata sd_mod scsi_mod raid1 ext3 jbd uhci_hcd ohci_hcd ehci_hcd
Oct 10 19:05:53 ns kernel: Pid: 29344, comm: dd Not tainted 2.6.18-164.el5 #1
Oct 10 19:05:53 ns kernel: RIP: 0010:[<ffffffff80064bcf>]  [<ffffffff80064bcf>] .text.lock.spinlock+0x5/0x30
Oct 10 19:05:53 ns kernel: RSP: 0018:ffff81011fc8bf08  EFLAGS: 00000282
Oct 10 19:05:54 ns kernel: RAX: 0000000000091189 RBX: ffffffff8030c080 RCX: ffff81011fc8bf30
Oct 10 19:05:54 ns kernel: RDX: ffff81002d4b5ec0 RSI: ffff810001016f60 RDI: ffffffff8030c100
Oct 10 19:05:54 ns kernel: RBP: ffff81011fc8be80 R08: 00000000340cf100 R09: ffff810080be2c00
Oct 10 19:05:54 ns kernel: R10: ffff81011fc8bf98 R11: 00000000c4fcaf60 R12: ffffffff8005dc8e
Oct 10 19:05:54 ns kernel: R13: ffff810001016f60 R14: ffffffff80077717 R15: ffff81011fc8be80
Oct 10 19:05:54 ns kernel: FS:  00002b2e005a6f10(0000) GS:ffff81011fc55ec0(0000) knlGS:0000000000000000
Oct 10 19:05:54 ns kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 000000008005003b
Oct 10 19:05:54 ns kernel: CR2: 00002b27a074e0a0 CR3: 0000000111b21000 CR4: 00000000000006e0
Oct 10 19:05:54 ns kernel:
Oct 10 19:05:54 ns kernel: Call Trace:
Oct 10 19:05:54 ns kernel:  <IRQ>  [<ffffffff8009d6ac>] __rcu_process_callbacks+0x8c/0x1a1
Oct 10 19:05:54 ns kernel:  [<ffffffff8009d7e4>] rcu_process_callbacks+0x23/0x43
Oct 10 19:05:54 ns kernel:  [<ffffffff80093ebb>] tasklet_action+0x89/0xfd
Oct 10 19:05:54 ns kernel:  [<ffffffff8001235a>] __do_softirq+0x89/0x133
Oct 10 19:05:54 ns kernel:  [<ffffffff8005e2fc>] call_softirq+0x1c/0x28
Oct 10 19:05:54 ns kernel:  [<ffffffff8006cb14>] do_softirq+0x2c/0x85
Oct 10 19:05:54 ns kernel:  [<ffffffff8005dc8e>] apic_timer_interrupt+0x66/0x6c
Oct 10 19:05:54 ns kernel:  <EOI>  [<ffffffff80038d1a>] sha_transform+0x180/0x1ef
Oct 10 19:05:54 ns kernel:  [<ffffffff801a05b6>] extract_buf+0x3b/0xef
Oct 10 19:05:54 ns kernel:  [<ffffffff801a0ade>] extract_entropy_user+0x7b/0xd2
Oct 10 19:05:54 ns kernel:  [<ffffffff8000b695>] vfs_read+0xcb/0x171
Oct 10 19:05:54 ns kernel:  [<ffffffff80011b72>] sys_read+0x45/0x6e
Oct 10 19:05:54 ns kernel:  [<ffffffff8005d28d>] tracesys+0xd5/0xe0


Раньше такого не встречал, вот этому спрашиваю, что с таким делать? Проблема на программном уровне или с железом?


++++
В эти моменты сервер подвисает и не реагирует ни на что...
atop в близкие или в эти же моменты показывает нагрузку на один из CPU 100%, при чем все 100% приходятся на IRQ.

Высказать мнение | Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 10-Окт-09, 21:56 
+++

cat /proc/interrupts

           CPU0       CPU1       CPU2       CPU3
  0:  458351509          0          0          0    IO-APIC-edge  timer
  1:         79       2095          0          0    IO-APIC-edge  i8042
  6:          3          0          0          0    IO-APIC-edge  floppy
  8:          1          0          0          0    IO-APIC-edge  rtc
  9:          0          0          0          0   IO-APIC-level  acpi
12:          4          0          0          0    IO-APIC-edge  i8042
14:     128200    3925389          0      12915    IO-APIC-edge  ide0
15:     103314    3915075          0      18264    IO-APIC-edge  ide1
130:         23      14553        432     154202         PCI-MSI  eth1
169:          0          0          0          0   IO-APIC-level  ehci_hcd:usb1, uhci_hcd:usb5
201:          0          0          0          0   IO-APIC-level  ehci_hcd:usb2, uhci_hcd:usb6
209:         29    8720723         24    1801386   IO-APIC-level  uhci_hcd:usb3, uhci_hcd:usb8, eth0
217:       2883      85513          0      23044   IO-APIC-level  uhci_hcd:usb4, ata_piix
225:          0          0          0          0   IO-APIC-level  uhci_hcd:usb7
NMI:      12361      35137       9761       7626
LOC:  460383961  455472285  460968500  461959142
ERR:          0
MIS:          0

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

2. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от Elenium (ok) on 11-Окт-09, 05:37 
опера глючит?
Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

3. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 11-Окт-09, 07:23 
>опера глючит?

Да проверял и stress'ом и по статье http://www.opennet.ru/tips/info/837.shtml
Глюков не заметил... когда как работал с dd и посыпались эти сообщения.

При чем, в системе 3 диска: 2 SATA в программном RAID-1, система видит их как IDE диски (hd), из-за выставленного в IDE режим контроллера в БИОСЕ... и отдельный SATA диск, который видится как sd диск.

При работе со вторым проблем выявлено не было. Проявляются глюки и тормоза при работе с первыми двумя. Грешу на контроллер, в котором выставлен режим IDE. Надо проверять. Но пока еще до сервера не добрался, хочу узнать здесь, может еще какие мнения у людей есть.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

5. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от Elenium (ok) on 11-Окт-09, 07:47 
>[оверквотинг удален]
>
>При чем, в системе 3 диска: 2 SATA в программном RAID-1, система
>видит их как IDE диски (hd), из-за выставленного в IDE режим
>контроллера в БИОСЕ... и отдельный SATA диск, который видится как sd
>диск.
>
>При работе со вторым проблем выявлено не было. Проявляются глюки и тормоза
>при работе с первыми двумя. Грешу на контроллер, в котором выставлен
>режим IDE. Надо проверять. Но пока еще до сервера не добрался,
>хочу узнать здесь, может еще какие мнения у людей есть.

у меня такое бывало похожее, вот кстати что нибудь из этого попробуй, там параметры all-generic-ide pci=nommconf
http://handynotes.ru/2007/04/linux-intel-dg965ss-sata.html

и + тебе уже посоветовали noapic попробовать
и выставь честный sata в биосе

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

8. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 14-Окт-09, 21:14 
>и выставь честный sata в биосе

Выставил ACHI в биосе, все работает стабильно. Кажется, проблема решена.


Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

4. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от Etch on 11-Окт-09, 07:37 
ядро какое? Оперативную память тестировали? Попробуйте ещё загрузить ядро c параметром noapic
Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

6. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 11-Окт-09, 08:51 
>ядро какое? Оперативную память тестировали? Попробуйте ещё загрузить ядро c параметром noapic
>

CentOS 5.3 с Linux 2.6.18-164.el5 #1 SMP Thu Sep 3 03:28:30 EDT 2009 x86_64 x86_64 x86_64 GNU/Linux


Тестировали Stress Kit'ом http://dedic.ru/node/66
В его комплект входит и stress и memtester.

stress is a simple tool that imposes certain types of compute stress on UNIX-like operating systems.

memtester - userspace utility for testing the memory subsystem for faults. It's portable and should compile and work on any 32- or 64-bit Unix-like system. (Yes, even weird, proprietary Unices).

Сейчас отдельно еще запустил memtester (идет 3 цикл), пока никаких проблем...
Еще потестирую и попробую с noapic. С загрузочного диска память не проверял.


+++
Параллельная тема (http://www.opennet.ru/openforum/vsluhforumID1/86661.html) про скорость ребилда RAID-1 - это тема про этот же Intel SR1530HSH, с его ICH9 (http://www.intel.com/Products/Server/Chipsets/3200-3210/3200...)

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

7. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 11-Окт-09, 11:07 
>ядро какое? Оперативную память тестировали? Попробуйте ещё загрузить ядро c параметром noapic
>

На другом сервере один-в-один... ну может ICH8 там, вместо ICH9

cat /proc/interrupts
           CPU0       CPU1       CPU2       CPU3
  0: 2383135143  270209976  410026300  208174718    IO-APIC-edge  timer
  1:        688          2        311          3    IO-APIC-edge  i8042
  6:          0          1          1          0    IO-APIC-edge  floppy
  8:          0          0          0          1    IO-APIC-edge  rtc
  9:          0          0          0          0   IO-APIC-level  acpi
12:          0          2          1          1    IO-APIC-edge  i8042
90:         24          0    1644730          0         PCI-MSI  eth1
169:          0          0          0          0   IO-APIC-level  ehci_hcd:usb1
201:          0          0          0          0   IO-APIC-level  ehci_hcd:usb2, uhci_hcd:usb5
209:          6          8          8 1484257092   IO-APIC-level  uhci_hcd:usb3, uhci_hcd:usb7, eth0
217:          0          0          0          0   IO-APIC-level  uhci_hcd:usb4
225:          0          0          0          0   IO-APIC-level  uhci_hcd:usb6
233:  358328285          0          0          0         PCI-MSI  ahci
NMI:     895497     678622     908777     770651
LOC: 3271543355 3271543290 3271543221 3271543145
ERR:          0
MIS:          0

Таких тормозов не замечал, как на "проблемном". Вот тут насколько я помню стоит режим ahci

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

9. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от sHaggY_caT (ok) on 15-Окт-09, 10:15 
>[оверквотинг удален]
>         0  
>       PCI-MSI  ahci
>NMI:     895497     678622  
>   908777     770651
>LOC: 3271543355 3271543290 3271543221 3271543145
>ERR:          0
>MIS:          0
>
>Таких тормозов не замечал, как на "проблемном". Вот тут насколько я помню
>стоит режим ahci

Может быть, добавите баг в багзиллу? Мне тут должен достаться сервер с двумя _IDE_ дисками(и 6 SATA), уже боюсь, что с ним будет :(

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

10. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 15-Окт-09, 13:28 

>Может быть, добавите баг в багзиллу? Мне тут должен достаться сервер с
>двумя _IDE_ дисками(и 6 SATA), уже боюсь, что с ним будет
>:(

Добавлю, только куда именно?
OS CentOS 5.3 64 bit.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

11. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от sHaggY_caT (ok) on 15-Окт-09, 19:49 
>
>>Может быть, добавите баг в багзиллу? Мне тут должен достаться сервер с
>>двумя _IDE_ дисками(и 6 SATA), уже боюсь, что с ним будет
>>:(
>
>Добавлю, только куда именно?
>OS CentOS 5.3 64 bit.

Я бы добавила в центосную, они, если что, сами свяжутся с "upstream provider"

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

12. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 20-Окт-09, 09:54 
Кажется рано радовался....

Oct 20 11:32:11 ns kernel: BUG: soft lockup - CPU#1 stuck for 10s! [shutdown:18421]
Oct 20 11:32:11 ns kernel: CPU 1:
Oct 20 11:32:11 ns kernel: Modules linked in: ipv6 xfrm_nalgo crypto_api ip_conntrack_netbios_ns ipt_REJECT xt_tcpudp xt_state
ip_conntrack nfnetlink iptable_filter ip_tables x_tables dm_mirror dm_multipath scsi_dh video hwmon backlight sbs i2c_ec butt
on battery asus_acpi acpi_memhotplug ac parport_pc lp parport floppy shpchp sg i2c_i801 e1000 i2c_core e1000e serio_raw pcspkr
dm_raid45 dm_message dm_region_hash dm_log dm_mod dm_mem_cache usb_storage ahci libata sd_mod scsi_mod raid1 ext3 jbd uhci_hc
d ohci_hcd ehci_hcd
Oct 20 11:32:11 ns kernel: Pid: 18421, comm: shutdown Not tainted 2.6.18-164.el5 #1
Oct 20 11:32:11 ns kernel: RIP: 0010:[<ffffffff80064a58>]  [<ffffffff80064a58>] _spin_lock+0x3/0xa
Oct 20 11:32:11 ns kernel: RSP: 0018:ffff81003e9ebeb0  EFLAGS: 00000246
Oct 20 11:32:11 ns kernel: RAX: 0000000000000009 RBX: ffff81011c56b480 RCX: ffff81011b9e2448
Oct 20 11:32:11 ns kernel: RDX: ffffffff8005192d RSI: 0000000000000002 RDI: ffffffff803169a4
Oct 20 11:32:11 ns kernel: RBP: 000000000000003d R08: ffff8100d467cc70 R09: 000000000000003d
Oct 20 11:32:11 ns kernel: R10: ffff81011fce0008 R11: 0000000000000246 R12: ffff81011fce0008
Oct 20 11:32:11 ns kernel: R13: 0000000000000246 R14: ffff81011c56b480 R15: 0000000000000000
Oct 20 11:32:11 ns kernel: FS:  00002b2b999ef240(0000) GS:ffff81011fc05840(0000) knlGS:0000000000000000
Oct 20 11:32:11 ns kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 000000008005003b
Oct 20 11:32:11 ns kernel: CR2: 0000003bb6e928e8 CR3: 000000002e701000 CR4: 00000000000006e0
Oct 20 11:32:11 ns kernel:
Oct 20 11:32:11 ns kernel: Call Trace:
Oct 20 11:32:11 ns kernel:  [<ffffffff800feb3d>] dqput+0x65/0x19f
Oct 20 11:32:11 ns kernel:  [<ffffffff8005194f>] vfs_quota_sync+0xad/0x15a
Oct 20 11:32:11 ns kernel:  [<ffffffff8010216b>] quota_sync_sb+0x17/0xf0
Oct 20 11:32:11 ns kernel:  [<ffffffff80021f3f>] __up_read+0x19/0x7f
Oct 20 11:32:11 ns kernel:  [<ffffffff80102312>] sync_dquots+0xce/0x117
Oct 20 11:32:11 ns kernel:  [<ffffffff800df374>] do_sync+0x1c/0x5a
Oct 20 11:32:11 ns kernel:  [<ffffffff800df3c0>] sys_sync+0xe/0x12
Oct 20 11:32:11 ns kernel:  [<ffffffff8005d28d>] tracesys+0xd5/0xe0

++++

куча вот таких сообщений:

Oct 20 03:25:12 ns kernel: attempt to access beyond end of device
Oct 20 03:25:12 ns kernel: md4: rw=0, want=30198908928, limit=402251264
Oct 20 03:25:19 ns kernel: attempt to access beyond end of device
Oct 20 03:25:19 ns kernel: md4: rw=0, want=25936285128, limit=402251264
Oct 20 03:25:19 ns kernel: attempt to access beyond end of device
Oct 20 03:25:19 ns kernel: md4: rw=0, want=31265774784, limit=402251264

и

Oct 20 11:27:48 ns kernel: EXT3-fs error (device md4): ext3_free_blocks: Freeing blocks not in datazone - block = 1404987057,
count = 1
Oct 20 11:27:48 ns kernel: EXT3-fs error (device md4): ext3_free_blocks: Freeing blocks not in datazone - block = 3488490253,
count = 1
Oct 20 11:27:48 ns kernel: EXT3-fs error (device md4): ext3_free_blocks: Freeing blocks not in datazone - block = 2798831214,
count = 1
Oct 20 11:27:48 ns kernel: EXT3-fs error (device md4): ext3_free_blocks: Freeing blocks not in datazone - block = 2793348123,
count = 1
Oct 20 11:27:48 ns kernel: EXT3-fs error (device md4): ext3_free_blocks: Freeing blocks not in datazone - block = 2490717316,
count = 1


++++

система "паникует" что ли... переводит все разделы в режим только чтения и хоть ssh доступен, только спасает жесткий ребут.

Может ли быть причина в SATA кабеле? Контроллер? Диски? Софт? Куда копать? Чего смотреть?


Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

13. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от sHaggY_caT (ok) on 20-Окт-09, 11:45 
>[оверквотинг удален]
>count = 1
>
>
>++++
>
>система "паникует" что ли... переводит все разделы в режим только чтения и
>хоть ssh доступен, только спасает жесткий ребут.
>
>Может ли быть причина в SATA кабеле? Контроллер? Диски? Софт? Куда копать?
>Чего смотреть?

В гугле кое-что есть :)

Например:

http://linux.derkeiler.com/Mailing-Lists/Fedora/2008-02/msg0...

Может быть, действительно что-то с партициями и их размерами?

В крупных сетях такие проблемы решаются проще:

1. Вытаскиваются диски и вставляются в резервную платформу
2. Если проблема не повторяется, она решена, и старая платформа гоняется на всех возможных тестах длительное время
3. Если проблема повторяется, то заливается из PXE-шаблона такой же сервер, на него перевозят (обычно, автоматизированно) сервисы со старого сервера, проблема должна быть решена.

У Вас есть резервный сервер? Если есть, то стоит просто переставить диски в него, если проблема повториться и в нем, вставить новые диски в старый сервер, и перенести сервисы со старого.

Если сервера нет, то нужно извращаться :( Но резервная платформа это очень правильно... Хотя для SMB-сегмента иногда непозволительная роскошь.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

14. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter (ok) on 20-Окт-09, 14:41 
>
>Может быть, действительно что-то с партициями и их размерами?
>

Да, возможно дело в них.

hdparm /dev/sda

/dev/sda:
IO_support   =  0 (default 16-bit)
readonly     =  0 (off)
readahead    = 256 (on)
geometry     = 30522/255/63, sectors = 490350672, start = 0

и

fdisk -l /dev/sda

Диск /dev/sda: 251.0 ГБ, 251059544064 байт
255 heads, 63 sectors/track, 30522 cylinders
Единицы = цилиндры по 16065 * 512 = 8225280 байт

Устр-во Загр     Начало       Конец       Блоки   Id  Система
/dev/sda1   *           1         261     2096451   fd  Автоопределение Linux raid
/dev/sda2             262        2872    20972857+  fd  Автоопределение Linux raid
/dev/sda3            2873        4439    12586927+  fd  Автоопределение Linux raid
/dev/sda4            4440       30522   209511697+   5  Расширенный
/dev/sda5            4440        4961     4192933+  fd  Автоопределение Linux raid
/dev/sda6            4962        5483     4192933+  82  Linux своп / Solaris
/dev/sda7            5484       30522   201125736   fd  Автоопределение Linux raid


чего-то не понимаю, почему обращается к

Freeing blocks not in datazone - block = 2 490 717 316,count = 1

если все в разделе 201125736 блоков??? О_о


Хотя.... начинаю понимать.

После смены режима с IDE на AHCI, я не переразбивал диски заново. А поверх них установил систему с форматированием. Может быть это причиной такого поведения?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

15. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от sHaggY_caT (ok) on 21-Окт-09, 06:53 
>[оверквотинг удален]
>= 1
>
>если все в разделе 201125736 блоков??? О_о
>
>
>Хотя.... начинаю понимать.
>
>После смены режима с IDE на AHCI, я не переразбивал диски заново.
>А поверх них установил систему с форматированием. Может быть это причиной
>такого поведения?

Лучше в sdparm посмотреть. Перенесли бы Вы ваши сервисы на другую Вашу машину, если это возможно, пока не поздно, а эту под пересетап :)

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

16. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 21-Окт-09, 09:54 

>Лучше в sdparm посмотреть. Перенесли бы Вы ваши сервисы на другую Вашу
>машину, если это возможно, пока не поздно, а эту под пересетап
>:)

Уже перенесли, всю ночь гонял bonnie++, никаких ошибок. Хотя возможно, что он не лезет в те области диска... Сегодня забираем с площадки на пересетап.


Ок, посмотрим, что сие sdparm такое. Пока при первом просмотре вывода sdparm -а ничего не понятно. Благодарю.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

17. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 21-Окт-09, 21:21 
>Ок, посмотрим, что сие sdparm такое. Пока при первом просмотре вывода sdparm
>-а ничего не понятно. Благодарю.

Привезли, а он даже не запустился как следует.
Не смог примонтировать разделы, куча ругани и ошибок.

fsck -f

не помог. Будем систему заново ставить и диски переразбивать.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

18. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от sHaggY_caT (ok) on 22-Окт-09, 02:10 
>>Ок, посмотрим, что сие sdparm такое. Пока при первом просмотре вывода sdparm
>>-а ничего не понятно. Благодарю.
>
>Привезли, а он даже не запустился как следует.
>Не смог примонтировать разделы, куча ругани и ошибок.
>
>fsck -f
>
>не помог. Будем систему заново ставить и диски переразбивать.

Ну вот и хорошо... Я бы сперва поставила что-то тестовое (или даже загрузилась с какого-то тестового комплекта), вдруг есть аппаратная проблема?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

19. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 26-Окт-09, 11:07 
Вот, что имеем.
1. Проверка на бэдблоки прошла успешно, ничего не обнаружено!
2. Запускаем bonnie++ и на выходе стопор и Read-only file system:

bonnie++ -u nobody -d /home/tmp -n 100:150000:100:10 -x 100
Using uid:99, gid:99.
format_version,bonnie_version,name,file_size,io_chunk_size,putc,putc_cpu,put_block,put_block_cpu,rewrite,rewrite_cpu,getc,getc_cpu,get_block,get_block_cpu,seeks,seeks_cpu,num_files,max_size,min_size,num_dirs,file_chunk_size,seq_create,seq_create_cpu,seq_stat,seq_stat_cpu,seq_del,seq_del_cpu,ran_create,ran_create_cpu,ran_stat,ran_stat_cpu,ran_del,ran_del_cpu,putc_latency,put_block_latency,rewrite_latency,getc_latency,get_block_latency,seeks_latency,seq_create_latency,seq_stat_latency,seq_del_latency,ran_create_latency,ran_stat_latency,ran_del_latency
Writing a byte at a time...done
Writing intelligently...done
Rewriting...done
Reading a byte at a time...done
Reading intelligently...done
start 'em...done...done...done...done...done...
Create files in sequential order...done.
Stat files in sequential order...Can't read data.
Cleaning up test directory after error.
Bonnie: drastic I/O error (rmdir): Read-only file system

в логах сначала:

Oct 26 13:44:30 ns-local kernel: SCSI device sdb: drive cache: write back
Oct 26 13:44:53 ns-local kernel: ata3.00: exception Emask 0x10 SAct 0x0 SErr 0x4010000 action 0xa frozen
Oct 26 13:44:53 ns-local kernel: ata3.00: irq_stat 0x00400040, connection status changed
Oct 26 13:44:53 ns-local kernel: ata3: SError: { PHYRdyChg DevExch }
Oct 26 13:44:53 ns-local kernel: ata3.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Oct 26 13:44:53 ns-local kernel:          res 40/00:a4:17:e5:7d/00:00:18:00:00/40 Emask 0x10 (ATA bus error)
Oct 26 13:44:53 ns-local kernel: ata3.00: status: { DRDY }
Oct 26 13:44:54 ns-local kernel: ata3: soft resetting link
Oct 26 13:44:59 ns-local kernel: ata3: port is slow to respond, please be patient (Status 0x80)
Oct 26 13:44:59 ns-local kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Oct 26 13:45:29 ns-local kernel: ata3.00: qc timeout (cmd 0xec)
Oct 26 13:45:29 ns-local kernel: ata3.00: failed to IDENTIFY (I/O error, err_mask=0x5)
Oct 26 13:45:29 ns-local kernel: ata3.00: revalidation failed (errno=-5)
Oct 26 13:45:29 ns-local kernel: ata3: failed to recover some devices, retrying in 5 secs
Oct 26 13:45:47 ns-local kernel: ata3: hard resetting link
Oct 26 13:45:49 ns-local kernel: ata3: port is slow to respond, please be patient (Status 0x80)
Oct 26 13:45:50 ns-local kernel: ata3: COMRESET failed (errno=-16)
Oct 26 13:45:51 ns-local kernel: ata3: hard resetting link
Oct 26 13:45:52 ns-local kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Oct 26 13:45:53 ns-local kernel: ata3.00: configured for UDMA/133
Oct 26 13:45:55 ns-local kernel: ata3: EH complete
Oct 26 13:45:56 ns-local kernel: SCSI device sda: 490350672 512-byte hdwr sectors (251060 MB)
Oct 26 13:45:57 ns-local kernel: sda: Write Protect is off
Oct 26 13:45:57 ns-local kernel: SCSI device sda: drive cache: write back
Oct 26 13:46:42 ns-local kernel: ata4.00: exception Emask 0x10 SAct 0x0 SErr 0x4010000 action 0xa frozen
Oct 26 13:46:42 ns-local kernel: ata4.00: irq_stat 0x00400040, connection status changed
Oct 26 13:46:42 ns-local kernel: ata4: SError: { PHYRdyChg DevExch }
Oct 26 13:46:42 ns-local kernel: ata4.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Oct 26 13:46:42 ns-local kernel:          res 40/00:dc:77:dd:08/00:00:19:00:00/40 Emask 0x10 (ATA bus error)
Oct 26 13:46:42 ns-local kernel: ata4.00: status: { DRDY }
Oct 26 13:46:43 ns-local kernel: ata4: soft resetting link
Oct 26 13:46:48 ns-local kernel: ata4: port is slow to respond, please be patient (Status 0x80)
Oct 26 13:46:49 ns-local kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Oct 26 13:47:19 ns-local kernel: ata4.00: qc timeout (cmd 0xec)
Oct 26 13:47:19 ns-local kernel: ata4.00: failed to IDENTIFY (I/O error, err_mask=0x5)
Oct 26 13:47:19 ns-local kernel: ata4.00: revalidation failed (errno=-5)
Oct 26 13:47:19 ns-local kernel: ata4: failed to recover some devices, retrying in 5 secs
Oct 26 13:47:36 ns-local kernel: ata4: hard resetting link
Oct 26 13:47:37 ns-local kernel: ata4: port is slow to respond, please be patient (Status 0x80)
Oct 26 13:47:38 ns-local kernel: ata4: COMRESET failed (errno=-16)
Oct 26 13:47:39 ns-local kernel: ata4: hard resetting link
Oct 26 13:47:40 ns-local kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Oct 26 13:47:42 ns-local kernel: ata4.00: configured for UDMA/133
Oct 26 13:47:43 ns-local kernel: ata4: EH complete
Oct 26 13:47:44 ns-local kernel: SCSI device sdb: 490350672 512-byte hdwr sectors (251060 MB)
Oct 26 13:47:45 ns-local kernel: sdb: Write Protect is off
Oct 26 13:47:48 ns-local kernel: SCSI device sdb: drive cache: write back

ну а потом, как началась операция по удалению файлов уже знакомые сообщения вида:

Oct 26 13:52:19 ns-local kernel: attempt to access beyond end of device
Oct 26 13:52:19 ns-local kernel: md6: rw=0, want=2285954248, limit=406797696
Oct 26 13:52:19 ns-local kernel: attempt to access beyond end of device
Oct 26 13:52:19 ns-local kernel: md6: rw=0, want=29745254528, limit=406797696
Oct 26 13:52:19 ns-local kernel: attempt to access beyond end of device
Oct 26 13:52:19 ns-local kernel: md6: rw=0, want=21211417944, limit=406797696
Oct 26 13:52:19 ns-local kernel: attempt to access beyond end of device

и

Oct 26 13:52:27 ns-local kernel: EXT3-fs error (device md6): ext3_free_blocks: Freeing blocks not in datazone - block = 3477063708, count = 1
Oct 26 13:52:27 ns-local kernel: Aborting journal on device md6.
Oct 26 13:52:27 ns-local kernel: EXT3-fs error (device md6): ext3_free_blocks: Freeing blocks not in datazone - block = 1734633542, count = 1
Oct 26 13:52:27 ns-local kernel: EXT3-fs error (device md6): ext3_free_blocks: Freeing blocks not in datazone - block = 4081790934, count = 1
Oct 26 13:52:27 ns-local kernel: EXT3-fs error (device md6): ext3_free_blocks: Freeing blocks not in datazone - block = 832593632, count = 1

Если при этом все разделы удалось перемонтировать в rw командой

mount -o remount, rw /

то попытка перемонтировать тестируемый раздел провалилась.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

20. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 26-Окт-09, 11:27 
Ребут

shutdown -r now

и раздел не монтируемый, сервер в дауне...

Если бы корневые разделы не перемонтировал бы в rw, то команда, как практика показывает вызвала бы ошибку:

 BUG: soft lockup - CPU#2 stuck for 10s!

Вот такая вот засада....

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

21. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 28-Окт-09, 19:44 
>
>Ну вот и хорошо... Я бы сперва поставила что-то тестовое (или даже
>загрузилась с какого-то тестового комплекта), вдруг есть аппаратная проблема?

На сервере 3 HDD, проверил все на бэдблоки - все чисто.
На каждый диск по отдельности установил CentOS 5.2: установил сначала на один, прогнал тесты, потом на второй прогнал тесты и так же на третий. По отдельности все диски живые, никаких подобных ошибок не было обнаружено: bonnie++ отпахал как надо.

В этих трех тестах, диски без RAID, используется разбиение по умолчанию, предлагаемое установщиком операционки, т.е. с LVM.

Диски:
1. WD RE3 SATA 16/MB Cache WD2502ABYS, LBA 490350672
2. WD RE3 SATA 16/MB Cache WD2502ABYS, LBA 490350672
3. Seagate Barracuda 7200.10 ST3250410AS

Первые два использовались в программном raid1 (mdadm).

Какие будут соображения? Завтра хочу проверить без LVM. Не уже ли проблема в RAID'е?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

22. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от sHaggY_caT (ok) on 28-Окт-09, 20:06 
>[оверквотинг удален]
>
>Диски:
>1. WD RE3 SATA 16/MB Cache WD2502ABYS, LBA 490350672
>2. WD RE3 SATA 16/MB Cache WD2502ABYS, LBA 490350672
>3. Seagate Barracuda 7200.10 ST3250410AS
>
>Первые два использовались в программном raid1 (mdadm).
>
>Какие будут соображения? Завтра хочу проверить без LVM. Не уже ли проблема
>в RAID'е?

Не думаю. Я о таких багах не слышала. Вы пробовали ставить Ваш raid1 зачисто?
Расскажите, как Вы ставите?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

23. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 28-Окт-09, 20:26 
>Не думаю. Я о таких багах не слышала. Вы пробовали ставить Ваш
>raid1 зачисто?
>Расскажите, как Вы ставите?

RAID1 ставил на этапе установки OS через анаконду. Там на этапе разбивки дисков, создавал необходимое количество разделов Linux raid на каждом HDD, потом собирал raid1.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

24. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от sHaggY_caT (ok) on 28-Окт-09, 23:57 
>>Не думаю. Я о таких багах не слышала. Вы пробовали ставить Ваш
>>raid1 зачисто?
>>Расскажите, как Вы ставите?
>
>RAID1 ставил на этапе установки OS через анаконду. Там на этапе разбивки
>дисков, создавал необходимое количество разделов Linux raid на каждом HDD, потом
>собирал raid1.

попробуйте делать не через Анаконду, а руками. Поставить систему на один диск, а потом создать зеркало через mdadm, хотя это уже пляски с бубном..

Я бы попросила, если бы Вы дали, ssh на эту железку, но максимум, что могла бы проверить, это отсутствие какой-либо глупой ошибки


Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

26. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 29-Окт-09, 12:58 

>попробуйте делать не через Анаконду, а руками. Поставить систему на один диск,
>а потом создать зеркало через mdadm, хотя это уже пляски с
>бубном..

Аналогичный сервер (платформа) у нас уже используется под нагрузкой.
Подобный проблем там не было. Два отличия это диски: здесь 2 HDD WD + Barracuda, там все сигейты. Поставщик разный: проблемный взяли не там, где обычно.

>Я бы попросила, если бы Вы дали, ssh на эту железку, но
>максимум, что могла бы проверить, это отсутствие какой-либо глупой ошибки

Сервер за натом. Сейчас пока доступ делать не буду.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

30. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от sHaggY_caT (ok) on 29-Окт-09, 16:25 
>Аналогичный сервер (платформа) у нас уже используется под нагрузкой.
>Подобный проблем там не было. Два отличия это диски: здесь 2 HDD
>WD + Barracuda, там все сигейты. Поставщик разный: проблемный взяли не
>там, где обычно.

Да, я помню, Вы же писали. Но у Вас же еще и различается SATA-контроллер...

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

25. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от pavel_simple (ok) on 29-Окт-09, 00:07 
проверить
1. железо
2. железо
3. ещё раз железо и особенно память
4. проверить обновления для всех firmware влючая диски
5. повторить с 1-ого по третий влючительно.

lvm и md на нормальной системе (CentOS к ним относится) работает ВСЕГДА стабильно.

P.S. проферка на bad-block-и жестких дисков.... эта не та процедура которую нужно проводить - в первую очередь из-за того что sector relocation изобрели довольно давно. Обязательно нужно смотреть SMART статус.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

27. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 29-Окт-09, 13:35 
>проверить
>1. железо
>2. железо
>3. ещё раз железо и особенно память
>4. проверить обновления для всех firmware влючая диски
>5. повторить с 1-ого по третий влючительно.

Проверяли:

1. stress
2. bonnie++
3. smartcl
4. memtester
5. Сейчас запустили Memtest86

Какие еще тесты есть?

>lvm и md на нормальной системе (CentOS к ним относится) работает ВСЕГДА
>стабильно.
>
>P.S. проферка на bad-block-и жестких дисков.... эта не та процедура которую нужно
>проводить - в первую очередь из-за того что sector relocation изобрели
>довольно давно. Обязательно нужно смотреть SMART статус.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

28. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от pavel_simple (ok) on 29-Окт-09, 16:08 
>[оверквотинг удален]
>>5. повторить с 1-ого по третий влючительно.
>
>Проверяли:
>
>1. stress
>2. bonnie++
>3. smartcl
>4. memtester
>5. Сейчас запустили Memtest86
>

ну ии....

что говорит SMART?
memtest?

прошивки обновленны?
>Какие еще тесты есть?
>
>>lvm и md на нормальной системе (CentOS к ним относится) работает ВСЕГДА
>>стабильно.
>>
>>P.S. проферка на bad-block-и жестких дисков.... эта не та процедура которую нужно
>>проводить - в первую очередь из-за того что sector relocation изобрели
>>довольно давно. Обязательно нужно смотреть SMART статус.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

32. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 30-Окт-09, 10:32 
>
>что говорит SMART?

Что именно интересует? Весь листинг привести?

>memtest?

22 часа отработал, 37 циклов пройдено, ошибок 0.

>прошивки обновленны?

Нет, пока без этого.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

29. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от sHaggY_caT (ok) on 29-Окт-09, 16:21 
>[оверквотинг удален]
>5. Сейчас запустили Memtest86
>
>Какие еще тесты есть?
>
>>lvm и md на нормальной системе (CentOS к ним относится) работает ВСЕГДА
>>стабильно.
>>
>>P.S. проферка на bad-block-и жестких дисков.... эта не та процедура которую нужно
>>проводить - в первую очередь из-за того что sector relocation изобрели
>>довольно давно. Обязательно нужно смотреть SMART статус.

Можно еще разобрать, и протестить по частям :)
Например, диски вставить в другую систему, и там прогнать те же тесты, заменить память.

Таким образом по очереди исключить источник проблем. Я тоже не верю, что это софтовая проблема. Баги могут быть где угодно, но вероятность того, что это именно баг mdraid, как мне кажется, ничтожна.
Скорее если баг софтовый, то это баг какого-нибудь модуля или прошивки, как уже говорили.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

33. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 30-Окт-09, 10:40 
>Можно еще разобрать, и протестить по частям :)
>Например, диски вставить в другую систему, и там прогнать те же тесты,
>заменить память.

Вот и начал с дисков, т.к. с ними проще.

>Таким образом по очереди исключить источник проблем. Я тоже не верю, что
>это софтовая проблема. Баги могут быть где угодно, но вероятность того,
>что это именно баг mdraid, как мне кажется, ничтожна.
>Скорее если баг софтовый, то это баг какого-нибудь модуля или прошивки, как
>уже говорили.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

31. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от ACCA (ok) on 29-Окт-09, 20:32 
>1. stress
>2. bonnie++
>3. smartcl
>4. memtester
>5. Сейчас запустили Memtest86
>
>Какие еще тесты есть?

несколько dd параллельно пишут/читают. Можно ещё подогреть каким-нибудь кодированием H.264. Минут через 5-10 железо прогревается, начинаются потери прерываний, потом ядро либо в panic слетает, либо намертво замерзает.

Попробуй заменить БЛОК ПИТАНИЯ.

Была похожая проблема с матерью TYAN Tiger - кривой чипсет. Пришлось выключить поддержку ACPI, поставить более мощный блок питания и дополнительные радиаторы/вентиляторы. Криво-косо прохромала 5 лет, потом выкинул.

Всё равно была куча залётов, отваливающиеся процессоры, намертво замерзающее ядро и прочие радости. mdraid + ReiserFS = ни одной потери данных.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

34. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 30-Окт-09, 10:54 

>Была похожая проблема с матерью TYAN Tiger - кривой чипсет. Пришлось выключить
>поддержку ACPI, поставить более мощный блок питания и дополнительные радиаторы/вентиляторы. Криво-косо
>прохромала 5 лет, потом выкинул.

На сколько похожая? Сыплется файловая система в рейде? Или "CPU#2 stuck for 10s!" ???

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

35. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от ACCA (ok) on 30-Окт-09, 17:26 
>>Была похожая проблема с матерью TYAN Tiger - кривой чипсет. Пришлось выключить
>>поддержку ACPI, поставить более мощный блок питания и дополнительные радиаторы/вентиляторы. Криво-косо
>>прохромала 5 лет, потом выкинул.
>
>На сколько похожая? Сыплется файловая система в рейде? Или "CPU#2 stuck for
>10s!" ???

CPU#XX stuck for 10s. Файловая система ни разу не ссыпалась - RAID5 (mdraid)+RaiserFS стояли насмерть, хотя RAID неделями стоял degraded, не успевал восстановиться до следующего залёта.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

36. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter (ok) on 12-Ноя-09, 21:33 
В общем танцы с бубном продолжаются... за это время проверил/поменял шлейфы, SATA-порты на мамке. Переразбивка диска с запасом свободного пространства на конце диска. Ничего не помогло. Хотя могу отметить, что ФС валится не сразу на первом цикле, как раньше:

bonnie++ -u nobody -d /home/tmp -n 500:180000:300:300 -x 30

а спустя 4-12 часов.

Даже ради эксперимента поставил ReiserFS вместо ext3. Как итог, крах наступил после ~12 часов работы. Но не такой критичный на первый взгляд, как с ext3. Здесь

fsck.reiserfs --rebuild-tree /dev/md5

восстановило работу. А с ext3 приходилось лечить только через

mkfs -t ext3 /dev/md5

Вот такая штука вылезла на reiserfs

Replaying journal..
Reiserfs journal '/dev/md5' in blocks [18..8211]: 0 transactions replayed
Checking internal tree../  2 (of   3)bad_path: The left delimiting key [7854585 8127030 0x0 SD (0)] of the node (33882132) must be equal to the first element's key [7841017 7977823 0x0 SD (0)] within the node.                                                                              finished
Comparing bitmaps..vpf-10640: The on-disk and the correct bitmaps differs.
Fatal corruptions were found, Semantic pass skipped
1 found corruptions can be fixed only when running with --rebuild-tree

запускаю c --rebuild-tree:

Do you want to run this program?[N/Yes] (note need to type Yes if you do):Yes
Replaying journal..
Reiserfs journal '/dev/md5' in blocks [18..8211]: 0 transactions replayed
###########
reiserfsck --rebuild-tree started at Thu Nov 12 23:53:50 2009
###########

Pass 0:
####### Pass 0 #######
Loading on-disk bitmap .. ok, 9766 blocks marked used
Skipping 9740 blocks (super block, journal, bitmaps) 26 blocks will be read
0%....20%....40%....60%....80%....100%                           left 0, 0 /sec
7 directory entries were hashed with "r5" hash.
        "r5" hash is selected
Flushing..finished
        Read blocks (but not data blocks) 26
                Leaves among those 3
                Objectids found 36

Pass 1 (will try to insert 3 leaves):
####### Pass 1 #######
Looking for allocable blocks .. finished
0%....20%....40%....60%....80%....100%                           left 0, 0 /sec
Flushing..finished
        3 leaves read
                3 inserted
####### Pass 2 #######
Flushing..finished
Pass 3 (semantic):
####### Pass 3 #########
/tmp/Bonnie.3707/00173rebuild_semantic_pass: The entry [7854585 8127030] ("lY6FCpDhPxC50000015c1a") in directory [2 7854585] points to nowhere - is removed
rebuild_semantic_pass: The entry [7854585 8127031] ("JIqO0000015c1b") in directory [2 7854585] points to nowhere - is removed
vpf-10650: The directory [2 7854585] has the wrong size in the StatData (120) Flushing..finished            Files found: 0
        Directories found: 7
        Names pointing to nowhere (removed): 2
Pass 3a (looking for lost dir/files):
####### Pass 3a (lost+found pass) #########
Looking for lost directories:
Looking for lost files:0 /sec
vpf-10680: The file [7841017 7977848] has the wrong block count in the StatData (288) - corrected to (200)
Flushing..finished
        Objects without names 26
        Files linked to /lost+found 26
Pass 4 - finished       done 2, 0 /sec
        Deleted unreachable items 1
Flushing..finished
Syncing..finished
###########
reiserfsck finished at Thu Nov 12 23:54:02 2009
###########

Опять чего-то про блоки... Да и мне не известно пока, чем бы все это закончилось, если в /home/ были бы клиенты.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

37. "BUG: soft lockup - CPU#2 stuck for 10s!"  +/
Сообщение от zeiter email(ok) on 18-Янв-10, 22:00 
>В общем танцы с бубном продолжаются...

Все разрешилось сменой WD дисков на сигейты. Уже с месяц система тестится, вышеописанных ошибок не замечено.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру