Re: kernel BUG at arch/x86/xen/mmu.c:1860!

* Re: kernel BUG at arch/x86/xen/mmu.c:1860!
       [not found] <COL0-MC1-F14hmBzxHs00230882@col0-mc1-f14.Col0.hotmail.com>
@ 2011-04-08 11:24 ` MaoXiaoyun
  2011-04-08 11:46   ` MaoXiaoyun
                     ` (2 more replies)
  0 siblings, 3 replies; 41+ messages in thread
From: MaoXiaoyun @ 2011-04-08 11:24 UTC (permalink / raw)
  To: xen devel; +Cc: jeremy, dave, giamteckchoon, ian.campbell, konrad.wilk

[-- Attachment #1.1: Type: text/plain, Size: 2223 bytes --]

Hi: 
     Unfortunately I met the exactly same bug today. With pvops kernel 2.6.32.36, and xen 4.0.1.
     Kernel Panic and serial log attached. 

     Our test cases is quite simple, on a single physical host, we start 12 HVMS(windows 2003),
each of the HVM reboot every 10minutes. 

     The bug is easy to hit on our 48G machine(in hours). But We haven't hit the bug in our 24G 
machine(we have three 24G machine, all works fine.)  -----Is is possible related to Memory capacity?

Taking a look at the serial output,  the Dom0 code is attempting to pin what it thins 
is a "PGT_l3_page_table", however the hypervisor returns -EINVAL because it actually  is a "PGT_writable_page". 

(XEN) mm.c:2364:d0 Bad type (saw 7400000000000001 != exp 4000 0000 0000 0000) for mfn 898a41 (pfn 9ca41)
(XEN) mm.c:2733:d0 Error while pinning mfn 898a41

And  before that quite a lot abnormal grant table log like :

(XEN) grant_table.c:1717:d0 Bad grant reference 4294965983
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:1717:d0 Bad grant reference 4294965888
(XEN) grant_table.c:1717:d0 Bad grant reference 4294965983

It looks like something wrong with grant table.

Many thanks.

> From: Jeremy Fitzhardinge <jeremy@goop.org>
> Subject: Re: [Xen-devel] [SPAM] Re: kernel BUG at
> arch/x86/xen/mmu.c:1860! - ideas.
> To: Ian Campbell <Ian.Campbell@citrix.com>
> Cc: Dave Hunter <dave@ivt.com.au>, Teck Choon Giam
> <giamteckchoon@gmail.com>, "xen-devel@lists.xensource.com"
> xen-devel@lists.xensource.com

> On 04/06/2011 12:53 AM, Ian Campbell wrote:
> > Please don't top post.
> >
> > On Wed, 2011-04-06 at 00:20 +0100, Dave Hunter wrote:
> >> Is it likely that Debian would release an updated kernel in squeeze with
> >> this configuration? (sorry, this might not be the place to ask).
> > I doubt they will, enabling DEBUG_PAGEALLOC seems very much like a
> > workaround not a solution to me.
> 
> Yes, it will impose a pretty large performance overhead.
> 
> J
> 
> 

[-- Attachment #1.2: Type: text/html, Size: 3064 bytes --]

[-- Attachment #2: kernel.txt --]
[-- Type: text/plain, Size: 4390 bytes --]

Apr  8 12:19:47 r14a11017 kernel: ------------[ cut here ]------------
Apr  8 12:19:47 r14a11017 kernel: kernel BUG at arch/x86/xen/mmu.c:1872!
Apr  8 12:19:47 r14a11017 kernel: invalid opcode: 0000 [#1] SMP
Apr  8 12:19:47 r14a11017 kernel: last sysfs file: /sys/hypervisor/properties/capabilities
Apr  8 12:19:47 r14a11017 kernel: CPU 0
Apr  8 12:19:47 r14a11017 kernel: Modules linked in: 8021q garp blktap xen_netback xen_blkback blkback_pagemap nbd bridge stp llc autofs4 ipmi_devintf ipmi_si ipmi_msghandler lockd sunrpc bonding ipv6 xenfs dm_multipath video output sbs sbshc parport_pc lp parport ses enclosure snd_seq_dummy snd_seq_oss bnx2 snd_seq_midi_event serio_raw snd_seq snd_seq_device snd_pcm_oss snd_mixer_oss snd_pcm snd_timer i2c_i801 iTCO_wdt i2c_core snd soundcore snd_page_alloc iTCO_vendor_support pata_acpi ata_generic pcspkr ata_piix shpchp mptsas mptscsih mptbase [last unloaded: freq_table]
Apr  8 12:19:47 r14a11017 kernel: Pid: 15769, comm: sh Not tainted 2.6.32.36xen #1 Tecal RH2285
Apr  8 12:19:47 r14a11017 kernel: RIP: e030:[<ffffffff8100cebc>]  [<ffffffff8100cebc>] pin_pagetable_pfn+0x36/0x3c
Apr  8 12:19:47 r14a11017 kernel: RSP: e02b:ffff88001eb7baa8  EFLAGS: 00010282
Apr  8 12:19:47 r14a11017 kernel: RAX: 00000000ffffffea RBX: 000000000007b307 RCX: 0000000000000001
Apr  8 12:19:47 r14a11017 kernel: RDX: 0000000000000000 RSI: 0000000000000001 RDI: ffff88001eb7baa8
Apr  8 12:19:47 r14a11017 kernel: RBP: ffff88001eb7bac8 R08: 0000000000000420 R09: ffff880000000000
Apr  8 12:19:47 r14a11017 kernel: R10: 0000000000007ff0 R11: ffff88008fc97248 R12: ffff88002840b000
Apr  8 12:19:47 r14a11017 kernel: R13: 000000000007b484 R14: 0000000000000003 R15: ffff88009b090000
Apr  8 12:19:47 r14a11017 kernel: FS:  00007fe8bbc656e0(0000) GS:ffff88002803b000(0000) knlGS:0000000000000000
Apr  8 12:19:47 r14a11017 kernel: CS:  e033 DS: 0000 ES: 0000 CR0: 000000008005003b
Apr  8 12:19:47 r14a11017 kernel: CR2: 00000000006bb338 CR3: 000000007b307000 CR4: 0000000000002660
Apr  8 12:19:47 r14a11017 kernel: DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Apr  8 12:19:47 r14a11017 kernel: DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
Apr  8 12:19:47 r14a11017 kernel: Process sh (pid: 15769, threadinfo ffff88001eb7a000, task ffff88009b090000)
Apr  8 12:19:47 r14a11017 kernel: Stack:
Apr  8 12:19:47 r14a11017 kernel:  0000000000000000 00000000004b7484 000000011eb7bac8 000000000007b307
Apr  8 12:19:47 r14a11017 kernel: <0> ffff88001eb7baf8 ffffffff8100e8ef ffff88012e4fb100 ffff88000fb5e018
Apr  8 12:19:47 r14a11017 kernel: <0> 000000000007b484 00000000006bb338 ffff88001eb7bb08 ffffffff8100e935
Apr  8 12:19:47 r14a11017 kernel: Call Trace:
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff8100e8ef>] xen_alloc_ptpage+0x8d/0x96
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff8100e935>] xen_alloc_pte+0x13/0x15
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff810eb702>] __pte_alloc+0x7f/0xdc
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff810e90bd>] ? pmd_offset+0x13/0x3c
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff810eb818>] handle_mm_fault+0xb9/0x771
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff810f08fd>] ? vma_link+0x7c/0xa4
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff810f13b0>] ? mmap_region+0x322/0x42b
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff8100f169>] ? xen_force_evtchn_callback+0xd/0xf
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff81449701>] do_page_fault+0x21c/0x288
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff81447695>] page_fault+0x25/0x30
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff81222a39>] ? __clear_user+0x33/0x55
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff81222a1d>] ? __clear_user+0x17/0x55
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff81222a8b>] clear_user+0x30/0x38
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff8115139a>] load_elf_binary+0x5d5/0x17ef
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff811f4648>] ? process_measurement+0xc0/0xd7
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff81150dc5>] ? load_elf_binary+0x0/0x17ef
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff81113094>] search_binary_handler+0xc8/0x255
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff81114362>] do_execve+0x1c3/0x29e
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff8101155d>] sys_execve+0x43/0x5d
Apr  8 12:19:47 r14a11017 kernel:  [<ffffffff810131ca>] stub_execve+0x6a/0xc0

[-- Attachment #3: serial.txt --]
[-- Type: text/plain, Size: 4360 bytes --]

(XEN) grant_table.c:1717:d0 Bad grant reference 4294965983
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:1717:d0 Bad grant reference 4294965888
(XEN) grant_table.c:1717:d0 Bad grant reference 4294965983
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:1717:d0 Bad grant reference 4294965983
(XEN) grant_table.c:1717:d0 Bad grant reference 4294965983
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) printk: 1 messages suppressed.
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) printk: 1 messages suppressed.
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) printk: 5 messages suppressed.
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) printk: 14 messages suppressed.
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) printk: 7 messages suppressed.
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) printk: 1 messages suppressed.
(XEN) grant_table.c:266:d0 Bad flags (0) or dom (0). (expected dom 0)
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901760
(XEN) printk: 13 messages suppressed.
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901760
(XEN) printk: 59 messages suppressed.
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901760
(XEN) printk: 81 messages suppressed.
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901760
(XEN) printk: 75 messages suppressed.
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901760
(XEN) printk: 79 messages suppressed.
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901760
(XEN) printk: 81 messages suppressed.
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901760
(XEN) printk: 33 messages suppressed.
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901760
(XEN) printk: 9 messages suppressed.
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901765
(XEN) printk: 7 messages suppressed.
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901760
(XEN) printk: 1 messages suppressed.
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901760
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901765
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901760
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901765
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901760
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901765
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901760
(XEN) grant_table.c:1717:d0 Bad grant reference 4294901765
(XEN) printk: 10 messages suppressed.
(XEN) mm.c:2364:d0 Bad type (saw 7400000000000001 != exp 4000 0000 0000 0000) for mfn 898a41 (pfn 9ca41)
(XEN) mm.c:2733:d0 Error while pinning mfn 898a41
                                 8000000000000000 
(XEN) mm.c:2364:d0 Bad type (saw 7400000000000001 != exp 4000000000000000) for mfn 871443 (pfn 75443)
(XEN) mm.c:2733:d0 Error while pinning mfn 871443
(XEN) mm.c:2364:d0 Bad type (saw 7400000000000001 != exp 4000000000000000) for mfn 898a41 (pfn 9ca41)
(XEN) mm.c:2500:d0 Error while installing new baseptr 898a41
(XEN) mm.c:2364:d0 Bad type (saw 7400000000000001 != exp 4000000000000000) for mfn 871443 (pfn 75443)
(XEN) mm.c:2825:d0 Error while installing new mfn 871443
(XEN) mm.c:2364:d0 Bad type (saw 4400000000000001 != exp 7000000000000000) for mfn 899551 (pfn 9d551)
(XEN) mm.c:860:d0 Error getting mfn 899551 (pfn 9d551) from L1 entry 8000000899551063 for l1e_owner=0, pg_owner=0

[-- Attachment #4: Type: text/plain, Size: 138 bytes --]

_______________________________________________
Xen-devel mailing list
Xen-devel@lists.xensource.com
http://lists.xensource.com/xen-devel

^ permalink raw reply	[flat|nested] 41+ messages in thread