[04/10] drm/i915/tdr: Modify error handler for per engine hang recovery

Message ID	20170112041817.1102-5-michel.thierry@intel.com (mailing list archive)
State	New, archived
Headers	show Return-Path: <intel-gfx-bounces@lists.freedesktop.org> From: Michel Thierry <michel.thierry@intel.com> To: intel-gfx@lists.freedesktop.org Date: Wed, 11 Jan 2017 20:18:11 -0800 Message-Id: <20170112041817.1102-5-michel.thierry@intel.com> In-Reply-To: <20170112041817.1102-1-michel.thierry@intel.com> References: <20170112041817.1102-1-michel.thierry@intel.com> Subject: [Intel-gfx] [PATCH 04/10] drm/i915/tdr: Modify error handler for per engine hang recovery Precedence: list MIME-Version: 1.0 Content-Type: text/plain; charset="utf-8" Content-Transfer-Encoding: base64 Errors-To: intel-gfx-bounces@lists.freedesktop.org Sender: "Intel-gfx" <intel-gfx-bounces@lists.freedesktop.org>

diff --git a/drivers/gpu/drm/i915/i915_drv.c b/drivers/gpu/drm/i915/i915_drv.c index 4e5ea5898e06..66b620a7f6ba 100644 --- a/drivers/gpu/drm/i915/i915_drv.c +++ b/drivers/gpu/drm/i915/i915_drv.c @@ -1745,7 +1745,7 @@ static void enable_engines_irq(struct drm_i915_private *dev_priv) } /** - * i915_reset - reset chip after a hang + * i915_reset_chip - reset chip after a hang * @dev_priv: device private to reset * * Reset the chip. Useful if a hang is detected. Marks the device as wedged @@ -1761,7 +1761,7 @@ static void enable_engines_irq(struct drm_i915_private *dev_priv) * - re-init interrupt state * - re-init display */ -void i915_reset(struct drm_i915_private *dev_priv) +void i915_reset_chip(struct drm_i915_private *dev_priv) { struct i915_gpu_error *error = &dev_priv->gpu_error; int ret; @@ -1771,6 +1771,8 @@ void i915_reset(struct drm_i915_private *dev_priv) if (!test_and_clear_bit(I915_RESET_IN_PROGRESS, &error->flags)) return; + DRM_DEBUG_DRIVER("resetting chip\n"); + /* Clear any previous failed attempts at recovery. Time to try again. */ __clear_bit(I915_WEDGED, &error->flags); error->reset_count++; @@ -1824,6 +1826,50 @@ void i915_reset(struct drm_i915_private *dev_priv) goto wakeup; } +/** + * i915_reset_engine - reset GPU engine to recover from a hang + * @engine: engine to reset + * + * Reset a specific GPU engine. Useful if a hang is detected. + * Returns zero on successful reset or otherwise an error code. + */ +int i915_reset_engine(struct intel_engine_cs *engine) +{ + /* FIXME: replace me with engine reset sequence */ + return -ENODEV; +} + +/** + * i915_reset - start either engine or full GPU reset to recover from a hang + * @dev_priv: device private + * + * Wrapper function to initiate a GPU reset. If platform supports it, attempt + * to reset the hung engine(s) only. In engine reset fails (or not supported), + * reset the full GPU. + * + * Caller must hold the struct_mutex. + */ +void i915_reset(struct drm_i915_private *dev_priv) +{ + /* If hardware supports it (GEN8+), try engine reset first */ + if (intel_has_reset_engine(dev_priv)) { + struct intel_engine_cs *engine; + u32 engine_mask = dev_priv->gpu_error.reset_engine_mask; + unsigned int tmp; + + for_each_engine_masked(engine, dev_priv, engine_mask, tmp) { + /* on failure fallback to full gpu reset for recovery */ + if (i915_reset_engine(engine)) + goto error; + } + + return; + } + +error: + i915_reset_chip(dev_priv); +} + static int i915_pm_suspend(struct device *kdev) { struct pci_dev *pdev = to_pci_dev(kdev); diff --git a/drivers/gpu/drm/i915/i915_drv.h b/drivers/gpu/drm/i915/i915_drv.h index 206b4e1a3a58..873fbd78124f 100644 --- a/drivers/gpu/drm/i915/i915_drv.h +++ b/drivers/gpu/drm/i915/i915_drv.h @@ -784,6 +784,7 @@ struct intel_csr { func(has_ddi); \ func(has_decoupled_mmio); \ func(has_dp_mst); \ + func(has_reset_engine); \ func(has_fbc); \ func(has_fpga_dbg); \ func(has_full_ppgtt); \ @@ -1552,6 +1553,9 @@ struct i915_gpu_error { #define I915_RESET_IN_PROGRESS 0 #define I915_WEDGED (BITS_PER_LONG - 1) + /* if available, engine-specific reset is tried before full gpu reset */ + u32 reset_engine_mask; + /** * Waitqueue to signal when a hang is detected. Used to for waiters * to release the struct_mutex for the reset to procede. @@ -2933,6 +2937,7 @@ extern void i915_driver_unload(struct drm_device *dev); extern int intel_gpu_reset(struct drm_i915_private *dev_priv, u32 engine_mask); extern bool intel_has_gpu_reset(struct drm_i915_private *dev_priv); extern void i915_reset(struct drm_i915_private *dev_priv); +extern bool intel_has_reset_engine(struct drm_i915_private *dev_priv); extern int intel_guc_reset(struct drm_i915_private *dev_priv); extern void intel_engine_init_hangcheck(struct intel_engine_cs *engine); extern void intel_hangcheck_init(struct drm_i915_private *dev_priv); diff --git a/drivers/gpu/drm/i915/i915_irq.c b/drivers/gpu/drm/i915/i915_irq.c index ce5663d94839..393a118c964e 100644 --- a/drivers/gpu/drm/i915/i915_irq.c +++ b/drivers/gpu/drm/i915/i915_irq.c @@ -2630,7 +2630,15 @@ static void i915_reset_and_wakeup(struct drm_i915_private *dev_priv) kobject_uevent_env(kobj, KOBJ_CHANGE, error_event); - DRM_DEBUG_DRIVER("resetting chip\n"); + /* + * This event needs to be sent before performing gpu reset. When + * engine resets are supported we iterate through all engines and + * reset hung engines individually. To keep the event dispatch + * mechanism consistent with full gpu reset, this is only sent once + * even when multiple engines are hung. It is also safe to move this + * here because when we are in this function, we will definitely + * perform gpu reset. + */ kobject_uevent_env(kobj, KOBJ_CHANGE, reset_event); /* @@ -2645,17 +2653,20 @@ static void i915_reset_and_wakeup(struct drm_i915_private *dev_priv) do { /* - * All state reset _must_ be completed before we update the - * reset counter, for otherwise waiters might miss the reset - * pending state and not properly drop locks, resulting in - * deadlocks with the reset work. + * All state reset _must_ be completed before we update + * the reset counter, for otherwise waiters might miss + * the reset pending state and not properly drop locks, + * resulting in deadlocks with the reset work. */ if (mutex_trylock(&dev_priv->drm.struct_mutex)) { i915_reset(dev_priv); mutex_unlock(&dev_priv->drm.struct_mutex); } - /* We need to wait for anyone holding the lock to wakeup */ + /* + * We need to wait for anyone holding the lock to + * wakeup. + */ } while (wait_on_bit_timeout(&dev_priv->gpu_error.flags, I915_RESET_IN_PROGRESS, TASK_UNINTERRUPTIBLE, @@ -2664,7 +2675,7 @@ static void i915_reset_and_wakeup(struct drm_i915_private *dev_priv) intel_finish_reset(dev_priv); intel_runtime_pm_put(dev_priv); - if (!test_bit(I915_WEDGED, &dev_priv->gpu_error.flags)) + if (!i915_terminally_wedged(&dev_priv->gpu_error)) kobject_uevent_env(kobj, KOBJ_CHANGE, reset_done_event); @@ -2760,6 +2771,12 @@ void i915_handle_error(struct drm_i915_private *dev_priv, return; /* + * Save which engines need reset; if engine support is available, + * we can just reset the hung engines. + */ + dev_priv->gpu_error.reset_engine_mask = engine_mask; + + /* * Wakeup waiting processes so that the reset function * i915_reset_and_wakeup doesn't deadlock trying to grab * various locks. By bumping the reset counter first, the woken diff --git a/drivers/gpu/drm/i915/i915_pci.c b/drivers/gpu/drm/i915/i915_pci.c index eb7b75a16d98..d0b74250f607 100644 --- a/drivers/gpu/drm/i915/i915_pci.c +++ b/drivers/gpu/drm/i915/i915_pci.c @@ -307,7 +307,8 @@ static const struct intel_device_info intel_haswell_info = { BDW_COLORS, \ .has_logical_ring_contexts = 1, \ .has_full_48bit_ppgtt = 1, \ - .has_64bit_reloc = 1 + .has_64bit_reloc = 1, \ + .has_reset_engine = 1 static const struct intel_device_info intel_broadwell_info = { BDW_FEATURES, @@ -339,6 +340,7 @@ static const struct intel_device_info intel_cherryview_info = { .has_gmch_display = 1, .has_aliasing_ppgtt = 1, .has_full_ppgtt = 1, + .has_reset_engine = 1, .display_mmio_offset = VLV_DISPLAY_BASE, GEN_CHV_PIPEOFFSETS, CURSOR_OFFSETS, @@ -390,6 +392,7 @@ static const struct intel_device_info intel_skylake_gt3_info = { .has_aliasing_ppgtt = 1, \ .has_full_ppgtt = 1, \ .has_full_48bit_ppgtt = 1, \ + .has_reset_engine = 1, \ GEN_DEFAULT_PIPEOFFSETS, \ IVB_CURSOR_OFFSETS, \ BDW_COLORS diff --git a/drivers/gpu/drm/i915/intel_uncore.c b/drivers/gpu/drm/i915/intel_uncore.c index abe08885a5ba..cf7355db5486 100644 --- a/drivers/gpu/drm/i915/intel_uncore.c +++ b/drivers/gpu/drm/i915/intel_uncore.c @@ -1851,6 +1851,17 @@ bool intel_has_gpu_reset(struct drm_i915_private *dev_priv) return intel_get_gpu_reset(dev_priv) != NULL; } +/* + * When GuC submission is enabled, GuC manages ELSP and can initiate the + * engine reset too. For now, fall back to full GPU reset if it is enabled. + */ +bool intel_has_reset_engine(struct drm_i915_private *dev_priv) +{ + return (dev_priv->info.has_reset_engine && + !dev_priv->guc.execbuf_client && + i915.reset == 2); +} + int intel_guc_reset(struct drm_i915_private *dev_priv) { int ret;

[04/10] drm/i915/tdr: Modify error handler for per engine hang recovery

Commit Message

Comments

Patch