From patchwork Wed Nov  6 19:20:58 2024
Content-Type: text/plain; charset="utf-8"
MIME-Version: 1.0
Content-Transfer-Encoding: 7bit
X-Patchwork-Submitter: "Sridhar, Kanchana P" <kanchana.p.sridhar@intel.com>
X-Patchwork-Id: 13865321
Return-Path: <owner-linux-mm@kvack.org>
X-Spam-Checker-Version: SpamAssassin 3.4.0 (2014-02-07) on
	aws-us-west-2-korg-lkml-1.web.codeaurora.org
Received: from kanga.kvack.org (kanga.kvack.org [205.233.56.17])
	by smtp.lore.kernel.org (Postfix) with ESMTP id B57D1D59F6A
	for <linux-mm@archiver.kernel.org>; Wed,  6 Nov 2024 19:21:27 +0000 (UTC)
Received: by kanga.kvack.org (Postfix)
	id 26E466B0096; Wed,  6 Nov 2024 14:21:17 -0500 (EST)
Received: by kanga.kvack.org (Postfix, from userid 40)
	id 1F65B6B0099; Wed,  6 Nov 2024 14:21:17 -0500 (EST)
X-Delivered-To: int-list-linux-mm@kvack.org
Received: by kanga.kvack.org (Postfix, from userid 63042)
	id F147D6B0098; Wed,  6 Nov 2024 14:21:16 -0500 (EST)
X-Delivered-To: linux-mm@kvack.org
Received: from relay.hostedemail.com (smtprelay0017.hostedemail.com
 [216.40.44.17])
	by kanga.kvack.org (Postfix) with ESMTP id D37886B0092
	for <linux-mm@kvack.org>; Wed,  6 Nov 2024 14:21:16 -0500 (EST)
Received: from smtpin28.hostedemail.com (a10.router.float.18 [10.200.18.1])
	by unirelay01.hostedemail.com (Postfix) with ESMTP id 5A2681C1D65
	for <linux-mm@kvack.org>; Wed,  6 Nov 2024 19:21:16 +0000 (UTC)
X-FDA: 82756638216.28.177E426
Received: from mgamail.intel.com (mgamail.intel.com [198.175.65.11])
	by imf18.hostedemail.com (Postfix) with ESMTP id CA2B41C0010
	for <linux-mm@kvack.org>; Wed,  6 Nov 2024 19:20:58 +0000 (UTC)
Authentication-Results: imf18.hostedemail.com;
	dkim=pass header.d=intel.com header.s=Intel header.b=W+H5dWi5;
	dmarc=pass (policy=none) header.from=intel.com;
	spf=pass (imf18.hostedemail.com: domain of kanchana.p.sridhar@intel.com
 designates 198.175.65.11 as permitted sender)
 smtp.mailfrom=kanchana.p.sridhar@intel.com
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed;
 d=hostedemail.com;
	s=arc-20220608; t=1730920790;
	h=from:from:sender:reply-to:subject:subject:date:date:
	 message-id:message-id:to:to:cc:cc:mime-version:mime-version:
	 content-type:content-transfer-encoding:content-transfer-encoding:
	 in-reply-to:in-reply-to:references:references:dkim-signature;
	bh=wN2LmZ5a5qfTWVX1cLgoIE5geGN37SlJY4gc3Svdtbo=;
	b=dczrFBM8SXpbK7ign3m2h7WPwyb7im0G6d4LqWRcSZH5OKfIUVx8sQ1QkVNgWD5lxLQYDE
	zUppqCey/rJyR2tjtPSv8xZGozD4JrwNQxfV3B/adGdO6REwjaRGpgLMu6tUAm5GIA3TAJ
	2dPuTtxjESw8l+/GjbMkphroKYYGSbk=
ARC-Authentication-Results: i=1;
	imf18.hostedemail.com;
	dkim=pass header.d=intel.com header.s=Intel header.b=W+H5dWi5;
	dmarc=pass (policy=none) header.from=intel.com;
	spf=pass (imf18.hostedemail.com: domain of kanchana.p.sridhar@intel.com
 designates 198.175.65.11 as permitted sender)
 smtp.mailfrom=kanchana.p.sridhar@intel.com
ARC-Seal: i=1; s=arc-20220608; d=hostedemail.com; t=1730920790; a=rsa-sha256;
	cv=none;
	b=JHH/wMNpG7bbh82lqTu94WgBaUZebUsGbDFknMAp5cKjJ9pqnemrVCoBX917//OEGdTxs0
	GxVs6fS4lbv17lLh8KeXeO+6XAjQekZm01oK2zBxI7Z/Vt2pBSd+X4CDggX4y130jrNvlC
	rtzxXOILct5e935/NcVOKCc45QErvNQ=
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/simple;
  d=intel.com; i=@intel.com; q=dns/txt; s=Intel;
  t=1730920875; x=1762456875;
  h=from:to:cc:subject:date:message-id:in-reply-to:
   references:mime-version:content-transfer-encoding;
  bh=dsGJj+DqE0i7pg9VVqHrElSTuA3RtibV8w9INDbEh+Q=;
  b=W+H5dWi5UKA/lwVNKpuFKCeJT4POrMWQ9nSW7YPsCGrURrjh3z1KDukg
   Vd95X8d/au1WcmGih72Ol54UXk7ofSVfInrNkY/1vFbAJz7+tUtQw8B1f
   CYaKnOXttv2LhE+iQWNjRgHstDUY9po39cKSg1IvDLbsYhOxkDHZQzzIw
   a+agzvv2qAfNvM9dKWZ0E/BfYcizEC99Syq3+z90Ct6Y4LdjpcVpcbFFh
   mPFNykDos4R7ccn/w5Bh6pooHyf2P1g3wtW+d3Wet5QqIjsV9jaXLMUBk
   n4ep/H+iBgeKhV+B5ChRLa3ElKFQMFHFRnGwNASYsgwkR0x1LqA9uoxuY
   w==;
X-CSE-ConnectionGUID: 7AZRCzaTR2yojC1989GtCA==
X-CSE-MsgGUID: 0zL4IgDPRz2OoyTojCjEJQ==
X-IronPort-AV: E=McAfee;i="6700,10204,11222"; a="41291999"
X-IronPort-AV: E=Sophos;i="6.11,199,1725346800";
   d="scan'208";a="41291999"
Received: from fmviesa003.fm.intel.com ([10.60.135.143])
  by orvoesa103.jf.intel.com with ESMTP/TLS/ECDHE-RSA-AES256-GCM-SHA384;
 06 Nov 2024 11:21:10 -0800
X-CSE-ConnectionGUID: OWkevIq+QMWqgKgle/FXXA==
X-CSE-MsgGUID: mh/T3E6IR1CskRaqe4OZ8Q==
X-ExtLoop1: 1
X-IronPort-AV: E=Sophos;i="6.11,263,1725346800";
   d="scan'208";a="88695393"
Received: from unknown (HELO JF5300-B11A338T.jf.intel.com) ([10.242.51.115])
  by fmviesa003.fm.intel.com with ESMTP; 06 Nov 2024 11:21:10 -0800
From: Kanchana P Sridhar <kanchana.p.sridhar@intel.com>
To: linux-kernel@vger.kernel.org,
	linux-mm@kvack.org,
	hannes@cmpxchg.org,
	yosryahmed@google.com,
	nphamcs@gmail.com,
	chengming.zhou@linux.dev,
	usamaarif642@gmail.com,
	ryan.roberts@arm.com,
	ying.huang@intel.com,
	21cnbao@gmail.com,
	akpm@linux-foundation.org,
	linux-crypto@vger.kernel.org,
	herbert@gondor.apana.org.au,
	davem@davemloft.net,
	clabbe@baylibre.com,
	ardb@kernel.org,
	ebiggers@google.com,
	surenb@google.com,
	kristen.c.accardi@intel.com,
	zanussi@kernel.org
Cc: wajdi.k.feghali@intel.com,
	vinodh.gopal@intel.com,
	kanchana.p.sridhar@intel.com
Subject: [PATCH v3 06/13] crypto: iaa - Change cpu-to-iaa mappings to evenly
 balance cores to IAAs.
Date: Wed,  6 Nov 2024 11:20:58 -0800
Message-Id: <20241106192105.6731-7-kanchana.p.sridhar@intel.com>
X-Mailer: git-send-email 2.27.0
In-Reply-To: <20241106192105.6731-1-kanchana.p.sridhar@intel.com>
References: <20241106192105.6731-1-kanchana.p.sridhar@intel.com>
MIME-Version: 1.0
X-Rspam-User: 
X-Rspamd-Server: rspam03
X-Rspamd-Queue-Id: CA2B41C0010
X-Stat-Signature: 64k4cbxt4gxgubm45bz3ny165htm9xii
X-HE-Tag: 1730920858-194732
X-HE-Meta: 
 U2FsdGVkX1/wL/ChGP8DX7nJairCpjvaR1yjLbheu7KOYNtf/sEowhhTmEBjQNLepIWpX71dXrdyyPUzWHqVLGTPaP+uv1SWL5ZBUkYlciTGF4l6VpoQNNrkszHq66AP7NenvVsP2XDSdk39pdAURKenZmrPNogtYfYRpHmnL+/xHyqaqss/UFF96rNhoJlYLvCnzWB+KLdoOhVeWyvJ1nHrpfVFzqshyb3zPHfltbtPOL+ozpd107Erio8EaGlQKKpyBWKYim+4rYox3ibGiRGJaQu+XzaS6Ax32hZbBSy9Vux17SwDT/Fy7gd6TpfMaLBq2CTMi/k/3Fn9PEJZSwFFFH15MMpeTf/UhDmyyeAbIacRCoPrZoX39wRRaxzObU+b1YtoeDpreErgWaUy5UzvP8w6GyCbASrTUb1LBdNwepmm+BdhhB9kEl4Hw8uYbs3WKhynik8FpMgAAxYvdjocd3WkSO5nui8pFjsvJw30n9jsPOLVkkx5SHNRKBWp3P1g7Nfjyv9LaYbduTLNsOO0EYpFHJS11gSbpzMHdLhkwWyjm7vpWrs/0+8hyR1PfEun2V/PWxBg2bySMSlclgi1gQ/2Iz9BslgjpQAQ61AvaUQ4weMfj7evocGeuW6wOqujn4+Zi7PjDjJrPUmfnlncYPWGYxhGTVdk7tysfQcTnRaPScmjw9IdNehbCMhNLjF1FyBcj5moNGjy+Rovn4JpUMXhfmiYYRY24LKT52wrbRtkIZElJ1ULNdLsac6a0UKnYqOk7G/JyZ3p4oDOyFW2Y+pf0kjvoRhz72n6qwA0AZ4iuS9d00MeThBmwIEFxW5rUJJ3SuD7jE9sVfyadHcV/H5oqzOEdR7EkFpOMWMRu3ej1Wr6x9mPlUOOg9h/ZvmbafZ138drt/Qican0zHE/Bi0vm1Zrpoxj/maTk7SgiFQYGfPPTGvIehDfVijgdNqLlUQLgGHC6YbtEyo
 fr0KElzM
 a8K+ZkownKPY9Z6+yjYUjWccNZHvcOxccdVeWnydd1jtf0pCnEaLHvaB0hKAmb6tGcy2BEsM4JpseW514mA4mdJOf/1AiZQwmX0mTzBBajdLntqpIINl4eOP6MYGmgbpPBiSMOdMHI/QLecPCJ7ufvAWVjDJmr6EqeG+lN89vc2pO3ZFZ620rqEfcNyN43sZZnb+sM8YhF7dZTyVAah3B7I9DpJecUHFdRyNOykqMl58kTo4x7cjlfYtcYbHs2l7D6x+l
X-Bogosity: Ham, tests=bogofilter, spamicity=0.000000, version=1.2.4
Sender: owner-linux-mm@kvack.org
Precedence: bulk
X-Loop: owner-majordomo@kvack.org
List-ID: <linux-mm.kvack.org>
List-Subscribe: <mailto:majordomo@kvack.org>
List-Unsubscribe: <mailto:majordomo@kvack.org>

This change distributes the cpus more evenly among the IAAs in each socket.

 Old algorithm to assign cpus to IAA:
 ------------------------------------
 If "nr_cpus" = nr_logical_cpus (includes hyper-threading), the current
 algorithm determines "nr_cpus_per_node" = nr_cpus / nr_nodes.

 Hence, on a 2-socket Sapphire Rapids server where each socket has 56 cores
 and 4 IAA devices, nr_cpus_per_node = 112.

 Further, cpus_per_iaa = (nr_nodes * nr_cpus_per_node) / nr_iaa
 Hence, cpus_per_iaa = 224/8 = 28.

 The iaa_crypto driver then assigns 28 "logical" node cpus per IAA device
 on that node, that results in this cpu-to-iaa mapping:

 lscpu|grep NUMA
 NUMA node(s):        2
 NUMA node0 CPU(s):   0-55,112-167
 NUMA node1 CPU(s):   56-111,168-223

 NUMA node 0:
 cpu   0-27    28-55  112-139  140-167
 iaa   iax1    iax3   iax5     iax7

 NUMA node 1:
 cpu   56-83  84-111  168-195   196-223
 iaa   iax9   iax11   iax13     iax15

 This appears non-optimal for a few reasons:

 1) The 2 logical threads on a core will get assigned to different IAA
    devices. For e.g.:
      cpu 0:   iax1
      cpu 112: iax5
 2) One of the logical threads on a core is assigned to an IAA that is not
    closest to that core. For e.g. cpu 112.
 3) If numactl is used to start processes sequentially on the logical
    cores, some of the IAA devices on the socket could be over-subscribed,
    while some could be under-utilized.

This patch introduces a scheme to more evenly balance the logical cores to
IAA devices on a socket.

 New algorithm to assign cpus to IAA:
 ------------------------------------
 We introduce a function "cpu_to_iaa()" that takes a logical cpu and
 returns the IAA device closest to it.

 If "nr_cpus" = nr_logical_cpus (includes hyper-threading), the new
 algorithm determines "nr_cpus_per_node" = topology_num_cores_per_package().

 Hence, on a 2-socket Sapphire Rapids server where each socket has 56 cores
 and 4 IAA devices, nr_cpus_per_node = 56.

 Further, cpus_per_iaa = (nr_nodes * nr_cpus_per_node) / nr_iaa
 Hence, cpus_per_iaa = 112/8 = 14.

 The iaa_crypto driver then assigns 14 "logical" node cpus per IAA device
 on that node, that results in this cpu-to-iaa mapping:

 NUMA node 0:
 cpu   0-13,112-125   14-27,126-139  28-41,140-153  42-55,154-167
 iaa   iax1           iax3           iax5           iax7

 NUMA node 1:
 cpu   56-69,168-181  70-83,182-195  84-97,196-209   98-111,210-223
 iaa   iax9           iax11          iax13           iax15

 This resolves the 3 issues with non-optimality of cpu-to-iaa mappings
 pointed out earlier with the existing approach.

Originally-by: Tom Zanussi <tom.zanussi@linux.intel.com>
Signed-off-by: Kanchana P Sridhar <kanchana.p.sridhar@intel.com>
---
 drivers/crypto/intel/iaa/iaa_crypto_main.c | 84 ++++++++++++++--------
 1 file changed, 54 insertions(+), 30 deletions(-)

diff --git a/drivers/crypto/intel/iaa/iaa_crypto_main.c b/drivers/crypto/intel/iaa/iaa_crypto_main.c
index c4b143dd1ddd..a12a8f9caa84 100644
--- a/drivers/crypto/intel/iaa/iaa_crypto_main.c
+++ b/drivers/crypto/intel/iaa/iaa_crypto_main.c
@@ -55,6 +55,46 @@ static struct idxd_wq *wq_table_next_wq(int cpu)
 	return entry->wqs[entry->cur_wq];
 }
 
+/*
+ * Given a cpu, find the closest IAA instance.  The idea is to try to
+ * choose the most appropriate IAA instance for a caller and spread
+ * available workqueues around to clients.
+ */
+static inline int cpu_to_iaa(int cpu)
+{
+	int node, n_cpus = 0, test_cpu, iaa = 0;
+	int nr_iaa_per_node;
+	const struct cpumask *node_cpus;
+
+	if (!nr_nodes)
+		return 0;
+
+	nr_iaa_per_node = nr_iaa / nr_nodes;
+	if (!nr_iaa_per_node)
+		return 0;
+
+	for_each_online_node(node) {
+		node_cpus = cpumask_of_node(node);
+		if (!cpumask_test_cpu(cpu, node_cpus))
+			continue;
+
+		for_each_cpu(test_cpu, node_cpus) {
+			if ((n_cpus % nr_cpus_per_node) == 0)
+				iaa = node * nr_iaa_per_node;
+
+			if (test_cpu == cpu)
+				return iaa;
+
+			n_cpus++;
+
+			if ((n_cpus % cpus_per_iaa) == 0)
+				iaa++;
+		}
+	}
+
+	return -1;
+}
+
 static void wq_table_add(int cpu, struct idxd_wq *wq)
 {
 	struct wq_table_entry *entry = per_cpu_ptr(wq_table, cpu);
@@ -895,8 +935,7 @@ static int wq_table_add_wqs(int iaa, int cpu)
  */
 static void rebalance_wq_table(void)
 {
-	const struct cpumask *node_cpus;
-	int node, cpu, iaa = -1;
+	int cpu, iaa;
 
 	if (nr_iaa == 0)
 		return;
@@ -906,37 +945,22 @@ static void rebalance_wq_table(void)
 
 	clear_wq_table();
 
-	if (nr_iaa == 1) {
-		for (cpu = 0; cpu < nr_cpus; cpu++) {
-			if (WARN_ON(wq_table_add_wqs(0, cpu))) {
-				pr_debug("could not add any wqs for iaa 0 to cpu %d!\n", cpu);
-				return;
-			}
-		}
-
-		return;
-	}
-
-	for_each_node_with_cpus(node) {
-		node_cpus = cpumask_of_node(node);
-
-		for (cpu = 0; cpu <  cpumask_weight(node_cpus); cpu++) {
-			int node_cpu = cpumask_nth(cpu, node_cpus);
-
-			if (WARN_ON(node_cpu >= nr_cpu_ids)) {
-				pr_debug("node_cpu %d doesn't exist!\n", node_cpu);
-				return;
-			}
+	for (cpu = 0; cpu < nr_cpus; cpu++) {
+		iaa = cpu_to_iaa(cpu);
+		pr_debug("rebalance: cpu=%d iaa=%d\n", cpu, iaa);
 
-			if ((cpu % cpus_per_iaa) == 0)
-				iaa++;
+		if (WARN_ON(iaa == -1)) {
+			pr_debug("rebalance (cpu_to_iaa(%d)) failed!\n", cpu);
+			return;
+		}
 
-			if (WARN_ON(wq_table_add_wqs(iaa, node_cpu))) {
-				pr_debug("could not add any wqs for iaa %d to cpu %d!\n", iaa, cpu);
-				return;
-			}
+		if (WARN_ON(wq_table_add_wqs(iaa, cpu))) {
+			pr_debug("could not add any wqs for iaa %d to cpu %d!\n", iaa, cpu);
+			return;
 		}
 	}
+
+	pr_debug("Finished rebalance local wqs.");
 }
 
 static inline int check_completion(struct device *dev,
@@ -2332,7 +2356,7 @@ static int __init iaa_crypto_init_module(void)
 		pr_err("IAA couldn't find any nodes with cpus\n");
 		return -ENODEV;
 	}
-	nr_cpus_per_node = nr_cpus / nr_nodes;
+	nr_cpus_per_node = topology_num_cores_per_package();
 
 	if (crypto_has_comp("deflate-generic", 0, 0))
 		deflate_generic_tfm = crypto_alloc_comp("deflate-generic", 0, 0);