[mptcp-next,v18,10/15] mptcp: use get_send wrapper

Message ID	262f6ec0dfa2ffba15899460df4676dc15d1bd62.1667897099.git.geliang.tang@suse.com (mailing list archive)
State	Superseded, archived
Headers	show Received: from EUR01-DB5-obe.outbound.protection.outlook.com (mail-eopbgr150043.outbound.protection.outlook.com [40.107.15.43]) (using TLSv1.2 with cipher ECDHE-RSA-AES256-GCM-SHA384 (256/256 bits)) (No client certificate requested) by smtp.subspace.kernel.org (Postfix) with ESMTPS id 3DB206ABA for <mptcp@lists.linux.dev>; Tue, 8 Nov 2022 09:09:47 +0000 (UTC) From: Geliang Tang <geliang.tang@suse.com> To: mptcp@lists.linux.dev Cc: Geliang Tang <geliang.tang@suse.com> Subject: [PATCH mptcp-next v18 10/15] mptcp: use get_send wrapper Date: Tue, 8 Nov 2022 17:08:32 +0800 Message-Id: <262f6ec0dfa2ffba15899460df4676dc15d1bd62.1667897099.git.geliang.tang@suse.com> In-Reply-To: <cover.1667897099.git.geliang.tang@suse.com> References: <cover.1667897099.git.geliang.tang@suse.com> Content-Transfer-Encoding: 8bit Content-Type: text/plain Precedence: bulk MIME-Version: 1.0
Series	BPF redundant scheduler \| expand [mptcp-next,v18,00/15] BPF redundant scheduler [mptcp-next,v18,01/15] mptcp: refactor push_pending logic [mptcp-next,v18,02/15] mptcp: drop last_snd and MPTCP_RESET_SCHEDULER [mptcp-next,v18,03/15] mptcp: add sched_data_set_contexts helper [mptcp-next,v18,04/15] Squash to "mptcp: add struct mptcp_sched_ops" [mptcp-next,v18,05/15] Squash to "bpf: Add bpf_mptcp_sched_ops" [mptcp-next,v18,06/15] Squash to "bpf: Add bpf_mptcp_sched_kfunc_set" [mptcp-next,v18,07/15] Squash to "selftests/bpf: Add bpf_first scheduler" [mptcp-next,v18,08/15] Squash to "selftests/bpf: Add bpf_bkup scheduler" [mptcp-next,v18,09/15] Squash to "selftests/bpf: Add bpf_rr scheduler" [mptcp-next,v18,10/15] mptcp: use get_send wrapper [mptcp-next,v18,11/15] mptcp: use get_retrans wrapper [mptcp-next,v18,12/15] mptcp: delay updating first_pending [mptcp-next,v18,13/15] mptcp: delay updating already_sent [mptcp-next,v18,14/15] selftests/bpf: Add bpf_red scheduler [mptcp-next,v18,15/15] selftests/bpf: Add bpf_red test

Message ID

262f6ec0dfa2ffba15899460df4676dc15d1bd62.1667897099.git.geliang.tang@suse.com (mailing list archive)

State

Superseded, archived

Headers

From: Geliang Tang <geliang.tang@suse.com>
To: mptcp@lists.linux.dev
Cc: Geliang Tang <geliang.tang@suse.com>
Subject: [PATCH mptcp-next v18 10/15] mptcp: use get_send wrapper
Date: Tue,  8 Nov 2022 17:08:32 +0800
Message-Id: 
 <262f6ec0dfa2ffba15899460df4676dc15d1bd62.1667897099.git.geliang.tang@suse.com>
In-Reply-To: <cover.1667897099.git.geliang.tang@suse.com>
References: <cover.1667897099.git.geliang.tang@suse.com>
Content-Transfer-Encoding: 8bit
Content-Type: text/plain
Precedence: bulk
MIME-Version: 1.0
X-MS-Exchange-AntiSpam-MessageData-ChunkCount: 1
X-MS-Exchange-AntiSpam-MessageData-0: 
 UTS+2CObTRa+kGmSzFiy0RaTMoK41DjDh5tTnN45u7cjcDb5I6EO4XX1gInx0qcfG6tTbC2SJLkSXhiX924QQEkWMW3ESun0M+3oVTVrlhTF48umBHZUft9wReKIVa09HbStSW3PNk5u8HzDZ9DmVkQRxItiqDqMrjTqrukNACaj3M689ZKc4IHGNkoMASh5uo97Os3lSE/9VoNNBUphX291dh/KdZ1eXsd096e6tmN6XCsWSpa39h0Cd7IsHhmgMrtDIvSA9qQlIe6YJDnQ5o9quH/d0vUa+5xxjbM1l82oFe/SY3ubaefP5a+mFmNSaE9EIokDN/zvUiV06lhoeUuNPEmonCiWpD44ymKWyjkHgfIyvo1GvQVqLXNSpXZKKgz4wYwR4T/re8isNbV1pRZ1NBLHrcqxEG2OkvEnx+xFQfCam79UEtuEzq2NRqyef2pZzD5RdWAa67QYQiXjzmQgMVOO5H19juZnXouFLDLn5nj1BaRrlWKJqYRyqjUVz1W7t5rHgARTMHC+3F3Jyrd3zR4UgtW1uT9tqVf6W2cbXot7bBCHN2TMj30Y6sJwi4DllCHRRbWC7u53ZoAMK4LwZwzC3uLY/QIB/OhOqt6aS1Rd2hTjmKwzMKLhIGQpsGes/FY2r+e3nj5RpSlXfZB5ucBmcNmv+ZXOakmk5nm/l0U4OmftqHOSl1W0B2s5WmZTeFJDQkLj4bu4g2QlVsGVlVXV+wgi5x7APneVsMxw6er1kSu0ojTsdHuGw1ArfF6KbaRkM99ZRiwSvc9uCd/7XnO7Tiq7+JhtISx+KAJO6ldtfWsK34bkWK/cvcAbIHCaGfW44oBEnVG6gry2Tqt/QpArEp6qRSDmSAYQRfxqjmXdzLvHU5qMHmb7ZJ5OnHx3zosl5BN4s3qA7YHfraiaR7S4fO5qv2ARZDRz3NcXdfIChsrmwevPRC43wa528arc88yk83wetkK7fsYIW9mqTOCgFhCYdgK/dFlUYJSPt0NjUddvcf6zWQcnEV2mlSocHlYNbDufZe270oQGD2iUveD0lqaB2I3IPpO3ALN7f+hJYXO+HbdbyE5RksgNx1PY62t4ery/ja6i30lntFILmTRYrEp3qnA9FYgOBX1Yd9RpQYiEB5FsRbhAkHkPQe5aBD6P7nVrvrfflzc+fNnbWv2c9e669KupX6M4T9U0G/+Yn6xipnN2cNhsX5CMXrycrfxMXJhaj25PVrevRQBUkboZQZQI6GWbCY3Aj0q7jf7sIOJmErC/JKR9xy2N8FKLa0MD7rSD3PT0Ob63b7STGmu6uhuci2Ng6Oxw8bi+vf6u9+yznXd2BTlX4021UP44J5gjyIONv19lQRNyJDc1lfx7MomedKBTY7ZI1mSUBEwZ6dhI9gr1x5+0l1ynw6yq8d+5H4V45GZ52gioM33XZH8TpEkpFX6vcIANfccBm8/uJtTEznlcTe+H66i2hNf84JAKXc8bivevg8cXk8Qe2j+kpAzfOmAYJ2mqYrKBKh2RQf03Q7lkcg5Tting2XAgrvAvM+X9HTqzlsnn9+Zqj3Z2C2c8WavK3T8fLzD5+DRnbXeeeuxRd0qjqRmD
X-OriginatorOrg: suse.com
X-MS-Exchange-CrossTenant-Network-Message-Id: 
 5877b471-a63d-464a-c985-08dac168f989
X-MS-Exchange-CrossTenant-AuthSource: 
 HE1PR0402MB3497.eurprd04.prod.outlook.com
X-MS-Exchange-CrossTenant-AuthAs: Internal
X-MS-Exchange-CrossTenant-OriginalArrivalTime: 08 Nov 2022 09:09:43.7412
 (UTC)
X-MS-Exchange-CrossTenant-FromEntityHeader: Hosted
X-MS-Exchange-CrossTenant-Id: f7a17af6-1c5c-4a36-aa8b-f5be247aa4ba
X-MS-Exchange-CrossTenant-MailboxType: HOSTED
X-MS-Exchange-CrossTenant-UserPrincipalName: 
 PbVtOMC5kQwcFv+gtLqOrE1y+PpLdDD5+JXoxqTmb/cFoPG+uJP3q8u3tidN5DekWokKvfpkvEdwWknWHY9abA==
X-MS-Exchange-Transport-CrossTenantHeadersStamped: PAXPR04MB8831

Series

BPF redundant scheduler | expand

Checks

Context	Check	Description
matttbe/checkpatch	success	total: 0 errors, 0 warnings, 0 checks, 226 lines checked
matttbe/build	warning	Build error with: make C=1 net/mptcp/sched.o
matttbe/KVM_Validation__normal	success	Success! ✅
matttbe/KVM_Validation__debug	fail	Critical: 2 Call Trace(s) ❌

Context

Check

Description

matttbe/checkpatch

success

total: 0 errors, 0 warnings, 0 checks, 226 lines checked

matttbe/build

warning

Build error with: make C=1 net/mptcp/sched.o

matttbe/KVM_Validation__normal

success

Success! ✅

matttbe/KVM_Validation__debug

fail

Critical: 2 Call Trace(s) ❌

Commit Message

Geliang Tang Nov. 8, 2022, 9:08 a.m. UTC

This patch defines the packet scheduler wrapper mptcp_sched_get_send(),
invoke data_init() and get_subflow() of msk->sched in it.

Set data->reinject to false in mptcp_sched_get_send(). If msk->sched is
NULL, use default functions mptcp_subflow_get_send() to send data.

Move sock_owned_by_me() check and fallback check into the wrapper from
mptcp_subflow_get_send().

Add the multiple subflows support for __mptcp_push_pending() and
__mptcp_subflow_push_pending(). Use get_send() wrapper instead of
mptcp_subflow_get_send() in them.

Check the subflow scheduled flags to test which subflow or subflows are
picked by the scheduler, use them to send data.

This commit allows the scheduler to set the subflow->scheduled bit in
multiple subflows, but it does not allow for sending redundant data.
Multiple scheduled subflows will send sequential data on each subflow.

Signed-off-by: Geliang Tang <geliang.tang@suse.com>
---
 net/mptcp/protocol.c | 131 ++++++++++++++++++++++++++++---------------
 net/mptcp/protocol.h |   2 +
 net/mptcp/sched.c    |  37 ++++++++++++
 3 files changed, 124 insertions(+), 46 deletions(-)

Comments

Mat Martineau Nov. 11, 2022, 1:04 a.m. UTC | #1

On Tue, 8 Nov 2022, Geliang Tang wrote:

> This patch defines the packet scheduler wrapper mptcp_sched_get_send(),
> invoke data_init() and get_subflow() of msk->sched in it.
>
> Set data->reinject to false in mptcp_sched_get_send(). If msk->sched is
> NULL, use default functions mptcp_subflow_get_send() to send data.
>
> Move sock_owned_by_me() check and fallback check into the wrapper from
> mptcp_subflow_get_send().
>
> Add the multiple subflows support for __mptcp_push_pending() and
> __mptcp_subflow_push_pending(). Use get_send() wrapper instead of
> mptcp_subflow_get_send() in them.
>
> Check the subflow scheduled flags to test which subflow or subflows are
> picked by the scheduler, use them to send data.
>
> This commit allows the scheduler to set the subflow->scheduled bit in
> multiple subflows, but it does not allow for sending redundant data.
> Multiple scheduled subflows will send sequential data on each subflow.
>
> Signed-off-by: Geliang Tang <geliang.tang@suse.com>
> ---
> net/mptcp/protocol.c | 131 ++++++++++++++++++++++++++++---------------
> net/mptcp/protocol.h |   2 +
> net/mptcp/sched.c    |  37 ++++++++++++
> 3 files changed, 124 insertions(+), 46 deletions(-)
>
> diff --git a/net/mptcp/protocol.c b/net/mptcp/protocol.c
> index d7aaa49c64f4..5bcadb36b99b 100644
> --- a/net/mptcp/protocol.c
> +++ b/net/mptcp/protocol.c
> @@ -1406,7 +1406,7 @@ bool mptcp_subflow_active(struct mptcp_subflow_context *subflow)
>  * returns the subflow that will transmit the next DSS
>  * additionally updates the rtx timeout
>  */
> -static struct sock *mptcp_subflow_get_send(struct mptcp_sock *msk)
> +struct sock *mptcp_subflow_get_send(struct mptcp_sock *msk)
> {
> 	struct subflow_send_info send_info[SSK_MODE_MAX];
> 	struct mptcp_subflow_context *subflow;
> @@ -1417,15 +1417,6 @@ static struct sock *mptcp_subflow_get_send(struct mptcp_sock *msk)
> 	u64 linger_time;
> 	long tout = 0;
>
> -	sock_owned_by_me(sk);
> -
> -	if (__mptcp_check_fallback(msk)) {
> -		if (!msk->first)
> -			return NULL;
> -		return __tcp_can_send(msk->first) &&
> -		       sk_stream_memory_free(msk->first) ? msk->first : NULL;
> -	}
> -
> 	/* pick the subflow with the lower wmem/wspace ratio */
> 	for (i = 0; i < SSK_MODE_MAX; ++i) {
> 		send_info[i].ssk = NULL;
> @@ -1577,42 +1568,58 @@ void __mptcp_push_pending(struct sock *sk, unsigned int flags)
> 	};
> 	bool do_check_data_fin = false;
>
> +again:
> 	while (mptcp_send_head(sk)) {
> +		struct mptcp_subflow_context *subflow, *last = NULL;
> 		int ret = 0;
>
> -		prev_ssk = ssk;
> -		ssk = mptcp_subflow_get_send(msk);
> -
> -		/* First check. If the ssk has changed since
> -		 * the last round, release prev_ssk
> -		 */
> -		if (ssk != prev_ssk && prev_ssk)
> -			mptcp_push_release(prev_ssk, &info);
> -		if (!ssk)
> +		if (mptcp_sched_get_send(msk))
> 			goto out;
>
> -		/* Need to lock the new subflow only if different
> -		 * from the previous one, otherwise we are still
> -		 * helding the relevant lock
> -		 */
> -		if (ssk != prev_ssk)
> -			lock_sock(ssk);
> +		mptcp_for_each_subflow(msk, subflow) {
> +			if (READ_ONCE(subflow->scheduled))
> +				last = subflow;
> +		}

Since mptcp_sched_get_send() is always called right before this, the 
subflow->scheduled flags will always be set. Does the new code with 'last' 
work as expected if the mptcp_sched_get_send() call is skipped when an 
existing subflow->scheduled flag is found? That way the old flags will be 
used the first time through this loop.

- Mat

>
> -		ret = __subflow_push_pending(sk, ssk, &info);
> -		if (ret <= 0) {
> -			if (ret == -EAGAIN)
> -				continue;
> -			mptcp_push_release(ssk, &info);
> -			goto out;
> +		mptcp_for_each_subflow(msk, subflow) {
> +			if (READ_ONCE(subflow->scheduled)) {
> +				prev_ssk = ssk;
> +				ssk = mptcp_subflow_tcp_sock(subflow);
> +
> +				/* First check. If the ssk has changed since
> +				 * the last round, release prev_ssk
> +				 */
> +				if (ssk != prev_ssk && prev_ssk)
> +					mptcp_push_release(prev_ssk, &info);
> +
> +				/* Need to lock the new subflow only if different
> +				 * from the previous one, otherwise we are still
> +				 * helding the relevant lock
> +				 */
> +				if (ssk != prev_ssk)
> +					lock_sock(ssk);
> +
> +				ret = __subflow_push_pending(sk, ssk, &info);
> +				if (ret <= 0) {
> +					if (ret == -EAGAIN &&
> +					    inet_sk_state_load(ssk) != TCP_CLOSE)
> +						goto again;
> +					if (last && subflow != last)
> +						continue;
> +					goto out;
> +				}
> +				do_check_data_fin = true;
> +				msk->last_snd = ssk;
> +				mptcp_subflow_set_scheduled(subflow, false);
> +			}
> 		}
> -		do_check_data_fin = true;
> 	}
>
> +out:
> 	/* at this point we held the socket lock for the last subflow we used */
> 	if (ssk)
> 		mptcp_push_release(ssk, &info);
>
> -out:
> 	/* ensure the rtx timer is running */
> 	if (!mptcp_timer_pending(sk))
> 		mptcp_reset_timer(sk);
> @@ -1626,29 +1633,61 @@ static void __mptcp_subflow_push_pending(struct sock *sk, struct sock *ssk, bool
> 	struct mptcp_sendmsg_info info = {
> 		.data_lock_held = true,
> 	};
> -	struct sock *xmit_ssk;
> 	int ret = 0;
>
> 	info.flags = 0;
> +again:
> 	while (mptcp_send_head(sk)) {
> +		struct mptcp_subflow_context *subflow, *last = NULL;
> +
> 		/* check for a different subflow usage only after
> 		 * spooling the first chunk of data
> 		 */
> -		xmit_ssk = first ? ssk : mptcp_subflow_get_send(msk);
> -		if (!xmit_ssk)
> -			goto out;
> -		if (xmit_ssk != ssk) {
> -			mptcp_subflow_delegate(mptcp_subflow_ctx(xmit_ssk),
> -					       MPTCP_DELEGATE_SEND);
> +		if (first) {
> +			ret = __subflow_push_pending(sk, ssk, &info);
> +			first = false;
> +			if (ret <= 0) {
> +				if (ret == -EAGAIN &&
> +				    inet_sk_state_load(ssk) != TCP_CLOSE)
> +					goto again;
> +				break;
> +			}
> +			msk->last_snd = ssk;
> +			continue;
> +		}
> +
> +		if (mptcp_sched_get_send(msk))
> 			goto out;
> +
> +		mptcp_for_each_subflow(msk, subflow) {
> +			if (READ_ONCE(subflow->scheduled))
> +				last = subflow;
> 		}
>
> -		ret = __subflow_push_pending(sk, ssk, &info);
> -		first = false;
> -		if (ret <= 0) {
> -			if (ret == -EAGAIN)
> -				continue;
> -			break;
> +		mptcp_for_each_subflow(msk, subflow) {
> +			if (READ_ONCE(subflow->scheduled)) {
> +				struct sock *xmit_ssk = mptcp_subflow_tcp_sock(subflow);
> +
> +				if (xmit_ssk != ssk) {
> +					mptcp_subflow_delegate(subflow,
> +							       MPTCP_DELEGATE_SEND);
> +					msk->last_snd = ssk;
> +					mptcp_subflow_set_scheduled(subflow, false);
> +					goto out;
> +				}
> +
> +				ret = __subflow_push_pending(sk, ssk, &info);
> +				if (ret <= 0) {
> +					if (ret == -EAGAIN &&
> +					    inet_sk_state_load(ssk) != TCP_CLOSE)
> +						goto again;
> +					if (last && subflow != last)
> +						continue;
> +					goto out;
> +				}
> +				msk->last_snd = ssk;
> +				mptcp_subflow_set_scheduled(subflow, false);
> +			}
> 		}
> 	}
>
> diff --git a/net/mptcp/protocol.h b/net/mptcp/protocol.h
> index e93d64217896..2bc0acf2d659 100644
> --- a/net/mptcp/protocol.h
> +++ b/net/mptcp/protocol.h
> @@ -640,6 +640,8 @@ int mptcp_init_sched(struct mptcp_sock *msk,
> void mptcp_release_sched(struct mptcp_sock *msk);
> void mptcp_subflow_set_scheduled(struct mptcp_subflow_context *subflow,
> 				 bool scheduled);
> +struct sock *mptcp_subflow_get_send(struct mptcp_sock *msk);
> +int mptcp_sched_get_send(struct mptcp_sock *msk);
>
> static inline bool __tcp_can_send(const struct sock *ssk)
> {
> diff --git a/net/mptcp/sched.c b/net/mptcp/sched.c
> index 0d7c73e9562e..bc5d82300863 100644
> --- a/net/mptcp/sched.c
> +++ b/net/mptcp/sched.c
> @@ -112,3 +112,40 @@ void mptcp_sched_data_set_contexts(const struct mptcp_sock *msk,
> 	for (; i < MPTCP_SUBFLOWS_MAX; i++)
> 		data->contexts[i] = NULL;
> }
> +
> +int mptcp_sched_get_send(struct mptcp_sock *msk)
> +{
> +	struct mptcp_subflow_context *subflow;
> +	struct mptcp_sched_data data;
> +	struct sock *ssk = NULL;
> +
> +	sock_owned_by_me((const struct sock *)msk);
> +
> +	mptcp_for_each_subflow(msk, subflow) {
> +		if (READ_ONCE(subflow->scheduled))
> +			return 0;
> +	}
> +
> +	/* the following check is moved out of mptcp_subflow_get_send */
> +	if (__mptcp_check_fallback(msk)) {
> +		if (msk->first &&
> +		    __tcp_can_send(msk->first) &&
> +		    sk_stream_memory_free(msk->first)) {
> +			mptcp_subflow_set_scheduled(mptcp_subflow_ctx(msk->first), true);
> +			return 0;
> +		}
> +		return -EINVAL;
> +	}
> +
> +	if (!msk->sched) {
> +		ssk = mptcp_subflow_get_send(msk);
> +		if (!ssk)
> +			return -EINVAL;
> +		mptcp_subflow_set_scheduled(mptcp_subflow_ctx(ssk), true);
> +		return 0;
> +	}
> +
> +	data.reinject = false;
> +	msk->sched->data_init(msk, &data);
> +	return msk->sched->get_subflow(msk, &data);
> +}
> -- 
> 2.35.3
>
>
>

--
Mat Martineau
Intel

diff --git a/net/mptcp/protocol.c b/net/mptcp/protocol.c
index d7aaa49c64f4..5bcadb36b99b 100644
--- a/net/mptcp/protocol.c
+++ b/net/mptcp/protocol.c
@@ -1406,7 +1406,7 @@  bool mptcp_subflow_active(struct mptcp_subflow_context *subflow)
  * returns the subflow that will transmit the next DSS
  * additionally updates the rtx timeout
  */
-static struct sock *mptcp_subflow_get_send(struct mptcp_sock *msk)
+struct sock *mptcp_subflow_get_send(struct mptcp_sock *msk)
 {
 	struct subflow_send_info send_info[SSK_MODE_MAX];
 	struct mptcp_subflow_context *subflow;
@@ -1417,15 +1417,6 @@  static struct sock *mptcp_subflow_get_send(struct mptcp_sock *msk)
 	u64 linger_time;
 	long tout = 0;
 
-	sock_owned_by_me(sk);
-
-	if (__mptcp_check_fallback(msk)) {
-		if (!msk->first)
-			return NULL;
-		return __tcp_can_send(msk->first) &&
-		       sk_stream_memory_free(msk->first) ? msk->first : NULL;
-	}
-
 	/* pick the subflow with the lower wmem/wspace ratio */
 	for (i = 0; i < SSK_MODE_MAX; ++i) {
 		send_info[i].ssk = NULL;
@@ -1577,42 +1568,58 @@  void __mptcp_push_pending(struct sock *sk, unsigned int flags)
 	};
 	bool do_check_data_fin = false;
 
+again:
 	while (mptcp_send_head(sk)) {
+		struct mptcp_subflow_context *subflow, *last = NULL;
 		int ret = 0;
 
-		prev_ssk = ssk;
-		ssk = mptcp_subflow_get_send(msk);
-
-		/* First check. If the ssk has changed since
-		 * the last round, release prev_ssk
-		 */
-		if (ssk != prev_ssk && prev_ssk)
-			mptcp_push_release(prev_ssk, &info);
-		if (!ssk)
+		if (mptcp_sched_get_send(msk))
 			goto out;
 
-		/* Need to lock the new subflow only if different
-		 * from the previous one, otherwise we are still
-		 * helding the relevant lock
-		 */
-		if (ssk != prev_ssk)
-			lock_sock(ssk);
+		mptcp_for_each_subflow(msk, subflow) {
+			if (READ_ONCE(subflow->scheduled))
+				last = subflow;
+		}
 
-		ret = __subflow_push_pending(sk, ssk, &info);
-		if (ret <= 0) {
-			if (ret == -EAGAIN)
-				continue;
-			mptcp_push_release(ssk, &info);
-			goto out;
+		mptcp_for_each_subflow(msk, subflow) {
+			if (READ_ONCE(subflow->scheduled)) {
+				prev_ssk = ssk;
+				ssk = mptcp_subflow_tcp_sock(subflow);
+
+				/* First check. If the ssk has changed since
+				 * the last round, release prev_ssk
+				 */
+				if (ssk != prev_ssk && prev_ssk)
+					mptcp_push_release(prev_ssk, &info);
+
+				/* Need to lock the new subflow only if different
+				 * from the previous one, otherwise we are still
+				 * helding the relevant lock
+				 */
+				if (ssk != prev_ssk)
+					lock_sock(ssk);
+
+				ret = __subflow_push_pending(sk, ssk, &info);
+				if (ret <= 0) {
+					if (ret == -EAGAIN &&
+					    inet_sk_state_load(ssk) != TCP_CLOSE)
+						goto again;
+					if (last && subflow != last)
+						continue;
+					goto out;
+				}
+				do_check_data_fin = true;
+				msk->last_snd = ssk;
+				mptcp_subflow_set_scheduled(subflow, false);
+			}
 		}
-		do_check_data_fin = true;
 	}
 
+out:
 	/* at this point we held the socket lock for the last subflow we used */
 	if (ssk)
 		mptcp_push_release(ssk, &info);
 
-out:
 	/* ensure the rtx timer is running */
 	if (!mptcp_timer_pending(sk))
 		mptcp_reset_timer(sk);
@@ -1626,29 +1633,61 @@  static void __mptcp_subflow_push_pending(struct sock *sk, struct sock *ssk, bool
 	struct mptcp_sendmsg_info info = {
 		.data_lock_held = true,
 	};
-	struct sock *xmit_ssk;
 	int ret = 0;
 
 	info.flags = 0;
+again:
 	while (mptcp_send_head(sk)) {
+		struct mptcp_subflow_context *subflow, *last = NULL;
+
 		/* check for a different subflow usage only after
 		 * spooling the first chunk of data
 		 */
-		xmit_ssk = first ? ssk : mptcp_subflow_get_send(msk);
-		if (!xmit_ssk)
-			goto out;
-		if (xmit_ssk != ssk) {
-			mptcp_subflow_delegate(mptcp_subflow_ctx(xmit_ssk),
-					       MPTCP_DELEGATE_SEND);
+		if (first) {
+			ret = __subflow_push_pending(sk, ssk, &info);
+			first = false;
+			if (ret <= 0) {
+				if (ret == -EAGAIN &&
+				    inet_sk_state_load(ssk) != TCP_CLOSE)
+					goto again;
+				break;
+			}
+			msk->last_snd = ssk;
+			continue;
+		}
+
+		if (mptcp_sched_get_send(msk))
 			goto out;
+
+		mptcp_for_each_subflow(msk, subflow) {
+			if (READ_ONCE(subflow->scheduled))
+				last = subflow;
 		}
 
-		ret = __subflow_push_pending(sk, ssk, &info);
-		first = false;
-		if (ret <= 0) {
-			if (ret == -EAGAIN)
-				continue;
-			break;
+		mptcp_for_each_subflow(msk, subflow) {
+			if (READ_ONCE(subflow->scheduled)) {
+				struct sock *xmit_ssk = mptcp_subflow_tcp_sock(subflow);
+
+				if (xmit_ssk != ssk) {
+					mptcp_subflow_delegate(subflow,
+							       MPTCP_DELEGATE_SEND);
+					msk->last_snd = ssk;
+					mptcp_subflow_set_scheduled(subflow, false);
+					goto out;
+				}
+
+				ret = __subflow_push_pending(sk, ssk, &info);
+				if (ret <= 0) {
+					if (ret == -EAGAIN &&
+					    inet_sk_state_load(ssk) != TCP_CLOSE)
+						goto again;
+					if (last && subflow != last)
+						continue;
+					goto out;
+				}
+				msk->last_snd = ssk;
+				mptcp_subflow_set_scheduled(subflow, false);
+			}
 		}
 	}
 
diff --git a/net/mptcp/protocol.h b/net/mptcp/protocol.h
index e93d64217896..2bc0acf2d659 100644
--- a/net/mptcp/protocol.h
+++ b/net/mptcp/protocol.h
@@ -640,6 +640,8 @@  int mptcp_init_sched(struct mptcp_sock *msk,
 void mptcp_release_sched(struct mptcp_sock *msk);
 void mptcp_subflow_set_scheduled(struct mptcp_subflow_context *subflow,
 				 bool scheduled);
+struct sock *mptcp_subflow_get_send(struct mptcp_sock *msk);
+int mptcp_sched_get_send(struct mptcp_sock *msk);
 
 static inline bool __tcp_can_send(const struct sock *ssk)
 {
diff --git a/net/mptcp/sched.c b/net/mptcp/sched.c
index 0d7c73e9562e..bc5d82300863 100644
--- a/net/mptcp/sched.c
+++ b/net/mptcp/sched.c
@@ -112,3 +112,40 @@  void mptcp_sched_data_set_contexts(const struct mptcp_sock *msk,
 	for (; i < MPTCP_SUBFLOWS_MAX; i++)
 		data->contexts[i] = NULL;
 }
+
+int mptcp_sched_get_send(struct mptcp_sock *msk)
+{
+	struct mptcp_subflow_context *subflow;
+	struct mptcp_sched_data data;
+	struct sock *ssk = NULL;
+
+	sock_owned_by_me((const struct sock *)msk);
+
+	mptcp_for_each_subflow(msk, subflow) {
+		if (READ_ONCE(subflow->scheduled))
+			return 0;
+	}
+
+	/* the following check is moved out of mptcp_subflow_get_send */
+	if (__mptcp_check_fallback(msk)) {
+		if (msk->first &&
+		    __tcp_can_send(msk->first) &&
+		    sk_stream_memory_free(msk->first)) {
+			mptcp_subflow_set_scheduled(mptcp_subflow_ctx(msk->first), true);
+			return 0;
+		}
+		return -EINVAL;
+	}
+
+	if (!msk->sched) {
+		ssk = mptcp_subflow_get_send(msk);
+		if (!ssk)
+			return -EINVAL;
+		mptcp_subflow_set_scheduled(mptcp_subflow_ctx(ssk), true);
+		return 0;
+	}
+
+	data.reinject = false;
+	msk->sched->data_init(msk, &data);
+	return msk->sched->get_subflow(msk, &data);
+}

[mptcp-next,v18,10/15] mptcp: use get_send wrapper

Checks

Commit Message

Comments

Patch