[71/75] mm/readahead: Add large folio readahead

Message ID	20220204195852.1751729-72-willy@infradead.org (mailing list archive)
State	New
Headers	show Return-Path: <owner-linux-mm@kvack.org> From: "Matthew Wilcox (Oracle)" <willy@infradead.org> To: linux-mm@kvack.org Cc: "Matthew Wilcox (Oracle)" <willy@infradead.org>, linux-kernel@vger.kernel.org Subject: [PATCH 71/75] mm/readahead: Add large folio readahead Date: Fri, 4 Feb 2022 19:58:48 +0000 Message-Id: <20220204195852.1751729-72-willy@infradead.org> In-Reply-To: <20220204195852.1751729-1-willy@infradead.org> References: <20220204195852.1751729-1-willy@infradead.org> MIME-Version: 1.0 Content-Transfer-Encoding: quoted-printable Sender: owner-linux-mm@kvack.org Precedence: bulk
Series	MM folio patches for 5.18 \| expand [00/75] MM folio patches for 5.18 [01/75] mm/gup: Increment the page refcount before the pincount [02/75] mm/gup: Remove for_each_compound_range() [03/75] mm/gup: Remove for_each_compound_head() [04/75] mm/gup: Change the calling convention for compound_range_next() [05/75] mm/gup: Optimise compound_range_next() [06/75] mm/gup: Change the calling convention for compound_next() [07/75] mm/gup: Fix some contiguous memmap assumptions [08/75] mm/gup: Remove an assumption of a contiguous memmap [09/75] mm/gup: Handle page split race more efficiently [10/75] mm/gup: Remove hpage_pincount_add() [11/75] mm/gup: Remove hpage_pincount_sub() [12/75] mm: Make compound_pincount always available [13/75] mm: Add folio_pincount_ptr() [14/75] mm: Turn page_maybe_dma_pinned() into folio_maybe_dma_pinned() [15/75] mm/gup: Add try_get_folio() and try_grab_folio() [16/75] mm/gup: Convert try_grab_page() to use a folio [17/75] mm: Remove page_cache_add_speculative() and page_cache_get_speculative() [18/75] mm/gup: Add gup_put_folio() [19/75] mm/hugetlb: Use try_grab_folio() instead of try_grab_compound_head() [20/75] mm/gup: Convert gup_pte_range() to use a folio [21/75] mm/gup: Convert gup_hugepte() to use a folio [22/75] mm/gup: Convert gup_huge_pmd() to use a folio [23/75] mm/gup: Convert gup_huge_pud() to use a folio [24/75] mm/gup: Convert gup_huge_pgd() to use a folio [25/75] mm/gup: Turn compound_next() into gup_folio_next() [26/75] mm/gup: Turn compound_range_next() into gup_folio_range_next() [27/75] mm: Turn isolate_lru_page() into folio_isolate_lru() [28/75] mm/gup: Convert check_and_migrate_movable_pages() to use a folio [29/75] mm/workingset: Convert workingset_eviction() to take a folio [30/75] mm/memcg: Convert mem_cgroup_swapout() to take a folio [31/75] mm: Add lru_to_folio() [32/75] mm: Turn putback_lru_page() into folio_putback_lru() [33/75] mm/vmscan: Convert __remove_mapping() to take a folio [34/75] mm/vmscan: Turn page_check_dirty_writeback() into folio_check_dirty_writeback() [35/75] mm: Turn head_compound_mapcount() into folio_entire_mapcount() [36/75] mm: Add folio_mapcount() [37/75] mm: Add split_folio_to_list() [38/75] mm: Add folio_is_zone_device() and folio_is_device_private() [39/75] mm: Add folio_pgoff() [40/75] mm: Add pvmw_set_page() and pvmw_set_folio() [41/75] hexagon: Add pmd_pfn() [42/75] mm: Convert page_vma_mapped_walk to work on PFNs [43/75] mm/page_idle: Convert page_idle_clear_pte_refs() to use a folio [44/75] mm/rmap: Use a folio in page_mkclean_one() [45/75] mm/rmap: Turn page_referenced() into folio_referenced() [46/75] mm/mlock: Turn clear_page_mlock() into folio_end_mlock() [47/75] mm/mlock: Turn mlock_vma_page() into mlock_vma_folio() [48/75] mm/rmap: Turn page_mlock() into folio_mlock() [49/75] mm/mlock: Turn munlock_vma_page() into munlock_vma_folio() [50/75] mm/huge_memory: Convert __split_huge_pmd() to take a folio [51/75] mm/rmap: Convert try_to_unmap() to take a folio [52/75] mm/rmap: Convert try_to_migrate() to folios [53/75] mm/rmap: Convert make_device_exclusive_range() to use folios [54/75] mm/migrate: Convert remove_migration_ptes() to folios [55/75] mm/damon: Convert damon_pa_mkold() to use a folio [56/75] mm/damon: Convert damon_pa_young() to use a folio [57/75] mm/rmap: Turn page_lock_anon_vma_read() into folio_lock_anon_vma_read() [58/75] mm: Turn page_anon_vma() into folio_anon_vma() [59/75] mm/rmap: Convert rmap_walk() to take a folio [60/75] mm/rmap: Constify the rmap_walk_control argument [61/75] mm/vmscan: Free non-shmem folios without splitting them [62/75] mm/vmscan: Optimise shrink_page_list for non-PMD-sized folios [63/75] mm/vmscan: Account large folios correctly [64/75] mm/vmscan: Turn page_check_references() into folio_check_references() [65/75] mm/vmscan: Convert pageout() to take a folio [66/75] mm: Turn can_split_huge_page() into can_split_folio() [67/75] mm/filemap: Allow large folios to be added to the page cache [68/75] mm: Fix READ_ONLY_THP warning [69/75] mm: Make large folios depend on THP [70/75] mm: Support arbitrary THP sizes [71/75] mm/readahead: Add large folio readahead [72/75] mm/readahead: Align file mappings for non-DAX [73/75] mm/readahead: Switch to page_cache_ra_order [74/75] mm/filemap: Support VM_HUGEPAGE for file mappings [75/75] selftests/vm/transhuge-stress: Support file-backed PMD folios

Message ID

20220204195852.1751729-72-willy@infradead.org (mailing list archive)

State

New

Headers

From: "Matthew Wilcox (Oracle)" <willy@infradead.org>
To: linux-mm@kvack.org
Cc: "Matthew Wilcox (Oracle)" <willy@infradead.org>,
	linux-kernel@vger.kernel.org
Subject: [PATCH 71/75] mm/readahead: Add large folio readahead
Date: Fri,  4 Feb 2022 19:58:48 +0000
Message-Id: <20220204195852.1751729-72-willy@infradead.org>
In-Reply-To: <20220204195852.1751729-1-willy@infradead.org>
References: <20220204195852.1751729-1-willy@infradead.org>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Sender: owner-linux-mm@kvack.org
Precedence: bulk

Series

MM folio patches for 5.18 | expand

Commit Message

Matthew Wilcox Feb. 4, 2022, 7:58 p.m. UTC

Allocate large folios in the readahead code when the filesystem supports
them and it seems worth doing.  The heuristic for choosing which folio
sizes will surely need some tuning, but this aggressive ramp-up has been
good for testing.

Signed-off-by: Matthew Wilcox (Oracle) <willy@infradead.org>
---
 mm/readahead.c | 106 +++++++++++++++++++++++++++++++++++++++++++++----
 1 file changed, 99 insertions(+), 7 deletions(-)

Comments

Mark Hemment Feb. 6, 2022, 1:10 p.m. UTC | #1

On Fri, 4 Feb 2022 at 20:00, Matthew Wilcox (Oracle)
<willy@infradead.org> wrote:
>
> Allocate large folios in the readahead code when the filesystem supports
> them and it seems worth doing.  The heuristic for choosing which folio
> sizes will surely need some tuning, but this aggressive ramp-up has been
> good for testing.
>
> Signed-off-by: Matthew Wilcox (Oracle) <willy@infradead.org>
> ---
>  mm/readahead.c | 106 +++++++++++++++++++++++++++++++++++++++++++++----
>  1 file changed, 99 insertions(+), 7 deletions(-)

...
> +static void page_cache_ra_order(struct readahead_control *ractl,
> +               struct file_ra_state *ra, unsigned int new_order)
> +{
> +       struct address_space *mapping = ractl->mapping;
> +       pgoff_t index = readahead_index(ractl);
> +       pgoff_t limit = (i_size_read(mapping->host) - 1) >> PAGE_SHIFT;

Not sure if can be called for an empty file, but do _page_cache_ra()
has an explicit check for i_size_read() == 0.

> +       pgoff_t mark = index + ra->size - ra->async_size;
> +       int err = 0;
> +       gfp_t gfp = readahead_gfp_mask(mapping);
> +
> +       if (!mapping_large_folio_support(mapping) || ra->size < 4)
> +               goto fallback;
> +
> +       limit = min(limit, index + ra->size - 1);

Cheers,
Mark

diff --git a/mm/readahead.c b/mm/readahead.c
index cf0dcf89eb69..5100eaf5b0ee 100644
--- a/mm/readahead.c
+++ b/mm/readahead.c
@@ -148,7 +148,7 @@  static void read_pages(struct readahead_control *rac, struct list_head *pages,
 
 	blk_finish_plug(&plug);
 
-	BUG_ON(!list_empty(pages));
+	BUG_ON(pages && !list_empty(pages));
 	BUG_ON(readahead_count(rac));
 
 out:
@@ -431,11 +431,103 @@  static int try_context_readahead(struct address_space *mapping,
 	return 1;
 }
 
+/*
+ * There are some parts of the kernel which assume that PMD entries
+ * are exactly HPAGE_PMD_ORDER.  Those should be fixed, but until then,
+ * limit the maximum allocation order to PMD size.  I'm not aware of any
+ * assumptions about maximum order if THP are disabled, but 8 seems like
+ * a good order (that's 1MB if you're using 4kB pages)
+ */
+#ifdef CONFIG_TRANSPARENT_HUGEPAGE
+#define MAX_PAGECACHE_ORDER	HPAGE_PMD_ORDER
+#else
+#define MAX_PAGECACHE_ORDER	8
+#endif
+
+static inline int ra_alloc_folio(struct readahead_control *ractl, pgoff_t index,
+		pgoff_t mark, unsigned int order, gfp_t gfp)
+{
+	int err;
+	struct folio *folio = filemap_alloc_folio(gfp, order);
+
+	if (!folio)
+		return -ENOMEM;
+	if (mark - index < (1UL << order))
+		folio_set_readahead(folio);
+	err = filemap_add_folio(ractl->mapping, folio, index, gfp);
+	if (err)
+		folio_put(folio);
+	else
+		ractl->_nr_pages += 1UL << order;
+	return err;
+}
+
+static void page_cache_ra_order(struct readahead_control *ractl,
+		struct file_ra_state *ra, unsigned int new_order)
+{
+	struct address_space *mapping = ractl->mapping;
+	pgoff_t index = readahead_index(ractl);
+	pgoff_t limit = (i_size_read(mapping->host) - 1) >> PAGE_SHIFT;
+	pgoff_t mark = index + ra->size - ra->async_size;
+	int err = 0;
+	gfp_t gfp = readahead_gfp_mask(mapping);
+
+	if (!mapping_large_folio_support(mapping) || ra->size < 4)
+		goto fallback;
+
+	limit = min(limit, index + ra->size - 1);
+
+	if (new_order < MAX_PAGECACHE_ORDER) {
+		new_order += 2;
+		if (new_order > MAX_PAGECACHE_ORDER)
+			new_order = MAX_PAGECACHE_ORDER;
+		while ((1 << new_order) > ra->size)
+			new_order--;
+	}
+
+	while (index <= limit) {
+		unsigned int order = new_order;
+
+		/* Align with smaller pages if needed */
+		if (index & ((1UL << order) - 1)) {
+			order = __ffs(index);
+			if (order == 1)
+				order = 0;
+		}
+		/* Don't allocate pages past EOF */
+		while (index + (1UL << order) - 1 > limit) {
+			if (--order == 1)
+				order = 0;
+		}
+		err = ra_alloc_folio(ractl, index, mark, order, gfp);
+		if (err)
+			break;
+		index += 1UL << order;
+	}
+
+	if (index > limit) {
+		ra->size += index - limit - 1;
+		ra->async_size += index - limit - 1;
+	}
+
+	read_pages(ractl, NULL, false);
+
+	/*
+	 * If there were already pages in the page cache, then we may have
+	 * left some gaps.  Let the regular readahead code take care of this
+	 * situation.
+	 */
+	if (!err)
+		return;
+fallback:
+	do_page_cache_ra(ractl, ra->size, ra->async_size);
+}
+
 /*
  * A minimal readahead algorithm for trivial sequential/random reads.
  */
 static void ondemand_readahead(struct readahead_control *ractl,
-		bool hit_readahead_marker, unsigned long req_size)
+		struct folio *folio, unsigned long req_size)
 {
 	struct backing_dev_info *bdi = inode_to_bdi(ractl->mapping->host);
 	struct file_ra_state *ra = ractl->ra;
@@ -470,12 +562,12 @@  static void ondemand_readahead(struct readahead_control *ractl,
 	}
 
 	/*
-	 * Hit a marked page without valid readahead state.
+	 * Hit a marked folio without valid readahead state.
 	 * E.g. interleaved reads.
 	 * Query the pagecache for async_size, which normally equals to
 	 * readahead size. Ramp it up and use it as the new readahead size.
 	 */
-	if (hit_readahead_marker) {
+	if (folio) {
 		pgoff_t start;
 
 		rcu_read_lock();
@@ -548,7 +640,7 @@  static void ondemand_readahead(struct readahead_control *ractl,
 	}
 
 	ractl->_index = ra->start;
-	do_page_cache_ra(ractl, ra->size, ra->async_size);
+	page_cache_ra_order(ractl, ra, folio ? folio_order(folio) : 0);
 }
 
 void page_cache_sync_ra(struct readahead_control *ractl,
@@ -576,7 +668,7 @@  void page_cache_sync_ra(struct readahead_control *ractl,
 	}
 
 	/* do read-ahead */
-	ondemand_readahead(ractl, false, req_count);
+	ondemand_readahead(ractl, NULL, req_count);
 }
 EXPORT_SYMBOL_GPL(page_cache_sync_ra);
 
@@ -605,7 +697,7 @@  void page_cache_async_ra(struct readahead_control *ractl,
 		return;
 
 	/* do read-ahead */
-	ondemand_readahead(ractl, true, req_count);
+	ondemand_readahead(ractl, folio, req_count);
 }
 EXPORT_SYMBOL_GPL(page_cache_async_ra);

[71/75] mm/readahead: Add large folio readahead

Commit Message

Comments

Patch