[v14,138/138] mm/readahead: Add multi-page folio readahead

Message ID	20210715033704.692967-139-willy@infradead.org (mailing list archive)
State	New, archived
Headers	show Return-Path: <linux-fsdevel-owner@kernel.org> From: "Matthew Wilcox (Oracle)" <willy@infradead.org> To: linux-kernel@vger.kernel.org Cc: "Matthew Wilcox (Oracle)" <willy@infradead.org>, linux-mm@kvack.org, linux-fsdevel@vger.kernel.org Subject: [PATCH v14 138/138] mm/readahead: Add multi-page folio readahead Date: Thu, 15 Jul 2021 04:37:04 +0100 Message-Id: <20210715033704.692967-139-willy@infradead.org> In-Reply-To: <20210715033704.692967-1-willy@infradead.org> References: <20210715033704.692967-1-willy@infradead.org> MIME-Version: 1.0 Content-Transfer-Encoding: 8bit Precedence: bulk
Series	Memory folios \| expand [v14,000/138] Memory folios [v14,001/138] mm: Convert get_page_unless_zero() to return bool [v14,002/138] mm: Introduce struct folio [v14,003/138] mm: Add folio_pgdat(), folio_zone() and folio_zonenum() [v14,004/138] mm/vmstat: Add functions to account folio statistics [v14,005/138] mm/debug: Add VM_BUG_ON_FOLIO() and VM_WARN_ON_ONCE_FOLIO() [v14,006/138] mm: Add folio reference count functions [v14,007/138] mm: Add folio_put() [v14,008/138] mm: Add folio_get() [v14,009/138] mm: Add folio_try_get_rcu() [v14,010/138] mm: Add folio flag manipulation functions [v14,011/138] mm/lru: Add folio LRU functions [v14,012/138] mm: Handle per-folio private data [v14,013/138] mm/filemap: Add folio_index(), folio_file_page() and folio_contains() [v14,014/138] mm/filemap: Add folio_next_index() [v14,015/138] mm/filemap: Add folio_pos() and folio_file_pos() [v14,016/138] mm/util: Add folio_mapping() and folio_file_mapping() [v14,017/138] mm/filemap: Add folio_unlock() [v14,018/138] mm/filemap: Add folio_lock() [v14,019/138] mm/filemap: Add folio_lock_killable() [v14,020/138] mm/filemap: Add __folio_lock_async() [v14,021/138] mm/filemap: Add folio_wait_locked() [v14,022/138] mm/filemap: Add __folio_lock_or_retry() [v14,023/138] mm/swap: Add folio_rotate_reclaimable() [v14,024/138] mm/filemap: Add folio_end_writeback() [v14,025/138] mm/writeback: Add folio_wait_writeback() [v14,026/138] mm/writeback: Add folio_wait_stable() [v14,027/138] mm/filemap: Add folio_wait_bit() [v14,028/138] mm/filemap: Add folio_wake_bit() [v14,029/138] mm/filemap: Convert page wait queues to be folios [v14,030/138] mm/filemap: Add folio private_2 functions [v14,031/138] fs/netfs: Add folio fscache functions [v14,032/138] mm: Add folio_mapped() [v14,033/138] mm: Add folio_nid() [v14,034/138] mm/memcg: Remove 'page' parameter to mem_cgroup_charge_statistics() [v14,035/138] mm/memcg: Use the node id in mem_cgroup_update_tree() [v14,036/138] mm/memcg: Remove soft_limit_tree_node() [v14,037/138] mm/memcg: Convert memcg_check_events to take a node ID [v14,038/138] mm/memcg: Add folio_memcg() and related functions [v14,039/138] mm/memcg: Convert commit_charge() to take a folio [v14,040/138] mm/memcg: Convert mem_cgroup_charge() to take a folio [v14,041/138] mm/memcg: Convert uncharge_page() to uncharge_folio() [v14,042/138] mm/memcg: Convert mem_cgroup_uncharge() to take a folio [v14,043/138] mm/memcg: Convert mem_cgroup_migrate() to take folios [v14,044/138] mm/memcg: Convert mem_cgroup_track_foreign_dirty_slowpath() to folio [v14,045/138] mm/memcg: Add folio_memcg_lock() and folio_memcg_unlock() [v14,046/138] mm/memcg: Convert mem_cgroup_move_account() to use a folio [v14,047/138] mm/memcg: Add folio_lruvec() [v14,048/138] mm/memcg: Add folio_lruvec_lock() and similar functions [v14,049/138] mm/memcg: Add folio_lruvec_relock_irq() and folio_lruvec_relock_irqsave() [v14,050/138] mm/workingset: Convert workingset_activation to take a folio [v14,051/138] mm: Add folio_pfn() [v14,052/138] mm: Add folio_raw_mapping() [v14,053/138] mm: Add flush_dcache_folio() [v14,054/138] mm: Add kmap_local_folio() [v14,055/138] mm: Add arch_make_folio_accessible() [v14,056/138] mm: Add folio_young and folio_idle [v14,057/138] mm/swap: Add folio_activate() [v14,058/138] mm/swap: Add folio_mark_accessed() [v14,059/138] mm/rmap: Add folio_mkclean() [v14,060/138] mm/migrate: Add folio_migrate_mapping() [v14,061/138] mm/migrate: Add folio_migrate_flags() [v14,062/138] mm/migrate: Add folio_migrate_copy() [v14,063/138] mm/writeback: Rename __add_wb_stat() to wb_stat_mod() [v14,064/138] flex_proportions: Allow N events instead of 1 [v14,065/138] mm/writeback: Change __wb_writeout_inc() to __wb_writeout_add() [v14,066/138] mm/writeback: Add __folio_end_writeback() [v14,067/138] mm/writeback: Add folio_start_writeback() [v14,068/138] mm/writeback: Add folio_mark_dirty() [v14,069/138] mm/writeback: Add __folio_mark_dirty() [v14,070/138] mm/writeback: Convert tracing writeback_page_template to folios [v14,071/138] mm/writeback: Add filemap_dirty_folio() [v14,072/138] mm/writeback: Add folio_account_cleaned() [v14,073/138] mm/writeback: Add folio_cancel_dirty() [v14,074/138] mm/writeback: Add folio_clear_dirty_for_io() [v14,075/138] mm/writeback: Add folio_account_redirty() [v14,076/138] mm/writeback: Add folio_redirty_for_writepage() [v14,077/138] mm/filemap: Add i_blocks_per_folio() [v14,078/138] mm/filemap: Add folio_mkwrite_check_truncate() [v14,079/138] mm/filemap: Add readahead_folio() [v14,080/138] mm/workingset: Convert workingset_refault() to take a folio [v14,081/138] mm: Add folio_evictable() [v14,082/138] mm/lru: Convert __pagevec_lru_add_fn to take a folio [v14,083/138] mm/lru: Add folio_add_lru() [v14,084/138] mm/page_alloc: Add folio allocation functions [v14,085/138] mm/filemap: Add filemap_alloc_folio [v14,086/138] mm/filemap: Add filemap_add_folio() [v14,087/138] mm/filemap: Convert mapping_get_entry to return a folio [v14,088/138] mm/filemap: Add filemap_get_folio [v14,089/138] mm/filemap: Add FGP_STABLE [v14,090/138] block: Add bio_add_folio() [v14,091/138] block: Add bio_for_each_folio_all() [v14,092/138] iomap: Convert to_iomap_page to take a folio [v14,093/138] iomap: Convert iomap_page_create to take a folio [v14,094/138] iomap: Convert iomap_page_release to take a folio [v14,095/138] iomap: Convert iomap_releasepage to use a folio [v14,096/138] iomap: Convert iomap_invalidatepage to use a folio [v14,097/138] iomap: Pass the iomap_page into iomap_set_range_uptodate [v14,098/138] iomap: Use folio offsets instead of page offsets [v14,099/138] iomap: Convert bio completions to use folios [v14,100/138] iomap: Convert readahead and readpage to use a folio [v14,101/138] iomap: Convert iomap_page_mkwrite to use a folio [v14,102/138] iomap: Convert iomap_write_begin and iomap_write_end to folios [v14,103/138] iomap: Convert iomap_read_inline_data to take a folio [v14,104/138] iomap: Convert iomap_write_end_inline to take a folio [v14,105/138] iomap: Convert iomap_add_to_ioend to take a folio [v14,106/138] iomap: Convert iomap_do_writepage to use a folio [v14,107/138] iomap: Convert iomap_migrate_page to use folios [v14,108/138] mm/filemap: Convert page_cache_delete to take a folio [v14,109/138] mm/filemap: Convert unaccount_page_cache_page to filemap_unaccount_folio [v14,110/138] mm/filemap: Add filemap_remove_folio and __filemap_remove_folio [v14,111/138] mm/filemap: Convert find_get_entry to return a folio [v14,112/138] mm/filemap: Convert filemap_get_read_batch to use folios [v14,113/138] mm/filemap: Convert find_get_pages_contig to folios [v14,114/138] mm/filemap: Convert filemap_read_page to take a folio [v14,115/138] mm/filemap: Convert filemap_create_page to folio [v14,116/138] mm/filemap: Convert filemap_range_uptodate to folios [v14,117/138] mm/filemap: Convert filemap_fault to folio [v14,118/138] mm/filemap: Add read_cache_folio and read_mapping_folio [v14,119/138] mm/filemap: Convert filemap_get_pages to use folios [v14,120/138] mm/filemap: Convert page_cache_delete_batch to folios [v14,121/138] mm/filemap: Remove PageHWPoison check from next_uptodate_page() [v14,122/138] mm/filemap: Use folios in next_uptodate_page [v14,123/138] mm/filemap: Use a folio in filemap_map_pages [v14,124/138] fs: Convert vfs_dedupe_file_range_compare to folios [v14,125/138] mm/truncate,shmem: Handle truncates that split THPs [v14,126/138] mm/filemap: Return only head pages from find_get_entries [v14,127/138] mm: Use multi-index entries in the page cache [v14,128/138] iomap: Support multi-page folios in invalidatepage [v14,129/138] xfs: Support THPs [v14,130/138] mm/truncate: Convert invalidate_inode_pages2_range to folios [v14,131/138] mm/truncate: Fix invalidate_complete_page2 for THPs [v14,132/138] mm/vmscan: Free non-shmem THPs without splitting them [v14,133/138] mm: Fix READ_ONLY_THP warning [v14,134/138] mm: Support arbitrary THP sizes [v14,135/138] mm/filemap: Allow multi-page folios to be added to the page cache [v14,136/138] mm/vmscan: Optimise shrink_page_list for smaller THPs [v14,137/138] mm/readahead: Convert page_cache_async_ra() to take a folio [v14,138/138] mm/readahead: Add multi-page folio readahead

Message ID

20210715033704.692967-139-willy@infradead.org (mailing list archive)

State

New, archived

Headers

From: "Matthew Wilcox (Oracle)" <willy@infradead.org>
To: linux-kernel@vger.kernel.org
Cc: "Matthew Wilcox (Oracle)" <willy@infradead.org>,
        linux-mm@kvack.org, linux-fsdevel@vger.kernel.org
Subject: [PATCH v14 138/138] mm/readahead: Add multi-page folio readahead
Date: Thu, 15 Jul 2021 04:37:04 +0100
Message-Id: <20210715033704.692967-139-willy@infradead.org>
In-Reply-To: <20210715033704.692967-1-willy@infradead.org>
References: <20210715033704.692967-1-willy@infradead.org>
MIME-Version: 1.0
Content-Transfer-Encoding: 8bit
Precedence: bulk

Series

Memory folios | expand

Commit Message

Matthew Wilcox July 15, 2021, 3:37 a.m. UTC

If the filesystem supports multi-page folios, allocate larger pages in
the readahead code when it seems worth doing.  The heuristic for choosing
larger page sizes will surely need some tuning, but this aggressive
ramp-up has been good for testing.

Signed-off-by: Matthew Wilcox (Oracle) <willy@infradead.org>
---
 mm/readahead.c | 102 +++++++++++++++++++++++++++++++++++++++++++++----
 1 file changed, 95 insertions(+), 7 deletions(-)

diff --git a/mm/readahead.c b/mm/readahead.c
index e1df44ad57ed..27e76cc2a9ba 100644
--- a/mm/readahead.c
+++ b/mm/readahead.c
@@ -149,7 +149,7 @@  static void read_pages(struct readahead_control *rac, struct list_head *pages,
 
 	blk_finish_plug(&plug);
 
-	BUG_ON(!list_empty(pages));
+	BUG_ON(pages && !list_empty(pages));
 	BUG_ON(readahead_count(rac));
 
 out:
@@ -430,11 +430,99 @@  static int try_context_readahead(struct address_space *mapping,
 	return 1;
 }
 
+#ifdef CONFIG_TRANSPARENT_HUGEPAGE
+static inline int ra_alloc_folio(struct readahead_control *ractl, pgoff_t index,
+		pgoff_t mark, unsigned int order, gfp_t gfp)
+{
+	int err;
+	struct folio *folio = filemap_alloc_folio(gfp, order);
+
+	if (!folio)
+		return -ENOMEM;
+	if (mark - index < (1UL << order))
+		folio_set_readahead(folio);
+	err = filemap_add_folio(ractl->mapping, folio, index, gfp);
+	if (err)
+		folio_put(folio);
+	else
+		ractl->_nr_pages += 1UL << order;
+	return err;
+}
+
+static void page_cache_ra_order(struct readahead_control *ractl,
+		struct file_ra_state *ra, unsigned int new_order)
+{
+	struct address_space *mapping = ractl->mapping;
+	pgoff_t index = readahead_index(ractl);
+	pgoff_t limit = (i_size_read(mapping->host) - 1) >> PAGE_SHIFT;
+	pgoff_t mark = index + ra->size - ra->async_size;
+	int err = 0;
+	gfp_t gfp = readahead_gfp_mask(mapping);
+
+	if (!mapping_thp_support(mapping) || ra->size < 4)
+		goto fallback;
+
+	limit = min(limit, index + ra->size - 1);
+
+	/* Grow page size up to PMD size */
+	if (new_order < HPAGE_PMD_ORDER) {
+		new_order += 2;
+		if (new_order > HPAGE_PMD_ORDER)
+			new_order = HPAGE_PMD_ORDER;
+		while ((1 << new_order) > ra->size)
+			new_order--;
+	}
+
+	while (index <= limit) {
+		unsigned int order = new_order;
+
+		/* Align with smaller pages if needed */
+		if (index & ((1UL << order) - 1)) {
+			order = __ffs(index);
+			if (order == 1)
+				order = 0;
+		}
+		/* Don't allocate pages past EOF */
+		while (index + (1UL << order) - 1 > limit) {
+			if (--order == 1)
+				order = 0;
+		}
+		err = ra_alloc_folio(ractl, index, mark, order, gfp);
+		if (err)
+			break;
+		index += 1UL << order;
+	}
+
+	if (index > limit) {
+		ra->size += index - limit - 1;
+		ra->async_size += index - limit - 1;
+	}
+
+	read_pages(ractl, NULL, false);
+
+	/*
+	 * If there were already pages in the page cache, then we may have
+	 * left some gaps.  Let the regular readahead code take care of this
+	 * situation.
+	 */
+	if (!err)
+		return;
+fallback:
+	do_page_cache_ra(ractl, ra->size, ra->async_size);
+}
+#else
+static void page_cache_ra_order(struct readahead_control *ractl,
+		struct file_ra_state *ra, unsigned int order)
+{
+	do_page_cache_ra(ractl, ra->size, ra->async_size);
+}
+#endif
+
 /*
  * A minimal readahead algorithm for trivial sequential/random reads.
  */
 static void ondemand_readahead(struct readahead_control *ractl,
-		bool hit_readahead_marker, unsigned long req_size)
+		struct folio *folio, unsigned long req_size)
 {
 	struct backing_dev_info *bdi = inode_to_bdi(ractl->mapping->host);
 	struct file_ra_state *ra = ractl->ra;
@@ -469,12 +557,12 @@  static void ondemand_readahead(struct readahead_control *ractl,
 	}
 
 	/*
-	 * Hit a marked page without valid readahead state.
+	 * Hit a marked folio without valid readahead state.
 	 * E.g. interleaved reads.
 	 * Query the pagecache for async_size, which normally equals to
 	 * readahead size. Ramp it up and use it as the new readahead size.
 	 */
-	if (hit_readahead_marker) {
+	if (folio) {
 		pgoff_t start;
 
 		rcu_read_lock();
@@ -547,7 +635,7 @@  static void ondemand_readahead(struct readahead_control *ractl,
 	}
 
 	ractl->_index = ra->start;
-	do_page_cache_ra(ractl, ra->size, ra->async_size);
+	page_cache_ra_order(ractl, ra, folio ? folio_order(folio) : 0);
 }
 
 void page_cache_sync_ra(struct readahead_control *ractl,
@@ -575,7 +663,7 @@  void page_cache_sync_ra(struct readahead_control *ractl,
 	}
 
 	/* do read-ahead */
-	ondemand_readahead(ractl, false, req_count);
+	ondemand_readahead(ractl, NULL, req_count);
 }
 EXPORT_SYMBOL_GPL(page_cache_sync_ra);
 
@@ -604,7 +692,7 @@  void page_cache_async_ra(struct readahead_control *ractl,
 		return;
 
 	/* do read-ahead */
-	ondemand_readahead(ractl, true, req_count);
+	ondemand_readahead(ractl, folio, req_count);
 }
 EXPORT_SYMBOL_GPL(page_cache_async_ra);

[v14,138/138] mm/readahead: Add multi-page folio readahead

Commit Message

Patch