[v14,127/138] mm: Use multi-index entries in the page cache

Message ID	20210715033704.692967-128-willy@infradead.org (mailing list archive)
State	New
Headers	show Return-Path: <SRS0=osCV=MH=kvack.org=owner-linux-mm@kernel.org> DMARC-Filter: OpenDMARC Filter v1.3.2 mail.kernel.org 9C39761360 From: "Matthew Wilcox (Oracle)" <willy@infradead.org> To: linux-kernel@vger.kernel.org Cc: "Matthew Wilcox (Oracle)" <willy@infradead.org>, linux-mm@kvack.org, linux-fsdevel@vger.kernel.org Subject: [PATCH v14 127/138] mm: Use multi-index entries in the page cache Date: Thu, 15 Jul 2021 04:36:53 +0100 Message-Id: <20210715033704.692967-128-willy@infradead.org> In-Reply-To: <20210715033704.692967-1-willy@infradead.org> References: <20210715033704.692967-1-willy@infradead.org> MIME-Version: 1.0 Content-Transfer-Encoding: quoted-printable Sender: owner-linux-mm@kvack.org Precedence: bulk
Series	Memory folios \| expand [v14,000/138] Memory folios [v14,001/138] mm: Convert get_page_unless_zero() to return bool [v14,002/138] mm: Introduce struct folio [v14,003/138] mm: Add folio_pgdat(), folio_zone() and folio_zonenum() [v14,004/138] mm/vmstat: Add functions to account folio statistics [v14,005/138] mm/debug: Add VM_BUG_ON_FOLIO() and VM_WARN_ON_ONCE_FOLIO() [v14,006/138] mm: Add folio reference count functions [v14,007/138] mm: Add folio_put() [v14,008/138] mm: Add folio_get() [v14,009/138] mm: Add folio_try_get_rcu() [v14,010/138] mm: Add folio flag manipulation functions [v14,011/138] mm/lru: Add folio LRU functions [v14,012/138] mm: Handle per-folio private data [v14,013/138] mm/filemap: Add folio_index(), folio_file_page() and folio_contains() [v14,014/138] mm/filemap: Add folio_next_index() [v14,015/138] mm/filemap: Add folio_pos() and folio_file_pos() [v14,016/138] mm/util: Add folio_mapping() and folio_file_mapping() [v14,017/138] mm/filemap: Add folio_unlock() [v14,018/138] mm/filemap: Add folio_lock() [v14,019/138] mm/filemap: Add folio_lock_killable() [v14,020/138] mm/filemap: Add __folio_lock_async() [v14,021/138] mm/filemap: Add folio_wait_locked() [v14,022/138] mm/filemap: Add __folio_lock_or_retry() [v14,023/138] mm/swap: Add folio_rotate_reclaimable() [v14,024/138] mm/filemap: Add folio_end_writeback() [v14,025/138] mm/writeback: Add folio_wait_writeback() [v14,026/138] mm/writeback: Add folio_wait_stable() [v14,027/138] mm/filemap: Add folio_wait_bit() [v14,028/138] mm/filemap: Add folio_wake_bit() [v14,029/138] mm/filemap: Convert page wait queues to be folios [v14,030/138] mm/filemap: Add folio private_2 functions [v14,031/138] fs/netfs: Add folio fscache functions [v14,032/138] mm: Add folio_mapped() [v14,033/138] mm: Add folio_nid() [v14,034/138] mm/memcg: Remove 'page' parameter to mem_cgroup_charge_statistics() [v14,035/138] mm/memcg: Use the node id in mem_cgroup_update_tree() [v14,036/138] mm/memcg: Remove soft_limit_tree_node() [v14,037/138] mm/memcg: Convert memcg_check_events to take a node ID [v14,038/138] mm/memcg: Add folio_memcg() and related functions [v14,039/138] mm/memcg: Convert commit_charge() to take a folio [v14,040/138] mm/memcg: Convert mem_cgroup_charge() to take a folio [v14,041/138] mm/memcg: Convert uncharge_page() to uncharge_folio() [v14,042/138] mm/memcg: Convert mem_cgroup_uncharge() to take a folio [v14,043/138] mm/memcg: Convert mem_cgroup_migrate() to take folios [v14,044/138] mm/memcg: Convert mem_cgroup_track_foreign_dirty_slowpath() to folio [v14,045/138] mm/memcg: Add folio_memcg_lock() and folio_memcg_unlock() [v14,046/138] mm/memcg: Convert mem_cgroup_move_account() to use a folio [v14,047/138] mm/memcg: Add folio_lruvec() [v14,048/138] mm/memcg: Add folio_lruvec_lock() and similar functions [v14,049/138] mm/memcg: Add folio_lruvec_relock_irq() and folio_lruvec_relock_irqsave() [v14,050/138] mm/workingset: Convert workingset_activation to take a folio [v14,051/138] mm: Add folio_pfn() [v14,052/138] mm: Add folio_raw_mapping() [v14,053/138] mm: Add flush_dcache_folio() [v14,054/138] mm: Add kmap_local_folio() [v14,055/138] mm: Add arch_make_folio_accessible() [v14,056/138] mm: Add folio_young and folio_idle [v14,057/138] mm/swap: Add folio_activate() [v14,058/138] mm/swap: Add folio_mark_accessed() [v14,059/138] mm/rmap: Add folio_mkclean() [v14,060/138] mm/migrate: Add folio_migrate_mapping() [v14,061/138] mm/migrate: Add folio_migrate_flags() [v14,062/138] mm/migrate: Add folio_migrate_copy() [v14,063/138] mm/writeback: Rename __add_wb_stat() to wb_stat_mod() [v14,064/138] flex_proportions: Allow N events instead of 1 [v14,065/138] mm/writeback: Change __wb_writeout_inc() to __wb_writeout_add() [v14,066/138] mm/writeback: Add __folio_end_writeback() [v14,067/138] mm/writeback: Add folio_start_writeback() [v14,068/138] mm/writeback: Add folio_mark_dirty() [v14,069/138] mm/writeback: Add __folio_mark_dirty() [v14,070/138] mm/writeback: Convert tracing writeback_page_template to folios [v14,071/138] mm/writeback: Add filemap_dirty_folio() [v14,072/138] mm/writeback: Add folio_account_cleaned() [v14,073/138] mm/writeback: Add folio_cancel_dirty() [v14,074/138] mm/writeback: Add folio_clear_dirty_for_io() [v14,075/138] mm/writeback: Add folio_account_redirty() [v14,076/138] mm/writeback: Add folio_redirty_for_writepage() [v14,077/138] mm/filemap: Add i_blocks_per_folio() [v14,078/138] mm/filemap: Add folio_mkwrite_check_truncate() [v14,079/138] mm/filemap: Add readahead_folio() [v14,080/138] mm/workingset: Convert workingset_refault() to take a folio [v14,081/138] mm: Add folio_evictable() [v14,082/138] mm/lru: Convert __pagevec_lru_add_fn to take a folio [v14,083/138] mm/lru: Add folio_add_lru() [v14,084/138] mm/page_alloc: Add folio allocation functions [v14,085/138] mm/filemap: Add filemap_alloc_folio [v14,086/138] mm/filemap: Add filemap_add_folio() [v14,087/138] mm/filemap: Convert mapping_get_entry to return a folio [v14,088/138] mm/filemap: Add filemap_get_folio [v14,089/138] mm/filemap: Add FGP_STABLE [v14,090/138] block: Add bio_add_folio() [v14,091/138] block: Add bio_for_each_folio_all() [v14,092/138] iomap: Convert to_iomap_page to take a folio [v14,093/138] iomap: Convert iomap_page_create to take a folio [v14,094/138] iomap: Convert iomap_page_release to take a folio [v14,095/138] iomap: Convert iomap_releasepage to use a folio [v14,096/138] iomap: Convert iomap_invalidatepage to use a folio [v14,097/138] iomap: Pass the iomap_page into iomap_set_range_uptodate [v14,098/138] iomap: Use folio offsets instead of page offsets [v14,099/138] iomap: Convert bio completions to use folios [v14,100/138] iomap: Convert readahead and readpage to use a folio [v14,101/138] iomap: Convert iomap_page_mkwrite to use a folio [v14,102/138] iomap: Convert iomap_write_begin and iomap_write_end to folios [v14,103/138] iomap: Convert iomap_read_inline_data to take a folio [v14,104/138] iomap: Convert iomap_write_end_inline to take a folio [v14,105/138] iomap: Convert iomap_add_to_ioend to take a folio [v14,106/138] iomap: Convert iomap_do_writepage to use a folio [v14,107/138] iomap: Convert iomap_migrate_page to use folios [v14,108/138] mm/filemap: Convert page_cache_delete to take a folio [v14,109/138] mm/filemap: Convert unaccount_page_cache_page to filemap_unaccount_folio [v14,110/138] mm/filemap: Add filemap_remove_folio and __filemap_remove_folio [v14,111/138] mm/filemap: Convert find_get_entry to return a folio [v14,112/138] mm/filemap: Convert filemap_get_read_batch to use folios [v14,113/138] mm/filemap: Convert find_get_pages_contig to folios [v14,114/138] mm/filemap: Convert filemap_read_page to take a folio [v14,115/138] mm/filemap: Convert filemap_create_page to folio [v14,116/138] mm/filemap: Convert filemap_range_uptodate to folios [v14,117/138] mm/filemap: Convert filemap_fault to folio [v14,118/138] mm/filemap: Add read_cache_folio and read_mapping_folio [v14,119/138] mm/filemap: Convert filemap_get_pages to use folios [v14,120/138] mm/filemap: Convert page_cache_delete_batch to folios [v14,121/138] mm/filemap: Remove PageHWPoison check from next_uptodate_page() [v14,122/138] mm/filemap: Use folios in next_uptodate_page [v14,123/138] mm/filemap: Use a folio in filemap_map_pages [v14,124/138] fs: Convert vfs_dedupe_file_range_compare to folios [v14,125/138] mm/truncate,shmem: Handle truncates that split THPs [v14,126/138] mm/filemap: Return only head pages from find_get_entries [v14,127/138] mm: Use multi-index entries in the page cache [v14,128/138] iomap: Support multi-page folios in invalidatepage [v14,129/138] xfs: Support THPs [v14,130/138] mm/truncate: Convert invalidate_inode_pages2_range to folios [v14,131/138] mm/truncate: Fix invalidate_complete_page2 for THPs [v14,132/138] mm/vmscan: Free non-shmem THPs without splitting them [v14,133/138] mm: Fix READ_ONLY_THP warning [v14,134/138] mm: Support arbitrary THP sizes [v14,135/138] mm/filemap: Allow multi-page folios to be added to the page cache [v14,136/138] mm/vmscan: Optimise shrink_page_list for smaller THPs [v14,137/138] mm/readahead: Convert page_cache_async_ra() to take a folio [v14,138/138] mm/readahead: Add multi-page folio readahead

Message ID

20210715033704.692967-128-willy@infradead.org (mailing list archive)

State

New

Headers

DMARC-Filter: OpenDMARC Filter v1.3.2 mail.kernel.org 9C39761360
From: "Matthew Wilcox (Oracle)" <willy@infradead.org>
To: linux-kernel@vger.kernel.org
Cc: "Matthew Wilcox (Oracle)" <willy@infradead.org>,
	linux-mm@kvack.org,
	linux-fsdevel@vger.kernel.org
Subject: [PATCH v14 127/138] mm: Use multi-index entries in the page cache
Date: Thu, 15 Jul 2021 04:36:53 +0100
Message-Id: <20210715033704.692967-128-willy@infradead.org>
In-Reply-To: <20210715033704.692967-1-willy@infradead.org>
References: <20210715033704.692967-1-willy@infradead.org>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Sender: owner-linux-mm@kvack.org
Precedence: bulk

Series

Memory folios | expand

Commit Message

Matthew Wilcox July 15, 2021, 3:36 a.m. UTC

We currently store order-N THPs as 2^N consecutive entries.  While this
consumes rather more memory than necessary, it also turns out to be buggy.
A writeback operation which starts in the middle of a dirty THP will not
notice as the dirty bit is only set on the head index.  With multi-index
entries, the dirty bit will be found no matter where in the THP the
iteration starts.

This does end up simplifying the page cache slightly, although not as
much as I had hoped.

Signed-off-by: Matthew Wilcox (Oracle) <willy@infradead.org>
---
 include/linux/pagemap.h | 10 -------
 mm/filemap.c            | 63 +++++++++++++++++++++++++----------------
 mm/huge_memory.c        | 20 ++++++++++---
 mm/khugepaged.c         | 12 +++++++-
 mm/migrate.c            |  8 ------
 mm/shmem.c              | 11 ++-----
 6 files changed, 68 insertions(+), 56 deletions(-)

diff --git a/include/linux/pagemap.h b/include/linux/pagemap.h
index bf8e978a48f2..25b1bf3b1cdb 100644
--- a/include/linux/pagemap.h
+++ b/include/linux/pagemap.h
@@ -1078,16 +1078,6 @@  static inline unsigned int __readahead_batch(struct readahead_control *rac,
 		VM_BUG_ON_PAGE(PageTail(page), page);
 		array[i++] = page;
 		rac->_batch_count += thp_nr_pages(page);
-
-		/*
-		 * The page cache isn't using multi-index entries yet,
-		 * so the xas cursor needs to be manually moved to the
-		 * next index.  This can be removed once the page cache
-		 * is converted.
-		 */
-		if (PageHead(page))
-			xas_set(&xas, rac->_index + rac->_batch_count);
-
 		if (i == array_sz)
 			break;
 	}
diff --git a/mm/filemap.c b/mm/filemap.c
index 20434d7bdad8..97d17e8c76aa 100644
--- a/mm/filemap.c
+++ b/mm/filemap.c
@@ -134,7 +134,6 @@  static void page_cache_delete(struct address_space *mapping,
 	}
 
 	VM_BUG_ON_FOLIO(!folio_test_locked(folio), folio);
-	VM_BUG_ON_FOLIO(nr != 1 && shadow, folio);
 
 	xas_store(&xas, shadow);
 	xas_init_marks(&xas);
@@ -276,8 +275,7 @@  void filemap_remove_folio(struct folio *folio)
  * from the mapping. The function expects @pvec to be sorted by page index
  * and is optimised for it to be dense.
  * It tolerates holes in @pvec (mapping entries at those indices are not
- * modified). The function expects only THP head pages to be present in the
- * @pvec.
+ * modified). The function expects only folios to be present in the @pvec.
  *
  * The function expects the i_pages lock to be held.
  */
@@ -312,20 +310,12 @@  static void page_cache_delete_batch(struct address_space *mapping,
 
 		WARN_ON_ONCE(!folio_test_locked(folio));
 
-		if (folio->index == xas.xa_index)
-			folio->mapping = NULL;
-		/* Leave page->index set: truncation lookup relies on it */
+		folio->mapping = NULL;
+		/* Leave folio->index set: truncation lookup relies on it */
 
-		/*
-		 * Move to the next page in the vector if this is a regular
-		 * page or the index is of the last sub-page of this compound
-		 * page.
-		 */
-		if (folio->index + folio_nr_pages(folio) - 1 ==
-								xas.xa_index)
-			i++;
+		i++;
 		xas_store(&xas, NULL);
-		total_pages++;
+		total_pages += folio_nr_pages(folio);
 	}
 	mapping->nrpages -= total_pages;
 }
@@ -2027,24 +2017,27 @@  unsigned find_lock_entries(struct address_space *mapping, pgoff_t start,
 		indices[pvec->nr] = xas.xa_index;
 		if (!pagevec_add(pvec, &folio->page))
 			break;
-		goto next;
+		continue;
 unlock:
 		folio_unlock(folio);
 put:
 		folio_put(folio);
-next:
-		if (!xa_is_value(folio) && folio_multi(folio)) {
-			xas_set(&xas, folio->index + folio_nr_pages(folio));
-			/* Did we wrap on 32-bit? */
-			if (!xas.xa_index)
-				break;
-		}
 	}
 	rcu_read_unlock();
 
 	return pagevec_count(pvec);
 }
 
+static inline
+bool folio_more_pages(struct folio *folio, pgoff_t index, pgoff_t max)
+{
+	if (folio_single(folio) || folio_test_hugetlb(folio))
+		return false;
+	if (index >= max)
+		return false;
+	return index < folio->index + folio_nr_pages(folio) - 1;
+}
+
 /**
  * find_get_pages_range - gang pagecache lookup
  * @mapping:	The address_space to search
@@ -2083,11 +2076,17 @@  unsigned find_get_pages_range(struct address_space *mapping, pgoff_t *start,
 		if (xa_is_value(folio))
 			continue;
 
+again:
 		pages[ret] = folio_file_page(folio, xas.xa_index);
 		if (++ret == nr_pages) {
 			*start = xas.xa_index + 1;
 			goto out;
 		}
+		if (folio_more_pages(folio, xas.xa_index, end)) {
+			xas.xa_index++;
+			folio_ref_inc(folio);
+			goto again;
+		}
 	}
 
 	/*
@@ -2145,9 +2144,15 @@  unsigned find_get_pages_contig(struct address_space *mapping, pgoff_t index,
 		if (unlikely(folio != xas_reload(&xas)))
 			goto put_page;
 
-		pages[ret] = &folio->page;
+again:
+		pages[ret] = folio_file_page(folio, xas.xa_index);
 		if (++ret == nr_pages)
 			break;
+		if (folio_more_pages(folio, xas.xa_index, ULONG_MAX)) {
+			xas.xa_index++;
+			folio_ref_inc(folio);
+			goto again;
+		}
 		continue;
 put_page:
 		folio_put(folio);
@@ -3169,6 +3174,7 @@  vm_fault_t filemap_map_pages(struct vm_fault *vmf,
 	addr = vma->vm_start + ((start_pgoff - vma->vm_pgoff) << PAGE_SHIFT);
 	vmf->pte = pte_offset_map_lock(vma->vm_mm, vmf->pmd, addr, &vmf->ptl);
 	do {
+again:
 		page = folio_file_page(folio, xas.xa_index);
 		if (PageHWPoison(page))
 			goto unlock;
@@ -3190,9 +3196,18 @@  vm_fault_t filemap_map_pages(struct vm_fault *vmf,
 		do_set_pte(vmf, page, addr);
 		/* no need to invalidate: a not-present page won't be cached */
 		update_mmu_cache(vma, addr, vmf->pte);
+		if (folio_more_pages(folio, xas.xa_index, end_pgoff)) {
+			xas.xa_index++;
+			folio_ref_inc(folio);
+			goto again;
+		}
 		folio_unlock(folio);
 		continue;
 unlock:
+		if (folio_more_pages(folio, xas.xa_index, end_pgoff)) {
+			xas.xa_index++;
+			goto again;
+		}
 		folio_unlock(folio);
 		folio_put(folio);
 	} while ((folio = next_map_page(mapping, &xas, end_pgoff)) != NULL);
diff --git a/mm/huge_memory.c b/mm/huge_memory.c
index 763bf687ca92..7ea0052172a8 100644
--- a/mm/huge_memory.c
+++ b/mm/huge_memory.c
@@ -2638,6 +2638,7 @@  int split_huge_page_to_list(struct page *page, struct list_head *list)
 {
 	struct page *head = compound_head(page);
 	struct deferred_split *ds_queue = get_deferred_split_queue(head);
+	XA_STATE(xas, &head->mapping->i_pages, head->index);
 	struct anon_vma *anon_vma = NULL;
 	struct address_space *mapping = NULL;
 	int extra_pins, ret;
@@ -2700,18 +2701,27 @@  int split_huge_page_to_list(struct page *page, struct list_head *list)
 
 	unmap_page(head);
 
+	if (mapping) {
+		xas_split_alloc(&xas, head, compound_order(head),
+				mapping_gfp_mask(mapping) & GFP_RECLAIM_MASK);
+		if (xas_error(&xas)) {
+			ret = xas_error(&xas);
+			goto out_unlock;
+		}
+	}
+
 	/* block interrupt reentry in xa_lock and spinlock */
 	local_irq_disable();
 	if (mapping) {
-		XA_STATE(xas, &mapping->i_pages, page_index(head));
-
 		/*
 		 * Check if the head page is present in page cache.
 		 * We assume all tail are present too, if head is there.
 		 */
-		xa_lock(&mapping->i_pages);
+		xas_lock(&xas);
+		xas_reset(&xas);
 		if (xas_load(&xas) != head)
 			goto fail;
+		xas_split(&xas, head, thp_order(head));
 	}
 
 	/* Prevent deferred_split_scan() touching ->_refcount */
@@ -2739,7 +2749,7 @@  int split_huge_page_to_list(struct page *page, struct list_head *list)
 		spin_unlock(&ds_queue->split_queue_lock);
 fail:
 		if (mapping)
-			xa_unlock(&mapping->i_pages);
+			xas_unlock(&xas);
 		local_irq_enable();
 		remap_page(head, thp_nr_pages(head));
 		ret = -EBUSY;
@@ -2753,6 +2763,8 @@  int split_huge_page_to_list(struct page *page, struct list_head *list)
 	if (mapping)
 		i_mmap_unlock_read(mapping);
 out:
+	/* Free any memory we didn't use */
+	xas_nomem(&xas, 0);
 	count_vm_event(!ret ? THP_SPLIT_PAGE : THP_SPLIT_PAGE_FAILED);
 	return ret;
 }
diff --git a/mm/khugepaged.c b/mm/khugepaged.c
index 6b9c98ddcd09..949b583f22c0 100644
--- a/mm/khugepaged.c
+++ b/mm/khugepaged.c
@@ -1664,7 +1664,10 @@  static void collapse_file(struct mm_struct *mm,
 	}
 	count_memcg_page_event(new_page, THP_COLLAPSE_ALLOC);
 
-	/* This will be less messy when we use multi-index entries */
+	/*
+	 * Ensure we have slots for all the pages in the range.  This is
+	 * almost certainly a no-op because most of the pages must be present
+	 */
 	do {
 		xas_lock_irq(&xas);
 		xas_create_range(&xas);
@@ -1884,6 +1887,9 @@  static void collapse_file(struct mm_struct *mm,
 			__mod_lruvec_page_state(new_page, NR_SHMEM, nr_none);
 	}
 
+	/* Join all the small entries into a single multi-index entry */
+	xas_set_order(&xas, start, HPAGE_PMD_ORDER);
+	xas_store(&xas, new_page);
 xa_locked:
 	xas_unlock_irq(&xas);
 xa_unlocked:
@@ -2005,6 +2011,10 @@  static void khugepaged_scan_file(struct mm_struct *mm,
 			continue;
 		}
 
+		/*
+		 * XXX: khugepaged should compact smaller compound pages
+		 * into a PMD sized page
+		 */
 		if (PageTransCompound(page)) {
 			result = SCAN_PAGE_COMPOUND;
 			break;
diff --git a/mm/migrate.c b/mm/migrate.c
index 36cdae0a1235..029b592a0066 100644
--- a/mm/migrate.c
+++ b/mm/migrate.c
@@ -439,14 +439,6 @@  int folio_migrate_mapping(struct address_space *mapping,
 	}
 
 	xas_store(&xas, newfolio);
-	if (nr > 1) {
-		int i;
-
-		for (i = 1; i < nr; i++) {
-			xas_next(&xas);
-			xas_store(&xas, newfolio);
-		}
-	}
 
 	/*
 	 * Drop cache reference from old page by unfreezing
diff --git a/mm/shmem.c b/mm/shmem.c
index 337680a01f2a..bdfa60416d68 100644
--- a/mm/shmem.c
+++ b/mm/shmem.c
@@ -670,7 +670,6 @@  static int shmem_add_to_page_cache(struct page *page,
 				   struct mm_struct *charge_mm)
 {
 	XA_STATE_ORDER(xas, &mapping->i_pages, index, compound_order(page));
-	unsigned long i = 0;
 	unsigned long nr = compound_nr(page);
 	int error;
 
@@ -700,17 +699,11 @@  static int shmem_add_to_page_cache(struct page *page,
 		void *entry;
 		xas_lock_irq(&xas);
 		entry = xas_find_conflict(&xas);
-		if (entry != expected)
+		if (entry != expected) {
 			xas_set_err(&xas, -EEXIST);
-		xas_create_range(&xas);
-		if (xas_error(&xas))
 			goto unlock;
-next:
-		xas_store(&xas, page);
-		if (++i < nr) {
-			xas_next(&xas);
-			goto next;
 		}
+		xas_store(&xas, page);
 		if (PageTransHuge(page)) {
 			count_vm_event(THP_FILE_ALLOC);
 			__mod_lruvec_page_state(page, NR_SHMEM_THPS, nr);

[v14,127/138] mm: Use multi-index entries in the page cache

Commit Message

Patch