狠狠撸

狠狠撸Share a Scribd company logo
ch12 Memory Management
wayling
2017/12/19
Process 視角
linux mm
地址轉換 ARMv7-a
? 這邊只探討ARMv7a沒開LPAE
? 目前linux ARMv7-a是kernel(TTBR1) / user
space(TTBR0)的page table獨立所以需要分別探討
? ARMv7-a Kernel space的page table是不會隨著context
switch而切換的(跟x86不同,x64沒研究…),也就是所有
process看到一樣的kernel space
? Linux ARMv7-a software跟hardware的地址轉換"過程"
是不一樣的,原因是hardware table(h/w pt)所提供欄位無
法滿足linux kernel的設計所以需要software table (linux
pt)
ARMv7-a level 1 table
? Kernel space使用 Section(10)
? User space 是用Page table(01)
? 引發page fault(00)
ARMv7-a level 2 table
kernel地址轉換 (hardware 視角)
? section mapping所以每個entry對應1MB 地址空間
? 0xc05e9948 => 0x805e9948
ttbr1
kernel地址轉換 (software(kernel) 視
角)
? 對kernel來說看到的是2MBmapping,只需要table的欄位而已
? Kernel space 的page table地址可以直接參考swapper_pg_dir
? 0xc05e9948 => 0x8041940e
? 0xc04e9948 => 0x8041940e
? typedef u32 pmdval_t;
? typedef pmdval_t pgd_t[2];
? pgd_t *pgd;
? pgd = pgd_offset_k(0xc05e9948);
? pgd_val(*pgd);
user地址轉換 (hardware 視角)
? process 的page table地址可以參考mm->pgd
Example : busybox(init) code addr : 0x00014600
0b0000 0000 0000 0001 0100 0110 0000 0000
ARMv7a的hw地址轉換: 12/8/12
0x0 / 0x14 / 0x600
mm->pgd = 0xed4e8000
ttbr0
user地址轉換 (software(kernel) 視角
)
busybox(init) code addr : 0x00014600
0b0000 0000 0000 0001 0100 0110 0000 0000
ARMv7a的sw地址轉換:11/9/12
0x0 / 0x14 / 0x600
mm->pgd = 0xed4e8000
Linux 地址轉換參考
/*
* This is useful to dump out the page tables associated with
* 'addr' in mm 'mm'.
*/
void show_pte(struct mm_struct *mm, unsigned long addr);
? virt_to_phys(virt_addr);
? phys_to_virt(phys_addr);
? arch/arm/mm/fault.c
? 可以參考kernel及user space的address轉換過程
Linux memory map
? 如果想要dump kernel space的page table可以打
開”CONFIG_ARM_PTDUMP”
? mount -t debugfs none /sys/kernel/debug/
? cat /sys/kernel/debug/kernel_page_tables
在開機過程也會有kernel space memory map輸出
常见分配记忆体的方式
zone
? 實體記憶體的使用有時候需要屈就於外部裝置因此kernel對實體記憶體
作區域(zone)的劃分
? 典型x86
? ZONE_DMA
? ZONE_NORMAL
? ZONE_HIGHMEM
? 典型ARMv7a
? ZONE_NORMAL 768 MB
? ZONE_HIGHMEM > 768 MB
? 再傳統32bit (1GB/3GB)的劃分下我們會面臨一個問題,1GB的kernel
space無法1:1的去映射超過1GB的實體記憶體因此有了
ZONE_HIGHMEM的出現.
? 在64bit機器下ZONE_HIGHMEM是不需要的
? zone struct會定義一些跟記憶體回收相關的watermark
(minimum,low,high)
? 可以參考 cat /proc/zoneinfo
zone&buddy system
binary buddy system allocation(1)
? 記憶體分配
? 尋找一個合適大小的記憶體(大於 requested memory,
同時也就是分配一個滿足要求的最小記憶體2^n)
? 如果找到了直接分配
? 如果沒有找到
? 1.拆分一個比 requested memory 更大的記憶體塊(2^n+1, 分
成兩半)
? 2.如果拆分出來的一半滿足requested memory, 並且不能再
分了, 已經是最小的了,就分配該塊.
? 3.重複1, 尋找合適大小的內存塊.
binary buddy system allocation(2)
? 記憶體釋放
? 1.釋放2^n記憶體塊
? 2.查看記憶體塊的夥伴也就是分配之後的另一半2^n
塊是否也free了
? 3.如果是,則會回到2並且重複執行直到所有記憶體
被釋放或者有一個夥伴沒有被free掉, 無法合併.
buddy system
page
? struct page{
? unsigned long flags;
? unsigned counters;
? atomic_t _mapcount;
? ….
? };
? 此結構用於描述實體頁面,該結構對所描述的實體頁面可能是暫時性的,
因為實體頁面可能被swap out.
? 因為每個實體頁面都需要一個struct page描述,所以對於此結構的大小
需要很精準的控制,有些變數還是共用的(不同情況意義不同),避免浪費
一點空間
? pagemap.txt這份文件有些資訊可以參考, kernel把page的資訊都有丟
給user space去觀察(/proc/pid/pagemap , /proc/kpagecount ,
/proc/kpageflags)
? https://www.kernel.org/doc/Documentation/vm/page
分配/釋放page的API
? 對於於linux 來說請求連續的記憶體空間的大小是有限制的,如有特殊應
用需用其他方式保留
? 實體記憶體連續的分配API
? struct page *alloc_pages(gfp_t gfp_mask,unsigned
int order);
? void *page_address(struct page *page);
? unsigned long __get_free_pages(gfp_t
gfp_mask,unsigned int order);
? void free_pages(unsigned long addr,unsinged int
order);
?
? void *kmalloc(size_t size,gfp_t flags);
? void kfree(const void *ptr);
gfp_mask flag
? 參考 (includelinuxgfp.h)
? 動作修飾符
? 如何分配所請求的記憶體,例如不能睡眠
? 分區修飾符
? 從哪個zone中取得
? 類型
? 完成特定類型的分配
gfp_mask flag
旗標 說明
GFP_ATOMIC The allocation is high priority and must not
sleep
GFP_NOWAIT Like GFP_ATOMIC, except that the call
will not fallback on emergency
memory pools.
GFP_NOIO This allocation can block, but must not
initiate disk I/O.
GFP_NOFS This allocation can block and can initiate
disk I/O, if it must, but it
will not initiate a filesystem operation.
gfp_mask flag
旗標 說明
GFP_KERNEL This is a normal allocation and might
block. This is the flag to use
in process context code when it is safe to
sleep
GFP_USER This is a normal allocation and might
block. This flag is used to
allocate memory for user-space
processes.
GFP_HIGHUSER This is an allocation from
ZONE_HIGHMEM and might block.
GFP_DMA This is an allocation from ZONE_DMA.
非連續記憶體配置
? void *vmalloc(unsigned long size);
? 分配的記憶體空間不保證實體上連續,虛擬是連續的
? 通常硬體所需的記憶體空間都續要實體連續,所以不
適合使用這個API
? 把實體頁面做成虛擬的連續會對page table做操作
有可能造成TLB效能損失
? void vfree(const void *addr);
vmalloc如何實作
? vmalloc使用類似user space的 VMA 來描述非連續區間,在這邊使用
struct vm_struct
The SLAB allocator
? slab/slub/slob目前在linux kernel中是可選的
? SLOB: As compact as possible
? SLAB: As cache friendly as possible. Benchmark
friendly
? SLUB: Simple and instruction cost counts. Superior
debugging. Defragmentation. Execution time friendly.
? kmalloc() -> kmem_cache_create(),
kmem_cache_alloc()
? 對於一個系統效能來說我們需要避免分配與釋放struct 物件頻繁發生
? cache 常用資料結構,必要時再釋放
? Per CPU cache
? Colored object提升CPU cache命中
SLAB data structures
? 目前網路上就這張圖比較符合4.1x的 code.(維護者的投影片)
Slab 分配範例
? struct kmem_cache *task_struct_cachep;
? task_struct_cachep = kmem_cache_create(“task_struct”,
? sizeof(struct task_struct),
? ARCH_MIN_TASKALIGN,
? SLAB_PANIC | SLAB_NOTRACK,
? NULL);
? struct task_struct *tsk;
? tsk = kmem_cache_alloc(task_struct_cachep, GFP_KERNEL);
Statically Allocating on the Stack
? 每個process皆有一個kernel stack因為大小有限
制所以儘量不要使用太多
? function call chain也會用到stack
High Memory Mappings
? High Memory 區域只有實體記憶體可是沒有虛擬地址所以 kernel 要用
的話需要mapping 到kernel space
? 永久
? void *kmap(struct page *page)
? void kunmap(struct page *page)
? 暫時
? void *kmap_atomic(struct page *page, enum
km_type type)
? void kunmap_atomic(void *kvaddr, enum km_type
type)
?
Per-CPU Allocations
? 降低鎖的使用,再SMP系統上鎖的競爭很有可能是效能瓶頸
? 降低CPU cache miss,也減少cache 同步的時間
? Ex:如果要統計SMP系統上的packet收到數量
Future
? Linux mm 還有非常大的主題,之後可以分主題來深入研究
? 看有沒有人要入坑(加入奔跑吧讀書會)....Orz
Reference
? Linux Kernel Development 3rd
? 奔跑吧 Linux内核 - 张天飞 (作者)
? buddy-system-內核物理頁管理的實現
? https://ggaaooppeenngg.github.io/zh-
CN/2016/08/31/buddy-system-
%E5%86%85%E6%A0%B8%E7%89%A9%E7%90%86
%E9%A1%B5%E5%88%86%E9%85%8D%E7%9A%84
%E5%AE%9E%E7%8E%B0/
? buddy-system-struct
? http://guojing.me/linux-kernel-architecture/posts/buddy-
system-struct/
Reference
? 内存管理(一)node & zone
http://blog.chinaunix.net/uid-30282771-id-5171166.html
? 内存-内核空间
https://jin-yang.github.io/post/kernel-memory-management-
from-kernel-view.html
? Virtual Memory and Linux
https://events.linuxfoundation.org/sites/events/files/slides/elc_2
016_mem.pdf
? Slab allocators in the Linux Kernel: SLAB, SLOB, SLUB
https://events.linuxfoundation.org/sites/events/files/slides/slaba
llocators.pdf

More Related Content

What's hot (11)

使用搁辫尘&补尘辫;测耻尘进行基础软件管理
使用搁辫尘&补尘辫;测耻尘进行基础软件管理使用搁辫尘&补尘辫;测耻尘进行基础软件管理
使用搁辫尘&补尘辫;测耻尘进行基础软件管理
haiyuan ning
?
FtnApp 的缩略图实践
FtnApp 的缩略图实践FtnApp 的缩略图实践
FtnApp 的缩略图实践
Frank Xu
?
备库预热工具谤别濒补测蹿别迟肠丑介绍及性能测试
备库预热工具谤别濒补测蹿别迟肠丑介绍及性能测试备库预热工具谤别濒补测蹿别迟肠丑介绍及性能测试
备库预热工具谤别濒补测蹿别迟肠丑介绍及性能测试
zhaiwx1987
?
10, OCP - flashback
10, OCP - flashback10, OCP - flashback
10, OCP - flashback
ted-xu
?
Introduction to Nand Flash interface (chinese)
Introduction to Nand Flash interface (chinese)Introduction to Nand Flash interface (chinese)
Introduction to Nand Flash interface (chinese)
Sneeker Yeh
?
Hadoop compress-stream
Hadoop compress-streamHadoop compress-stream
Hadoop compress-stream
Schubert Zhang
?
惭测厂蚕尝源码分析.01.代码结构与基本流程
惭测厂蚕尝源码分析.01.代码结构与基本流程惭测厂蚕尝源码分析.01.代码结构与基本流程
惭测厂蚕尝源码分析.01.代码结构与基本流程
Lixun Peng
?
颁补蝉蝉补苍诲谤补运维之道
颁补蝉蝉补苍诲谤补运维之道颁补蝉蝉补苍诲谤补运维之道
颁补蝉蝉补苍诲谤补运维之道
haiyuan ning
?
Database.Cache&Buffer&Lock
Database.Cache&Buffer&LockDatabase.Cache&Buffer&Lock
Database.Cache&Buffer&Lock
Lixun Peng
?
Mysql proxy+mysql-mmm
Mysql proxy+mysql-mmmMysql proxy+mysql-mmm
Mysql proxy+mysql-mmm
Yiwei Ma
?
分布式文件实践经验交流
分布式文件实践经验交流分布式文件实践经验交流
分布式文件实践经验交流
凯 李
?
使用搁辫尘&补尘辫;测耻尘进行基础软件管理
使用搁辫尘&补尘辫;测耻尘进行基础软件管理使用搁辫尘&补尘辫;测耻尘进行基础软件管理
使用搁辫尘&补尘辫;测耻尘进行基础软件管理
haiyuan ning
?
FtnApp 的缩略图实践
FtnApp 的缩略图实践FtnApp 的缩略图实践
FtnApp 的缩略图实践
Frank Xu
?
备库预热工具谤别濒补测蹿别迟肠丑介绍及性能测试
备库预热工具谤别濒补测蹿别迟肠丑介绍及性能测试备库预热工具谤别濒补测蹿别迟肠丑介绍及性能测试
备库预热工具谤别濒补测蹿别迟肠丑介绍及性能测试
zhaiwx1987
?
10, OCP - flashback
10, OCP - flashback10, OCP - flashback
10, OCP - flashback
ted-xu
?
Introduction to Nand Flash interface (chinese)
Introduction to Nand Flash interface (chinese)Introduction to Nand Flash interface (chinese)
Introduction to Nand Flash interface (chinese)
Sneeker Yeh
?
惭测厂蚕尝源码分析.01.代码结构与基本流程
惭测厂蚕尝源码分析.01.代码结构与基本流程惭测厂蚕尝源码分析.01.代码结构与基本流程
惭测厂蚕尝源码分析.01.代码结构与基本流程
Lixun Peng
?
颁补蝉蝉补苍诲谤补运维之道
颁补蝉蝉补苍诲谤补运维之道颁补蝉蝉补苍诲谤补运维之道
颁补蝉蝉补苍诲谤补运维之道
haiyuan ning
?
Database.Cache&Buffer&Lock
Database.Cache&Buffer&LockDatabase.Cache&Buffer&Lock
Database.Cache&Buffer&Lock
Lixun Peng
?
Mysql proxy+mysql-mmm
Mysql proxy+mysql-mmmMysql proxy+mysql-mmm
Mysql proxy+mysql-mmm
Yiwei Ma
?
分布式文件实践经验交流
分布式文件实践经验交流分布式文件实践经验交流
分布式文件实践经验交流
凯 李
?

Similar to linux mm (20)

闯补惫补线上应用问题排查方法和工具(空望)
闯补惫补线上应用问题排查方法和工具(空望)闯补惫补线上应用问题排查方法和工具(空望)
闯补惫补线上应用问题排查方法和工具(空望)
ykdsg
?
【Maclean liu技术分享】深入了解oracle asm(一)基础概念
【Maclean liu技术分享】深入了解oracle asm(一)基础概念【Maclean liu技术分享】深入了解oracle asm(一)基础概念
【Maclean liu技术分享】深入了解oracle asm(一)基础概念
maclean liu
?
尝颈苍耻虫内存管理
尝颈苍耻虫内存管理尝颈苍耻虫内存管理
尝颈苍耻虫内存管理
zijia
?
尝颈苍耻虫内存管理
尝颈苍耻虫内存管理尝颈苍耻虫内存管理
尝颈苍耻虫内存管理
zijia
?
颁++工程实践
颁++工程实践颁++工程实践
颁++工程实践
Shuo Chen
?
颁补蝉蝉补苍诲谤补介绍.辫辫迟
颁补蝉蝉补苍诲谤补介绍.辫辫迟颁补蝉蝉补苍诲谤补介绍.辫辫迟
颁补蝉蝉补苍诲谤补介绍.辫辫迟
james tong
?
Oracle rac资源管理算法与cache fusion实现浅析
Oracle rac资源管理算法与cache fusion实现浅析Oracle rac资源管理算法与cache fusion实现浅析
Oracle rac资源管理算法与cache fusion实现浅析
frogd
?
Track1dongsiying4
Track1dongsiying4Track1dongsiying4
Track1dongsiying4
drewz lin
?
鸟哥叁到六章
鸟哥叁到六章鸟哥叁到六章
鸟哥叁到六章
Edward Yi
?
Youku arch qcon2009_beijing
Youku arch qcon2009_beijingYouku arch qcon2009_beijing
Youku arch qcon2009_beijing
drewz lin
?
优酷 Web网站架构案例分析
优酷   Web网站架构案例分析优酷   Web网站架构案例分析
优酷 Web网站架构案例分析
George Ang
?
Google LevelDB Study Discuss
Google LevelDB Study DiscussGoogle LevelDB Study Discuss
Google LevelDB Study Discuss
everestsun
?
4, files & folders
4, files & folders4, files & folders
4, files & folders
ted-xu
?
Large-Scale Cluster Mangement & Kubernetes Under The Hood
Large-Scale Cluster Mangement & Kubernetes Under The HoodLarge-Scale Cluster Mangement & Kubernetes Under The Hood
Large-Scale Cluster Mangement & Kubernetes Under The Hood
Lei (Harry) Zhang
?
闯惫尘内存管理基础
闯惫尘内存管理基础闯惫尘内存管理基础
闯惫尘内存管理基础
wang hongjiang
?
Dbabc.net 利用heartbeat + drbd搭建my sql高可用环境
Dbabc.net 利用heartbeat + drbd搭建my sql高可用环境Dbabc.net 利用heartbeat + drbd搭建my sql高可用环境
Dbabc.net 利用heartbeat + drbd搭建my sql高可用环境
dbabc
?
Altibase管理培训 安装篇
Altibase管理培训 安装篇Altibase管理培训 安装篇
Altibase管理培训 安装篇
小新 制造
?
5, OCP - oracle storage
5, OCP - oracle storage5, OCP - oracle storage
5, OCP - oracle storage
ted-xu
?
闯补惫补线上应用问题排查方法和工具(空望)
闯补惫补线上应用问题排查方法和工具(空望)闯补惫补线上应用问题排查方法和工具(空望)
闯补惫补线上应用问题排查方法和工具(空望)
ykdsg
?
【Maclean liu技术分享】深入了解oracle asm(一)基础概念
【Maclean liu技术分享】深入了解oracle asm(一)基础概念【Maclean liu技术分享】深入了解oracle asm(一)基础概念
【Maclean liu技术分享】深入了解oracle asm(一)基础概念
maclean liu
?
尝颈苍耻虫内存管理
尝颈苍耻虫内存管理尝颈苍耻虫内存管理
尝颈苍耻虫内存管理
zijia
?
尝颈苍耻虫内存管理
尝颈苍耻虫内存管理尝颈苍耻虫内存管理
尝颈苍耻虫内存管理
zijia
?
颁++工程实践
颁++工程实践颁++工程实践
颁++工程实践
Shuo Chen
?
颁补蝉蝉补苍诲谤补介绍.辫辫迟
颁补蝉蝉补苍诲谤补介绍.辫辫迟颁补蝉蝉补苍诲谤补介绍.辫辫迟
颁补蝉蝉补苍诲谤补介绍.辫辫迟
james tong
?
Oracle rac资源管理算法与cache fusion实现浅析
Oracle rac资源管理算法与cache fusion实现浅析Oracle rac资源管理算法与cache fusion实现浅析
Oracle rac资源管理算法与cache fusion实现浅析
frogd
?
Track1dongsiying4
Track1dongsiying4Track1dongsiying4
Track1dongsiying4
drewz lin
?
鸟哥叁到六章
鸟哥叁到六章鸟哥叁到六章
鸟哥叁到六章
Edward Yi
?
Youku arch qcon2009_beijing
Youku arch qcon2009_beijingYouku arch qcon2009_beijing
Youku arch qcon2009_beijing
drewz lin
?
优酷 Web网站架构案例分析
优酷   Web网站架构案例分析优酷   Web网站架构案例分析
优酷 Web网站架构案例分析
George Ang
?
Google LevelDB Study Discuss
Google LevelDB Study DiscussGoogle LevelDB Study Discuss
Google LevelDB Study Discuss
everestsun
?
4, files & folders
4, files & folders4, files & folders
4, files & folders
ted-xu
?
Large-Scale Cluster Mangement & Kubernetes Under The Hood
Large-Scale Cluster Mangement & Kubernetes Under The HoodLarge-Scale Cluster Mangement & Kubernetes Under The Hood
Large-Scale Cluster Mangement & Kubernetes Under The Hood
Lei (Harry) Zhang
?
闯惫尘内存管理基础
闯惫尘内存管理基础闯惫尘内存管理基础
闯惫尘内存管理基础
wang hongjiang
?
Dbabc.net 利用heartbeat + drbd搭建my sql高可用环境
Dbabc.net 利用heartbeat + drbd搭建my sql高可用环境Dbabc.net 利用heartbeat + drbd搭建my sql高可用环境
Dbabc.net 利用heartbeat + drbd搭建my sql高可用环境
dbabc
?
Altibase管理培训 安装篇
Altibase管理培训 安装篇Altibase管理培训 安装篇
Altibase管理培训 安装篇
小新 制造
?
5, OCP - oracle storage
5, OCP - oracle storage5, OCP - oracle storage
5, OCP - oracle storage
ted-xu
?

More from Waylin Ch (7)

Virtual file system (VFS)
Virtual file system (VFS)Virtual file system (VFS)
Virtual file system (VFS)
Waylin Ch
?
0911 juluosdev a_journey_of_filesystem_on_jos
0911 juluosdev a_journey_of_filesystem_on_jos0911 juluosdev a_journey_of_filesystem_on_jos
0911 juluosdev a_journey_of_filesystem_on_jos
Waylin Ch
?
第一屆 啟動扶輪 - 華南生活探索營
第一屆 啟動扶輪 - 華南生活探索營第一屆 啟動扶輪 - 華南生活探索營
第一屆 啟動扶輪 - 華南生活探索營
Waylin Ch
?
公式访问投影片0827
公式访问投影片0827公式访问投影片0827
公式访问投影片0827
Waylin Ch
?
Virtual file system (VFS)
Virtual file system (VFS)Virtual file system (VFS)
Virtual file system (VFS)
Waylin Ch
?
0911 juluosdev a_journey_of_filesystem_on_jos
0911 juluosdev a_journey_of_filesystem_on_jos0911 juluosdev a_journey_of_filesystem_on_jos
0911 juluosdev a_journey_of_filesystem_on_jos
Waylin Ch
?
第一屆 啟動扶輪 - 華南生活探索營
第一屆 啟動扶輪 - 華南生活探索營第一屆 啟動扶輪 - 華南生活探索營
第一屆 啟動扶輪 - 華南生活探索營
Waylin Ch
?
公式访问投影片0827
公式访问投影片0827公式访问投影片0827
公式访问投影片0827
Waylin Ch
?

linux mm

  • 4. 地址轉換 ARMv7-a ? 這邊只探討ARMv7a沒開LPAE ? 目前linux ARMv7-a是kernel(TTBR1) / user space(TTBR0)的page table獨立所以需要分別探討 ? ARMv7-a Kernel space的page table是不會隨著context switch而切換的(跟x86不同,x64沒研究…),也就是所有 process看到一樣的kernel space ? Linux ARMv7-a software跟hardware的地址轉換"過程" 是不一樣的,原因是hardware table(h/w pt)所提供欄位無 法滿足linux kernel的設計所以需要software table (linux pt)
  • 5. ARMv7-a level 1 table ? Kernel space使用 Section(10) ? User space 是用Page table(01) ? 引發page fault(00)
  • 7. kernel地址轉換 (hardware 視角) ? section mapping所以每個entry對應1MB 地址空間 ? 0xc05e9948 => 0x805e9948 ttbr1
  • 8. kernel地址轉換 (software(kernel) 視 角) ? 對kernel來說看到的是2MBmapping,只需要table的欄位而已 ? Kernel space 的page table地址可以直接參考swapper_pg_dir ? 0xc05e9948 => 0x8041940e ? 0xc04e9948 => 0x8041940e ? typedef u32 pmdval_t; ? typedef pmdval_t pgd_t[2]; ? pgd_t *pgd; ? pgd = pgd_offset_k(0xc05e9948); ? pgd_val(*pgd);
  • 9. user地址轉換 (hardware 視角) ? process 的page table地址可以參考mm->pgd Example : busybox(init) code addr : 0x00014600 0b0000 0000 0000 0001 0100 0110 0000 0000 ARMv7a的hw地址轉換: 12/8/12 0x0 / 0x14 / 0x600 mm->pgd = 0xed4e8000 ttbr0
  • 10. user地址轉換 (software(kernel) 視角 ) busybox(init) code addr : 0x00014600 0b0000 0000 0000 0001 0100 0110 0000 0000 ARMv7a的sw地址轉換:11/9/12 0x0 / 0x14 / 0x600 mm->pgd = 0xed4e8000
  • 11. Linux 地址轉換參考 /* * This is useful to dump out the page tables associated with * 'addr' in mm 'mm'. */ void show_pte(struct mm_struct *mm, unsigned long addr); ? virt_to_phys(virt_addr); ? phys_to_virt(phys_addr); ? arch/arm/mm/fault.c ? 可以參考kernel及user space的address轉換過程
  • 12. Linux memory map ? 如果想要dump kernel space的page table可以打 開”CONFIG_ARM_PTDUMP” ? mount -t debugfs none /sys/kernel/debug/ ? cat /sys/kernel/debug/kernel_page_tables 在開機過程也會有kernel space memory map輸出
  • 14. zone ? 實體記憶體的使用有時候需要屈就於外部裝置因此kernel對實體記憶體 作區域(zone)的劃分 ? 典型x86 ? ZONE_DMA ? ZONE_NORMAL ? ZONE_HIGHMEM ? 典型ARMv7a ? ZONE_NORMAL 768 MB ? ZONE_HIGHMEM > 768 MB ? 再傳統32bit (1GB/3GB)的劃分下我們會面臨一個問題,1GB的kernel space無法1:1的去映射超過1GB的實體記憶體因此有了 ZONE_HIGHMEM的出現. ? 在64bit機器下ZONE_HIGHMEM是不需要的 ? zone struct會定義一些跟記憶體回收相關的watermark (minimum,low,high) ? 可以參考 cat /proc/zoneinfo
  • 16. binary buddy system allocation(1) ? 記憶體分配 ? 尋找一個合適大小的記憶體(大於 requested memory, 同時也就是分配一個滿足要求的最小記憶體2^n) ? 如果找到了直接分配 ? 如果沒有找到 ? 1.拆分一個比 requested memory 更大的記憶體塊(2^n+1, 分 成兩半) ? 2.如果拆分出來的一半滿足requested memory, 並且不能再 分了, 已經是最小的了,就分配該塊. ? 3.重複1, 尋找合適大小的內存塊.
  • 17. binary buddy system allocation(2) ? 記憶體釋放 ? 1.釋放2^n記憶體塊 ? 2.查看記憶體塊的夥伴也就是分配之後的另一半2^n 塊是否也free了 ? 3.如果是,則會回到2並且重複執行直到所有記憶體 被釋放或者有一個夥伴沒有被free掉, 無法合併.
  • 19. page ? struct page{ ? unsigned long flags; ? unsigned counters; ? atomic_t _mapcount; ? …. ? }; ? 此結構用於描述實體頁面,該結構對所描述的實體頁面可能是暫時性的, 因為實體頁面可能被swap out. ? 因為每個實體頁面都需要一個struct page描述,所以對於此結構的大小 需要很精準的控制,有些變數還是共用的(不同情況意義不同),避免浪費 一點空間 ? pagemap.txt這份文件有些資訊可以參考, kernel把page的資訊都有丟 給user space去觀察(/proc/pid/pagemap , /proc/kpagecount , /proc/kpageflags) ? https://www.kernel.org/doc/Documentation/vm/page
  • 20. 分配/釋放page的API ? 對於於linux 來說請求連續的記憶體空間的大小是有限制的,如有特殊應 用需用其他方式保留 ? 實體記憶體連續的分配API ? struct page *alloc_pages(gfp_t gfp_mask,unsigned int order); ? void *page_address(struct page *page); ? unsigned long __get_free_pages(gfp_t gfp_mask,unsigned int order); ? void free_pages(unsigned long addr,unsinged int order); ? ? void *kmalloc(size_t size,gfp_t flags); ? void kfree(const void *ptr);
  • 21. gfp_mask flag ? 參考 (includelinuxgfp.h) ? 動作修飾符 ? 如何分配所請求的記憶體,例如不能睡眠 ? 分區修飾符 ? 從哪個zone中取得 ? 類型 ? 完成特定類型的分配
  • 22. gfp_mask flag 旗標 說明 GFP_ATOMIC The allocation is high priority and must not sleep GFP_NOWAIT Like GFP_ATOMIC, except that the call will not fallback on emergency memory pools. GFP_NOIO This allocation can block, but must not initiate disk I/O. GFP_NOFS This allocation can block and can initiate disk I/O, if it must, but it will not initiate a filesystem operation.
  • 23. gfp_mask flag 旗標 說明 GFP_KERNEL This is a normal allocation and might block. This is the flag to use in process context code when it is safe to sleep GFP_USER This is a normal allocation and might block. This flag is used to allocate memory for user-space processes. GFP_HIGHUSER This is an allocation from ZONE_HIGHMEM and might block. GFP_DMA This is an allocation from ZONE_DMA.
  • 24. 非連續記憶體配置 ? void *vmalloc(unsigned long size); ? 分配的記憶體空間不保證實體上連續,虛擬是連續的 ? 通常硬體所需的記憶體空間都續要實體連續,所以不 適合使用這個API ? 把實體頁面做成虛擬的連續會對page table做操作 有可能造成TLB效能損失 ? void vfree(const void *addr);
  • 25. vmalloc如何實作 ? vmalloc使用類似user space的 VMA 來描述非連續區間,在這邊使用 struct vm_struct
  • 26. The SLAB allocator ? slab/slub/slob目前在linux kernel中是可選的 ? SLOB: As compact as possible ? SLAB: As cache friendly as possible. Benchmark friendly ? SLUB: Simple and instruction cost counts. Superior debugging. Defragmentation. Execution time friendly. ? kmalloc() -> kmem_cache_create(), kmem_cache_alloc() ? 對於一個系統效能來說我們需要避免分配與釋放struct 物件頻繁發生 ? cache 常用資料結構,必要時再釋放 ? Per CPU cache ? Colored object提升CPU cache命中
  • 27. SLAB data structures ? 目前網路上就這張圖比較符合4.1x的 code.(維護者的投影片)
  • 28. Slab 分配範例 ? struct kmem_cache *task_struct_cachep; ? task_struct_cachep = kmem_cache_create(“task_struct”, ? sizeof(struct task_struct), ? ARCH_MIN_TASKALIGN, ? SLAB_PANIC | SLAB_NOTRACK, ? NULL); ? struct task_struct *tsk; ? tsk = kmem_cache_alloc(task_struct_cachep, GFP_KERNEL);
  • 29. Statically Allocating on the Stack ? 每個process皆有一個kernel stack因為大小有限 制所以儘量不要使用太多 ? function call chain也會用到stack
  • 30. High Memory Mappings ? High Memory 區域只有實體記憶體可是沒有虛擬地址所以 kernel 要用 的話需要mapping 到kernel space ? 永久 ? void *kmap(struct page *page) ? void kunmap(struct page *page) ? 暫時 ? void *kmap_atomic(struct page *page, enum km_type type) ? void kunmap_atomic(void *kvaddr, enum km_type type) ?
  • 31. Per-CPU Allocations ? 降低鎖的使用,再SMP系統上鎖的競爭很有可能是效能瓶頸 ? 降低CPU cache miss,也減少cache 同步的時間 ? Ex:如果要統計SMP系統上的packet收到數量
  • 32. Future ? Linux mm 還有非常大的主題,之後可以分主題來深入研究 ? 看有沒有人要入坑(加入奔跑吧讀書會)....Orz
  • 33. Reference ? Linux Kernel Development 3rd ? 奔跑吧 Linux内核 - 张天飞 (作者) ? buddy-system-內核物理頁管理的實現 ? https://ggaaooppeenngg.github.io/zh- CN/2016/08/31/buddy-system- %E5%86%85%E6%A0%B8%E7%89%A9%E7%90%86 %E9%A1%B5%E5%88%86%E9%85%8D%E7%9A%84 %E5%AE%9E%E7%8E%B0/ ? buddy-system-struct ? http://guojing.me/linux-kernel-architecture/posts/buddy- system-struct/
  • 34. Reference ? 内存管理(一)node & zone http://blog.chinaunix.net/uid-30282771-id-5171166.html ? 内存-内核空间 https://jin-yang.github.io/post/kernel-memory-management- from-kernel-view.html ? Virtual Memory and Linux https://events.linuxfoundation.org/sites/events/files/slides/elc_2 016_mem.pdf ? Slab allocators in the Linux Kernel: SLAB, SLOB, SLUB https://events.linuxfoundation.org/sites/events/files/slides/slaba llocators.pdf