{"version":1,"pages":[{"id":"7lHk8kcYrX5nBDWjlIRS","title":"Introduction","pathname":"/","siteSpaceId":"sitesp_wxrFZ","description":""},{"id":"UajzTrfhswHSO6o4mvzO","title":"Systems for ML","pathname":"/paper-list/systems-for-ml","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"}]},{"id":"4FVIKppgOrvzOimPuU2N","title":"Data Processing","pathname":"/paper-list/systems-for-ml/data-processing","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Systems for ML"}]},{"id":"rZgyMIJQ2uGlMuSXaTVQ","title":"Deep Learning Training","pathname":"/paper-list/systems-for-ml/deep-learning-training","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Systems for ML"}]},{"id":"utX7EmzlZg6kPdz4itO5","title":"Resource Scheduler","pathname":"/paper-list/systems-for-ml/resource-scheduler","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Systems for ML"}]},{"id":"fOkXzj50Jolkt5Am8BTM","title":"Model Serving","pathname":"/paper-list/systems-for-ml/model-serving","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Systems for ML"}]},{"id":"gCdVKOSuSElQO7PDUmVM","title":"Large Language Model (LLM)","pathname":"/paper-list/systems-for-ml/llm","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Systems for ML"}]},{"id":"jHHRlyzcEmxNOOkVe5ND","title":"Diffusion Models","pathname":"/paper-list/systems-for-ml/diffusion-models","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Systems for ML"}]},{"id":"CYaHy9prcS84VHlrBMYL","title":"Deep Learning Recommendation Model (DLRM)","pathname":"/paper-list/systems-for-ml/dlrm","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Systems for ML"}]},{"id":"sMeNz2dVsGbdS6r5BeJ6","title":"Mixture of Experts (MoE)","pathname":"/paper-list/systems-for-ml/moe","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Systems for ML"}]},{"id":"khmXfqFz0l0GJB9Gwh1u","title":"Hyper-Parameter Tuning (HPO)","pathname":"/paper-list/systems-for-ml/hpo","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Systems for ML"}]},{"id":"A2c5qBHBmPZ6DciY584d","title":"Reinforcement Learning (RL)","pathname":"/paper-list/systems-for-ml/rl","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Systems for ML"}]},{"id":"6ng5lNP5oiVolasBZXKB","title":"Deep Learning Compiler","pathname":"/paper-list/systems-for-ml/deep-learning-compiler","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Systems for ML"}]},{"id":"IQfLTpRDJPtM78Th4UAT","title":"Deep Learning Framework","pathname":"/paper-list/systems-for-ml/deep-learning-framework","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Systems for ML"}]},{"id":"csIz4GtmOFJ7IDnrjby9","title":"Cloud-Edge Collaboration","pathname":"/paper-list/systems-for-ml/cloud-edge-collaboration","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Systems for ML"}]},{"id":"lzrgCgAsF2BepoIhykyq","title":"ML for Systems","pathname":"/paper-list/ml-for-systems","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"}]},{"id":"zU2GnvRgEmqkSxW0jNbh","title":"Kernel Generation","pathname":"/paper-list/ml-for-systems/kernel-generation","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"ML for Systems"}]},{"id":"awHD7Z0hbvhS4qcJViXq","title":"Artificial Intelligence (AI)","pathname":"/paper-list/artificial-intelligence","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"}]},{"id":"IWbeVDERmA5HzwTywGoL","title":"Continual Pre-training","pathname":"/paper-list/artificial-intelligence/cpt","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Artificial Intelligence (AI)"}]},{"id":"objVz9r5M9mUNRmjP2z1","title":"On-Policy Distillation","pathname":"/paper-list/artificial-intelligence/opd","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Artificial Intelligence (AI)"}]},{"id":"yadWWUlMuUYIMXi1n6V7","title":"Diffusion Models","pathname":"/paper-list/artificial-intelligence/diffusion-models","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Artificial Intelligence (AI)"}]},{"id":"VmqMfXADVlDJ1ClTBFk1","title":"Language Models","pathname":"/paper-list/artificial-intelligence/language-models","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Artificial Intelligence (AI)"}]},{"id":"GVMnuxxV4pLtLhaacLbf","title":"Deep Learning Recommendation Model (DLRM)","pathname":"/paper-list/artificial-intelligence/dlrm","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Artificial Intelligence (AI)"}]},{"id":"ozdi3Yeuhkq0KujGqF1W","title":"Hardware Virtualization","pathname":"/paper-list/hardware-virtualization","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"}]},{"id":"4mkTdbcxsbH3Qs1Hlui7","title":"GPU Sharing","pathname":"/paper-list/hardware-virtualization/gpu-sharing","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Hardware Virtualization"}]},{"id":"SrhDzVXpz3ff1c5iYzLm","title":"Resource Disaggregation","pathname":"/paper-list/resource-disaggregation","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"}]},{"id":"4P1IHjvKk3gjHReK8ke7","title":"GPU Disaggregation","pathname":"/paper-list/resource-disaggregation/gpu-disaggregation","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Resource Disaggregation"}]},{"id":"egxvTtehoCydWOQtmFXK","title":"Memory Disaggregation","pathname":"/paper-list/resource-disaggregation/memory-disaggregation","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Resource Disaggregation"}]},{"id":"CdniD7iunJ0cXuQJVtWH","title":"Resource Fragmentation","pathname":"/paper-list/resource-fragmentation","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"}]},{"id":"eDZR1T7o1oyuhBYzZO9J","title":"Cloud Computing","pathname":"/paper-list/cloud-computing","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"}]},{"id":"hrJ1GW9u9IZolZBRnc0B","title":"Sky Computing","pathname":"/paper-list/cloud-computing/sky-computing","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Cloud Computing"}]},{"id":"uD3AliEJm6WwzyYaTVoo","title":"Serverless Computing","pathname":"/paper-list/cloud-computing/serverless-computing","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Cloud Computing"}]},{"id":"KXeU50krriKIcvR1p97z","title":"Spot Instances","pathname":"/paper-list/cloud-computing/spot-instances","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"},{"label":"Cloud Computing"}]},{"id":"SoSNIvCdmSaUJNl2Q3O2","title":"Remote Direct Memory Access (RDMA)","pathname":"/paper-list/rdma","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"}]},{"id":"MDglYg03QqvEia8O3Bh9","title":"Research Skills","pathname":"/paper-list/research-skills","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"}]},{"id":"XsZksvDHLvY4543dQJ4Z","title":"Miscellaneous","pathname":"/paper-list/misc","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Paper List"}]},{"id":"e7uhAmK8oBvIUMzs2Lag","title":"Conference","pathname":"/reading-notes/conference","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"}]},{"id":"bkgWczqJP8BcE5tTmIPl","title":"SOSP 2026","pathname":"/reading-notes/conference/sosp-2026","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"V1YAtXtZ0Th2BlRSspPZ","title":"OSDI 2026","pathname":"/reading-notes/conference/osdi-2026","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"Pn0fkdNTA3uYzr4MXiKs","title":"SDCs in the Wild: Characterizing and Diagnosing SDC-defective GPUs in Production LLM Training","pathname":"/reading-notes/conference/osdi-2026/sdchunter","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"OSDI 2026"}]},{"id":"rLYh0P00PhPuDL6MUIVe","title":"Safeguarding LLM Training at Scale: Online SDC Detection and Insights from 35 Million GPU Hours","pathname":"/reading-notes/conference/osdi-2026/aegis","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"OSDI 2026"}]},{"id":"WlnerxlzUZfym4Kpt2rp","title":"ICML 2026","pathname":"/reading-notes/conference/icml-2026","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"Xdaov21BGGOjgLSy5PZ7","title":"ISCA 2026","pathname":"/reading-notes/conference/isca-2026","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"BX1mdTEmjo6SkSYd4UYa","title":"KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta","pathname":"/reading-notes/conference/isca-2026/kernelevolve","siteSpaceId":"sitesp_wxrFZ","description":"#kernel_generation #heterogeneous_accelerators #dlrm","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ISCA 2026"}]},{"id":"YA1yeT8e9Zfp1gMLJlQT","title":"CAIS 2026","pathname":"/reading-notes/conference/cais-2026","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"Ej48Gvq6ScgXyseLukuS","title":"MLSys 2026","pathname":"/reading-notes/conference/mlsys-2026","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"VwKMKHxjlXtdaxAdAYYh","title":"NSDI 2026","pathname":"/reading-notes/conference/nsdi-2026","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"YtC4pQa1wI3IFcWbMAQR","title":"EuroSys 2026","pathname":"/reading-notes/conference/eurosys-2026","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"Cv23k5cSKNJraBFsIqyC","title":"ASPLOS 2026","pathname":"/reading-notes/conference/asplos-2026","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"aQFQ07g2JZAr7okODhB5","title":"FAST 2026","pathname":"/reading-notes/conference/fast-2026","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"zjvUh9g5eMNnoJsanrjZ","title":"Sharpen the Spec, Cut the Code: A Case for Generative File System with SYSSPEC","pathname":"/reading-notes/conference/fast-2026/sysspec","siteSpaceId":"sitesp_wxrFZ","description":"#generative_file_system #llm_for_systems #specification","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"FAST 2026"}]},{"id":"nH7YVGzqVu1Eno1QTdt5","title":"HPCA 2026","pathname":"/reading-notes/conference/hpca-2026","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"h7Yrnvaknamc1zfvSKQ8","title":"PPoPP 2026","pathname":"/reading-notes/conference/ppopp-2026","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"E9QjhfYSxn9lY0W3Lj3G","title":"SC 2025","pathname":"/reading-notes/conference/sc-2025","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"HF6D2hvGP5Yee1bMKKlh","title":"SOSP 2025","pathname":"/reading-notes/conference/sosp-2025","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"gycvKz3LiZHsSsUyBOrl","title":"Jenga: Effective Memory Management for Serving LLM with Heterogeneity","pathname":"/reading-notes/conference/sosp-2025/jenga","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"SOSP 2025"}]},{"id":"IBnuR2CePFcMBpAbSWo6","title":"SIGCOMM 2025","pathname":"/reading-notes/conference/sigcomm-2025","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"qetQrxtCkyGOv1drFriU","title":"ICML 2025","pathname":"/reading-notes/conference/icml-2025","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"XqKxTqlV93Pan3YtRoJv","title":"ATC 2025","pathname":"/reading-notes/conference/atc-2025","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"2E2YF4fqyxv06ZObn8nt","title":"OSDI 2025","pathname":"/reading-notes/conference/osdi-2025","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"lS33M1kcQTjlmA1r08xs","title":"ISCA 2025","pathname":"/reading-notes/conference/isca-2025","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"JKwlt6TOfuVCiEl5R38m","title":"SIGMETRICS 2025","pathname":"/reading-notes/conference/sigmetrics-2025","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"nmySGutBjY8V6e5mhuAW","title":"HotOS 2025","pathname":"/reading-notes/conference/hotos-2025","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"nbl1eOGewUdrJZzAttO5","title":"MLSys 2025","pathname":"/reading-notes/conference/mlsys-2025","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"0PTA0cHkRWvvx9oNgncg","title":"NSDI 2025","pathname":"/reading-notes/conference/nsdi-2025","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"KfXJmNTypsSHYJACvaxr","title":"ASPLOS 2025","pathname":"/reading-notes/conference/asplos-2025","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"bjVmWVlhLx7xSvEDyIy2","title":"EuroSys 2025","pathname":"/reading-notes/conference/eurosys-2025","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"I9z14h25YLLCKKvdAg2Z","title":"HPCA 2025","pathname":"/reading-notes/conference/hpca-2025","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"w4UIkKxIDC52cLXt7Re5","title":"PPoPP 2025","pathname":"/reading-notes/conference/ppopp-2025","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"lh1V4UnF19ObI9m8EZzy","title":"NeurIPS 2024","pathname":"/reading-notes/conference/neurips-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"ZQfl6NGBHG6Jl04W3xne","title":"SoCC 2024","pathname":"/reading-notes/conference/socc-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"KdfXQ1VbkJu1khLmn3DS","title":"HotNets 2024","pathname":"/reading-notes/conference/hotnets-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"sbq8pxre9rFYtZRgqJ94","title":"SC 2024","pathname":"/reading-notes/conference/sc-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"E16wApe3LMvO4DKq169n","title":"SOSP 2024","pathname":"/reading-notes/conference/sosp-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"r5qjGyHf4Ms7JCNioUBZ","title":"VLDB 2024","pathname":"/reading-notes/conference/vldb-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"lPZmqqy1WNqcWAYB3g1x","title":"SIGCOMM 2024","pathname":"/reading-notes/conference/sigcomm-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"Ggc2jHwK0bsru7HMJkfz","title":"ICML 2024","pathname":"/reading-notes/conference/icml-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"hnoFSxlfbR2mizsyvtAW","title":"ATC 2024","pathname":"/reading-notes/conference/atc-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"jKR0uGNVIDzckFoy6Dfe","title":"OSDI 2024","pathname":"/reading-notes/conference/osdi-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"ONUA9Leud6Au5Luerils","title":"ISCA 2024","pathname":"/reading-notes/conference/isca-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"Ln7iqFZuF2NnEPCo45di","title":"CVPR 2024","pathname":"/reading-notes/conference/cvpr-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"2EYPPfbbnnRvH6fVJH0K","title":"MLSys 2024","pathname":"/reading-notes/conference/mlsys-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"EQUChV054NKT8V6W3ZTc","title":"ASPLOS 2024","pathname":"/reading-notes/conference/asplos-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"Xve4CpzRImute2JNUXcl","title":"SpotServe: Serving generative large language models on preemptible instances","pathname":"/reading-notes/conference/asplos-2024/spotserve","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ASPLOS 2024"}]},{"id":"LRGXa7gH8SPXwAEHoFs1","title":"EuroSys 2024","pathname":"/reading-notes/conference/eurosys-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"86qqKRNamPVJ1x9UrgKv","title":"Orion: Interference-aware, fine-grained GPU sharing for ML applications","pathname":"/reading-notes/conference/eurosys-2024/orion-interference-aware-fine-grained-gpu-sharing-for-ml-applications","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"EuroSys 2024"}]},{"id":"GJfiwdij6oJw8ap15JSq","title":"Just-In-Time Checkpointing: Low Cost Error Recovery from Deep Learning Training Failures","pathname":"/reading-notes/conference/eurosys-2024/jit-checkpointing","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"EuroSys 2024"}]},{"id":"OUs0G6JxSZapFjxrzO39","title":"NSDI 2024","pathname":"/reading-notes/conference/nsdi-2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"2ycpyBWjiVfSKPYgeJ9M","title":"NeurIPS 2023","pathname":"/reading-notes/conference/neurips-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"xGQQVqIy9LR8xkrfOLLG","title":"SC 2023","pathname":"/reading-notes/conference/sc-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"lQWR7xn30mFqIsbWNc1i","title":"Interference-aware multiplexing for deep learning in GPU clusters: A middleware approach","pathname":"/reading-notes/conference/sc-2023/iadeep","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"SC 2023"}]},{"id":"1cqXbLzzwq3S8q0afoCt","title":"SoCC 2023","pathname":"/reading-notes/conference/socc-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"Zwow2iJrd2T3KtU4FtCv","title":"SOSP 2023","pathname":"/reading-notes/conference/sosp-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"dIKNDrENkEw0wC4T5z2Z","title":"UGache: A unified GPU cache for embedding-based deep learning","pathname":"/reading-notes/conference/sosp-2023/ugache","siteSpaceId":"sitesp_wxrFZ","description":"#DLRM_inference #GPU_embedding_cache","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"SOSP 2023"}]},{"id":"c4Ie2EnDqBtChWSkjLmK","title":"SIGCOMM 2023","pathname":"/reading-notes/conference/sigcomm-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"L82DZIzrlSQ3zdSkpWRz","title":"HotChips 2023","pathname":"/reading-notes/conference/hotchips-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"UEDAZz4FV7aXe34zzAaF","title":"ICML 2023","pathname":"/reading-notes/conference/icml-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"dzLQoCZDCUhR11zxGFg8","title":"ATC 2023","pathname":"/reading-notes/conference/atc-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"LBlVye75jGky5sbDceSb","title":"Accelerating Distributed MoE Training and Inference with Lina","pathname":"/reading-notes/conference/atc-2023/lina","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ATC 2023"}]},{"id":"V7IoELzSezsh3szZAK6l","title":"SmartMoE: Efficiently Training Sparsely-Activated Models ...","pathname":"/reading-notes/conference/atc-2023/smartmoe","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ATC 2023"}]},{"id":"YYtkNqmMIWRAeoOEyT3C","title":"Beware of Fragmentation: Scheduling GPU-Sharing Workloads with Fragmentation Gradient Descent","pathname":"/reading-notes/conference/atc-2023/fgd","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ATC 2023"}]},{"id":"lunnDtcLhDStaf70dpg7","title":"OSDI 2023","pathname":"/reading-notes/conference/osdi-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"1VD9UhbLoinOHeQkvj7e","title":"HotOS 2023","pathname":"/reading-notes/conference/hotos-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"CFxFRJCbXKfi74CmOS7U","title":"SIGMOD 2023","pathname":"/reading-notes/conference/sigmod-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"ZEVH2svzUXznETU3YImh","title":"ISCA 2023","pathname":"/reading-notes/conference/isca-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"IxYItUvyuvbLnmQoKmkF","title":"MLSys 2023","pathname":"/reading-notes/conference/mlsys-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"lo1uL2FC3IyKTdLfSVwT","title":"EuroSys 2023","pathname":"/reading-notes/conference/eurosys-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"0RxbdfWwh0y8STx5NCPi","title":"NSDI 2023","pathname":"/reading-notes/conference/nsdi-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"uhv2BovXohSrWgUwy7BH","title":"Shepherd: Serving DNNs in the wild","pathname":"/reading-notes/conference/nsdi-2023/shepherd","siteSpaceId":"sitesp_wxrFZ","description":"#model_serving_system #mixed-integer_linear_programming #workload_unpredictability","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"NSDI 2023"}]},{"id":"R5SRDr5Pzkfw0SC8iQv8","title":"Understanding RDMA microarchitecture resources for performance isolation","pathname":"/reading-notes/conference/nsdi-2023/husky","siteSpaceId":"sitesp_wxrFZ","description":"#RDMA #performance_isolation #test_suite #RNIC #virtual_machine #RDMA_microarchitecture_resource","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"NSDI 2023"}]},{"id":"9QYtdJS7qscPhxgg7ZAl","title":"Skyplane: Optimizing transfer cost and throughput using cloud-aware overlays","pathname":"/reading-notes/conference/nsdi-2023/skyplane","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"NSDI 2023"}]},{"id":"yf1U1rfFD330E6EGiQRi","title":"Shockwave: Fair and efficient cluster scheduling for dynamic adaptation in machine learning","pathname":"/reading-notes/conference/nsdi-2023/shockwave","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"NSDI 2023"}]},{"id":"FObfQlrN5rxz6Eg2aQ6l","title":"ASPLOS 2023","pathname":"/reading-notes/conference/asplos-2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"sYPQzGKZYiz7yXAsPb4Q","title":"TPP: Transparent page placement for CXL-enabled tiered-memory","pathname":"/reading-notes/conference/asplos-2023/tpp","siteSpaceId":"sitesp_wxrFZ","description":"#CXL #memory_management #tiered_memory #Linux_kernel","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ASPLOS 2023"}]},{"id":"K28nTW6osVXciLVdPKX5","title":"EVStore: Storage and caching capabilities for scaling embedding tables in deep recommendation system","pathname":"/reading-notes/conference/asplos-2023/evstore","siteSpaceId":"sitesp_wxrFZ","description":"#deep_learning_recommender_system #embedding_lookup #recommendation_inference #cache","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ASPLOS 2023"}]},{"id":"RlsZp4jxJaHdQfuNyJq4","title":"Lucid: A non-intrusive, scalable and interpretable scheduler for deep learning training jobs","pathname":"/reading-notes/conference/asplos-2023/lucid","siteSpaceId":"sitesp_wxrFZ","description":"#deep_learning_training_workloads #cluster_scheduler #system_interpretability #ML_for_System #decision_tree #generalized_additive_model","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ASPLOS 2023"}]},{"id":"G6GytrLqHVGG8B5868Tk","title":"SC 2022","pathname":"/reading-notes/conference/sc-2022","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"ts8kwRV04acBwPqTyaVV","title":"SoCC 2022","pathname":"/reading-notes/conference/socc-2022","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"Vs1beyMCYMesQn2EBUCu","title":"ESCHER: Expressive scheduling with ephemeral resources","pathname":"/reading-notes/conference/socc-2022/escher","siteSpaceId":"sitesp_wxrFZ","description":"#ephemeral_resources #scheduling_flexibility #scheduling_requirements #Kubernetes #Ray","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"SoCC 2022"}]},{"id":"yt1rggRwvWu07aFm0nK8","title":"Serving unseen deep learning model with near-optimal configurations: A fast adaptive search approach","pathname":"/reading-notes/conference/socc-2022/falcon","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"SoCC 2022"}]},{"id":"8W1r8Y8XtOZPVObawTcH","title":"SIGCOMM 2022","pathname":"/reading-notes/conference/sigcomm-2022","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"VOXPc7DLHFIwurS2t3H9","title":"Multi-resource interleaving for deep learning training","pathname":"/reading-notes/conference/sigcomm-2022/multi-resource-interleaving-for-deep-learning-training","siteSpaceId":"sitesp_wxrFZ","description":"#deep_learning_training_workloads #multi_resource_scheduler #multi_resource_interleaving #PyTorch #iterative_process #blossom_algorithm","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"SIGCOMM 2022"}]},{"id":"mrvLyl7nu7NgpC1F6ndk","title":"ATC 2022","pathname":"/reading-notes/conference/atc-2022","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"1ovoYVLIX4G8DSWNbmR3","title":"PilotFish: Harvesting Free Cycles of Cloud Gaming with Deep Learning Training","pathname":"/reading-notes/conference/atc-2022/pilotfish","siteSpaceId":"sitesp_wxrFZ","description":"Resource manager which co-locates cloud gaming and DL training to improve GPU utilization.","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ATC 2022"}]},{"id":"SiTEpjo7WBSUH7aHEeZS","title":"Memory Harvesting in Multi-GPU Systems with Hierarchical Unified Virtual Memory","pathname":"/reading-notes/conference/atc-2022/memharvester","siteSpaceId":"sitesp_wxrFZ","description":"GPU memory manager which harvests the temporarily available neighbor GPUs' memory.","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ATC 2022"}]},{"id":"aM372xcqOhxziGSnOQ70","title":"Whale: Efficient Giant Model Training over Heterogeneous GPUs","pathname":"/reading-notes/conference/atc-2022/whale","siteSpaceId":"sitesp_wxrFZ","description":"Distributed training framework for large models.","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ATC 2022"}]},{"id":"xYMzVjml0fyFOunOJqU9","title":"DVABatch: Diversity-aware Multi-Entry Multi-Exit Batching for Efficient Processing of DNN Service...","pathname":"/reading-notes/conference/atc-2022/dvabatch","siteSpaceId":"sitesp_wxrFZ","description":"DNN batching inference system to reduce the latency and improve the throughput.","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ATC 2022"}]},{"id":"aquYktAVgEDgUXegVSe0","title":"Serving Heterogeneous Machine Learning Models on Multi-GPU Servers with Spatio-Temporal Sharing","pathname":"/reading-notes/conference/atc-2022/gpulet","siteSpaceId":"sitesp_wxrFZ","description":"DNN inference scheduling framework to improve GPU utilization under SLO constraints.","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ATC 2022"}]},{"id":"DuVuVLNCtTlLWNi6K8ir","title":"SOTER: Guarding Black-box Inference for General Neural Networks at the Edge","pathname":"/reading-notes/conference/atc-2022/soter","siteSpaceId":"sitesp_wxrFZ","description":"Secure DNN inference system to ensure model confidentiality, low latency, and high accuracy with integrity protection.","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ATC 2022"}]},{"id":"fgBdL8TmFeBGTWDoYeiA","title":"Direct access, high-performance memory disaggregation with DirectCXL","pathname":"/reading-notes/conference/atc-2022/directcxl","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ATC 2022"}]},{"id":"kLZZUc9yT1rIl6zvkEkI","title":"OSDI 2022","pathname":"/reading-notes/conference/osdi-2022","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"m6AzN1wwgmL9RCmWyLUU","title":"Orca: A distributed serving system for transformer-based generative models","pathname":"/reading-notes/conference/osdi-2022/orca","siteSpaceId":"sitesp_wxrFZ","description":"#distributed_serving_system #batch_serving #selective_batching #transformer-based_model #iteration-level_scheduling","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"OSDI 2022"}]},{"id":"zRRWqeAJVLuylO1BEEcg","title":"Microsecond-scale preemption for concurrent GPU-accelerated DNN inferences","pathname":"/reading-notes/conference/osdi-2022/reef","siteSpaceId":"sitesp_wxrFZ","description":"#deep_learning_inference_system #GPU_kernel_preemption #co-location","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"OSDI 2022"}]},{"id":"aW5kl5F0Z3b7cXK0aPWV","title":"Looking beyond GPUs for DNN scheduling on multi-tenant clusters","pathname":"/reading-notes/conference/osdi-2022/synergy","siteSpaceId":"sitesp_wxrFZ","description":"#deep_learning_training_workloads #resource_scheduler #homogeneous_cluster","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"OSDI 2022"}]},{"id":"hprRqHoQn6M9fitN03JP","title":"IPDPS 2022","pathname":"/reading-notes/conference/ipdps-2022","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"hPzdbpQ2x9qgGELefr5L","title":"DGSF: Disaggregated GPUs for serverless functions","pathname":"/reading-notes/conference/ipdps-2022/dgsf","siteSpaceId":"sitesp_wxrFZ","description":"Transparently enable serverless functions to use GPUs through CUDA APIs.","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"IPDPS 2022"}]},{"id":"l0gyUttjjirOWP9qadgv","title":"EuroSys 2022","pathname":"/reading-notes/conference/eurosys-2022","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"Yy1HTc4Yms6MIzYdGQdm","title":"Slashing the disaggregation tax in heterogeneous data centers with FractOS","pathname":"/reading-notes/conference/eurosys-2022/slashing-the-disaggregation-tax-in-heterogeneous-data-centers-with-fractos","siteSpaceId":"sitesp_wxrFZ","description":"#rCUDA #distributed_OS #disaggregated_system #GPU_adaptor #device_adaptor","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"EuroSys 2022"}]},{"id":"8D4xkL5d2C7cfifDoJAe","title":"NSDI 2022","pathname":"/reading-notes/conference/nsdi-2022","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"JrBLptOq5jBifvtnhcxw","title":"SoCC 2021","pathname":"/reading-notes/conference/socc-2021","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"vuZZ4anVVSuTA0VUEua6","title":"ATC 2021","pathname":"/reading-notes/conference/atc-2021","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"UWtuzcWHdyImgF90u158","title":"Zico: Efficient GPU memory sharing for concurrent DNN training","pathname":"/reading-notes/conference/atc-2021/zico","siteSpaceId":"sitesp_wxrFZ","description":"Reduce the system-wide GPU memory consumption for co-located DNN training jobs.","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ATC 2021"}]},{"id":"PG5xIw48q8OPQOcoiub6","title":"OSDI 2021","pathname":"/reading-notes/conference/osdi-2021","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"i0RnYzH8Q1pq5mpCqKWY","title":"Pollux: Co-adaptive cluster scheduling for goodput-optimized deep learning","pathname":"/reading-notes/conference/osdi-2021/pollux","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"OSDI 2021"}]},{"id":"wgxyJZIx0y3jb8uNuJ7T","title":"SOSP 2021","pathname":"/reading-notes/conference/sosp-2021","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"gEdIBWIABvV2rMJ3M9If","title":"HeMem: Scalable Tiered Memory Management for Big Data Applications and Real NVM","pathname":"/reading-notes/conference/sosp-2021/hemem","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"SOSP 2021"}]},{"id":"KdVzOfnMaojjao6G3J7o","title":"EuroSys 2021","pathname":"/reading-notes/conference/eurosys-2021","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"vqdD1Hh9pDRDZY8w9TlV","title":"Take it to the limit: Peak prediction-driven resource overcommitment in datacenters","pathname":"/reading-notes/conference/eurosys-2021/peak-oracle","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"EuroSys 2021"}]},{"id":"A7OEc1rXD4XjMiE2JcgK","title":"HotOS 2021","pathname":"/reading-notes/conference/hotos-2021","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"bnLXXFHc5GwDuqewzWxO","title":"From cloud computing to sky computing","pathname":"/reading-notes/conference/hotos-2021/sky-computing","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"HotOS 2021"}]},{"id":"4JsZIXslBgtIVK9cGBNn","title":"NSDI 2021","pathname":"/reading-notes/conference/nsdi-2021","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"BOUVpVCXsdfiRtvy1EGR","title":"OSDI 2020","pathname":"/reading-notes/conference/osdi-2020","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"e9kIWvxkQ8AlaiAEs2Ce","title":"A unified architecture for accelerating distributed DNN training in heterogeneous GPU/CPU clusters","pathname":"/reading-notes/conference/osdi-2020/byteps","siteSpaceId":"sitesp_wxrFZ","description":"#communication_framework #parameter_server #all-reduce #RoCEv2 #heterogeneous_environment #distributed_deep_learning_training","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"OSDI 2020"}]},{"id":"ekyeqNkewIwpUz0iLHKz","title":"HiveD: Sharing a GPU cluster for deep learning with guarantees","pathname":"/reading-notes/conference/osdi-2020/hived","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"OSDI 2020"}]},{"id":"yMSSAlujaeXDrkSfqsNc","title":"ATC 2020","pathname":"/reading-notes/conference/atc-2020","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"kD3R01LH8mzMMCUNYUK9","title":"Serverless in the wild: Characterizing and optimizing the serverless workload","pathname":"/reading-notes/conference/atc-2020/serverless-in-the-wild-characterizing-and-optimizing-the-serverless-workload","siteSpaceId":"sitesp_wxrFZ","description":"#serverless #Function_as_a_Service #FaaS #trace_analysis #reduce_code_start_invocations","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ATC 2020"}]},{"id":"oJ655XZE5AnjPxRvOnLU","title":"EuroSys 2020","pathname":"/reading-notes/conference/eurosys-2020","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"u0wrL5tPSnQPLuuaaG3P","title":"ASPLOS 2020","pathname":"/reading-notes/conference/asplos-2020","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"TG8azneXBzPj7wVL6NxH","title":"MLSys 2020","pathname":"/reading-notes/conference/mlsys-2020","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"w7EvRm2AScGZrYvu16BH","title":"SoCC 2020","pathname":"/reading-notes/conference/socc-2020","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"lA9t2fsdGc5lBhM85Qt8","title":"Elastic Parameter Server Load Distribution in Deep Learning Clusters","pathname":"/reading-notes/conference/socc-2020/elastic-parameter-server-load-distribution-in-deep-learning-clusters","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"SoCC 2020"}]},{"id":"UWBON6UDp7PfnSDSxUDs","title":"HPDC 2020","pathname":"/reading-notes/conference/hpdc-2020","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"6Ym8SF4pJgJWnvFXqs00","title":"KubeShare: A framework to manage GPUs as first-class and shared resources in container cloud","pathname":"/reading-notes/conference/hpdc-2020/kubeshare","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"HPDC 2020"}]},{"id":"bNN36BgLSbl1e4dLPhfW","title":"CLUSTER 2019","pathname":"/reading-notes/conference/cluster-2019","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"oPhIjH2BUNoFXkdpdEju","title":"EuroSys 2019","pathname":"/reading-notes/conference/eurosys-2019","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"tqzJjbtyIyl3vpX8bVQy","title":"NSDI 2019","pathname":"/reading-notes/conference/nsdi-2019","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"QO1tRWJv3V4k88j3fS78","title":"IWQoS 2019","pathname":"/reading-notes/conference/iwqos-2019","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"j703t8OTS6MWv7T2g6uE","title":"Who limits the resource efficiency of my datacenter: An analysis of Alibaba datacenter traces","pathname":"/reading-notes/conference/iwqos-2019/who-limits-the-resource-efficiency-of-my-datacenter","siteSpaceId":"sitesp_wxrFZ","description":"Trace analysis in Alibaba production clusters, which co-locates different workloads to improve resource efficiency.","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"IWQoS 2019"}]},{"id":"XhSjbXrbMND1ntZ9A8uT","title":"SIGCOMM 2018","pathname":"/reading-notes/conference/sigcomm-2018","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"FPpTKdk7cv57sYPtq9Jn","title":"Revisiting network support for RDMA","pathname":"/reading-notes/conference/sigcomm-2018/irn","siteSpaceId":"sitesp_wxrFZ","description":"An improved RoCE NIC (IRN) design that makes a few simple changes to the RoCE NIC for better handling of packets.","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"SIGCOMM 2018"}]},{"id":"CP7HcnWRgIT2eFNiFwok","title":"OSDI 2018","pathname":"/reading-notes/conference/osdi-2018","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"XDTkNtJWd12XYSL2blHX","title":"Ray: A distributed framework for emerging AI applications","pathname":"/reading-notes/conference/osdi-2018/ray","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"OSDI 2018"}]},{"id":"27Dyc9kZl7suzN2NWHjb","title":"EuroSys 2018","pathname":"/reading-notes/conference/eurosys-2018","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"a32pMaaZah9ckxbhXS9c","title":"Medea: Scheduling of long running applications in shared production clusters","pathname":"/reading-notes/conference/eurosys-2018/medea","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"EuroSys 2018"}]},{"id":"zWyicqBgWPvrRUGiN57Z","title":"ISPA/IUCC/BDCloud/SocialCom/SustainCom 2018","pathname":"/reading-notes/conference/ispa-iucc-bdcloud-socialcom-sustaincom-2018","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"2rETxqL7e3svJbp7MR23","title":"GaiaGPU: Sharing GPUs in container clouds","pathname":"/reading-notes/conference/ispa-iucc-bdcloud-socialcom-sustaincom-2018/gaiagpu","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ISPA/IUCC/BDCloud/SocialCom/SustainCom 2018"}]},{"id":"U1wBmVNe5Vhj64RcTv4n","title":"SoCC 2017","pathname":"/reading-notes/conference/socc-2017","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"x2VnJcfVQ1clAwc88LoG","title":"SLAQ: Quality-driven scheduling for distributed machine learning","pathname":"/reading-notes/conference/socc-2017/slaq","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"SoCC 2017"}]},{"id":"xkMJpC3dauYTroW4uq6G","title":"ASPLOS 2017","pathname":"/reading-notes/conference/asplos-2017","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"L40KWy4Iv7dVoifcrzve","title":"Neurosurgeon: Collaborative intelligence between the cloud and mobile edge","pathname":"/reading-notes/conference/asplos-2017/neurosurgeon","siteSpaceId":"sitesp_wxrFZ","description":"#graph_partitioning #cloud-edge_collaboration #prediction_model #computation_offloading","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"ASPLOS 2017"}]},{"id":"qPYu6oalxGRZFjd0NMlX","title":"NSDI 2017","pathname":"/reading-notes/conference/nsdi-2017","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"3fUmJQW00nv6yPgGOyAl","title":"Clipper: A low-latency online prediction serving system","pathname":"/reading-notes/conference/nsdi-2017/clipper","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"NSDI 2017"}]},{"id":"kRrSBDJvnyafm2C6KiHz","title":"CLUSTER 2014","pathname":"/reading-notes/conference/cluster-2014","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"}]},{"id":"ujsHyHXJDklFvLsc1uVw","title":"Evaluating job packing in warehouse-scale computing","pathname":"/reading-notes/conference/cluster-2014/evaluating-job-packing","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Conference"},{"label":"CLUSTER 2014"}]},{"id":"YcAiXBGGu9akbUzdWm8U","title":"Journal","pathname":"/reading-notes/journal","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"}]},{"id":"PLKlphTjX4TGQpA6Rzup","title":"IEEE Transactions on Cloud Computing","pathname":"/reading-notes/journal/tcc","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Journal"}]},{"id":"RokqdNJf4ejssGny2UNm","title":"2021","pathname":"/reading-notes/journal/tcc/tcc-2021","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Journal"},{"label":"IEEE Transactions on Cloud Computing"}]},{"id":"ZpuAVyaTl3JXADzbgjJh","title":"Gemini: Enabling multi-tenant GPU sharing based on kernel burst estimation","pathname":"/reading-notes/journal/tcc/tcc-2021/gemini-enabling-multi-tenant-gpu-sharing-based-on-kernel-burst-estimation","siteSpaceId":"sitesp_wxrFZ","description":"#GPU_sharing #GPU_time_sharing #API_remoting #kernel_burst","breadcrumbs":[{"label":"Reading Notes"},{"label":"Journal"},{"label":"IEEE Transactions on Cloud Computing"},{"label":"2021"}]},{"id":"jq6PP0SigPgkgyP0eHsS","title":"ACM Computing Surveys","pathname":"/reading-notes/journal/csur","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Journal"}]},{"id":"RFY8PbpQxoFlAdRDXfoM","title":"2017","pathname":"/reading-notes/journal/csur/csur-2017","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Journal"},{"label":"ACM Computing Surveys"}]},{"id":"yq0QcjAM9OquMkaVXrlm","title":"GPU virtualization and scheduling methods: A comprehensive survey","pathname":"/reading-notes/journal/csur/csur-2017/gpu-virtualization-survey","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Journal"},{"label":"ACM Computing Surveys"},{"label":"2017"}]},{"id":"QnhPJGsQdO63ehlywjlr","title":"ACM SIGCOMM Computer Communication Review (CCR)","pathname":"/reading-notes/journal/ccr","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Journal"}]},{"id":"WWTmDw0p0Ma6Au8nyf6E","title":"2021","pathname":"/reading-notes/journal/ccr/2021","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Journal"},{"label":"ACM SIGCOMM Computer Communication Review (CCR)"}]},{"id":"KQtfdTNFsGaJK8QxpIu5","title":"Data-driven Networking Research: models for academic collaboration with industry","pathname":"/reading-notes/journal/ccr/2021/data-driven-networking-research","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Journal"},{"label":"ACM SIGCOMM Computer Communication Review (CCR)"},{"label":"2021"}]},{"id":"Gdz3hVhkm6w50vLVKEBB","title":"2007","pathname":"/reading-notes/journal/ccr/2007","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Journal"},{"label":"ACM SIGCOMM Computer Communication Review (CCR)"}]},{"id":"UXxD0TICFBMAXxyj04HB","title":"How to Read a Paper","pathname":"/reading-notes/journal/ccr/2007/how-to-read-a-paper","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Journal"},{"label":"ACM SIGCOMM Computer Communication Review (CCR)"},{"label":"2007"}]},{"id":"LFQGjzNYmx0x9vjQQEfB","title":"Communications of the ACM","pathname":"/reading-notes/journal/communications-of-the-acm","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Journal"}]},{"id":"ddwVmPJuSwlzb0e0HIbu","title":"2015","pathname":"/reading-notes/journal/communications-of-the-acm/2015","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Journal"},{"label":"Communications of the ACM"}]},{"id":"vAOn2XzvIWeiYuudFgSU","title":"Why Google stores billions of lines of code in a single repository","pathname":"/reading-notes/journal/communications-of-the-acm/2015/why-google-stores-billions-of-lines-of-code-in-a-single-repository","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Journal"},{"label":"Communications of the ACM"},{"label":"2015"}]},{"id":"tMluQv2KBPruD3qLoiw5","title":"Miscellaneous","pathname":"/reading-notes/miscellaneous","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"}]},{"id":"oYGLZ3cKkGxHiMBhXXWR","title":"arXiv","pathname":"/reading-notes/miscellaneous/arxiv","siteSpaceId":"sitesp_wxrFZ","description":"A free distribution service and an open-access archive.","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"}]},{"id":"2Dr4IRXNxfAo5ZuMTQtd","title":"2024","pathname":"/reading-notes/miscellaneous/arxiv/2024","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"},{"label":"arXiv"}]},{"id":"2kQqQxdJMUeVgMOQlC3j","title":"Efficiently programming large language models using SGLang","pathname":"/reading-notes/miscellaneous/arxiv/2024/sglang","siteSpaceId":"sitesp_wxrFZ","description":"LLM Inference","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"},{"label":"arXiv"},{"label":"2024"}]},{"id":"I3xDCiMc6E75g8hqq2ob","title":"2023","pathname":"/reading-notes/miscellaneous/arxiv/2023","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"},{"label":"arXiv"}]},{"id":"LgW5fx4gjTWMSaFpsN3k","title":"HexGen: Generative inference of foundation model over heterogeneous decentralized environment","pathname":"/reading-notes/miscellaneous/arxiv/2023/hexgen","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"},{"label":"arXiv"},{"label":"2023"}]},{"id":"TxDbxFoOYu0p2OfCeSiK","title":"High-throughput generative inference of large language models with a single GPU","pathname":"/reading-notes/miscellaneous/arxiv/2023/flexgen","siteSpaceId":"sitesp_wxrFZ","description":"An offloading framework for high-throughput LLM inference.","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"},{"label":"arXiv"},{"label":"2023"}]},{"id":"UfBmIQvvsI8gVoKFkZyf","title":"2022","pathname":"/reading-notes/miscellaneous/arxiv/2022","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"},{"label":"arXiv"}]},{"id":"mwQyNqJVvT3cbkC8CJuT","title":"DisaggRec: Architecting disaggregated systems for large-scale personalized recommendation","pathname":"/reading-notes/miscellaneous/arxiv/2022/disaggrec","siteSpaceId":"sitesp_wxrFZ","description":"#deep_learning_recommender_system #memory_disaggregation #total_cost_of_ownership #RDMA","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"},{"label":"arXiv"},{"label":"2022"}]},{"id":"AsUHcTjcgGo3EResM3zM","title":"A case for disaggregation of ML data processing","pathname":"/reading-notes/miscellaneous/arxiv/2022/tf-data","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"},{"label":"arXiv"},{"label":"2022"}]},{"id":"2IAdIHGuxyCOaOx2ggj8","title":"Singularity: Planet-scale, preemptive and elastic scheduling of AI workloads","pathname":"/reading-notes/miscellaneous/arxiv/2022/singularity","siteSpaceId":"sitesp_wxrFZ","description":"Live GPU job migration.","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"},{"label":"arXiv"},{"label":"2022"}]},{"id":"gEulNwvpDvRedy5q0GtL","title":"Aryl: An elastic cluster scheduler for deep learning","pathname":"/reading-notes/miscellaneous/arxiv/2022/aryl","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"},{"label":"arXiv"},{"label":"2022"}]},{"id":"GJlPinbyrQFFZvECfuvN","title":"2016","pathname":"/reading-notes/miscellaneous/arxiv/2016","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"},{"label":"arXiv"}]},{"id":"wJL3LNWMMlgtTF3KGcGg","title":"Wide & deep learning for recommender systems","pathname":"/reading-notes/miscellaneous/arxiv/2016/wide-and-deep-learning-for-recommender-systems","siteSpaceId":"sitesp_wxrFZ","description":"A recommender system with a wide & deep model (WDL).","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"},{"label":"arXiv"},{"label":"2016"}]},{"id":"BwnYNl2me3jFQaoPTifY","title":"Training deep nets with sublinear memory cost","pathname":"/reading-notes/miscellaneous/arxiv/2016/training-deep-nets-with-sublinear-memory-cost","siteSpaceId":"sitesp_wxrFZ","description":"Reduce memory cost to store intermediate results and gradients.","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"},{"label":"arXiv"},{"label":"2016"}]},{"id":"RfXeQcKy90tlr9UoVz55","title":"MSR Technical Report","pathname":"/reading-notes/miscellaneous/msr-technical-report","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"}]},{"id":"GroTmhA9qFEovbdTreF3","title":"2011","pathname":"/reading-notes/miscellaneous/msr-technical-report/2011","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"},{"label":"MSR Technical Report"}]},{"id":"qbiBvNzQROk8W6FoyzDX","title":"Heuristics for vector bin packing","pathname":"/reading-notes/miscellaneous/msr-technical-report/2011/heuristics-for-vector-bin-packing","siteSpaceId":"sitesp_wxrFZ","description":"","breadcrumbs":[{"label":"Reading Notes"},{"label":"Miscellaneous"},{"label":"MSR Technical Report"},{"label":"2011"}]}]}