svah-x
滑铁卢大学 · 数学 · 机器学习

彭从楷

滑铁卢大学数学系(组合与优化 + 统计)本科在读。 研究方向:世界模型强化学习、拓扑引导优化、大语言模型高效微调。

研究方向
世界模型 · TDA · LLM
技术栈
PyTorch · JAX · DeepSpeed

专业技能

编程语言

Python C/C++ Racket SQL Bash LaTeX

AI 框架

PyTorch JAX DeepSpeed HuggingFace TensorBoard Gradio

强化学习 & 仿真

Isaac Sim Isaac Lab Gymnasium MuJoCo DMControl

数学

组合优化 图论 TDA 密码学

深度学习

CNNs Vision Transformers 迁移学习 QLoRA

强化学习方法

DQN PPO 世界模型 MPC CEM

研究工具

GUDHI Ripser WandB RunPod

关于我

我专注于数学理论机器学习工程的交叉领域。 研究重点在于将严谨的数学基础应用于实际工程:训练稳定性、损失地形几何分析、以及构建可复现的研究原型。

目前正在探索拓扑数据分析如何指导优化器行为, 以及世界模型如何在高频环境中学习潜在动力学。 我注重评估规范,致力于编写他人能够实际运行的研究代码。

  • 0
    研究项目
  • 0
    开源仓库

教育背景

滑铁卢大学
数学学士 — 组合与优化
2023年9月 — 预计2027年
相关课程
图论 凸优化 应用密码学 量子信息处理 数论 线性代数

竞赛获奖

#1
Euclid 数学竞赛
2021 — 2022
校级冠军(2次),Honour Roll,BC 省第一
H
加拿大高级数学竞赛
2022
校级冠军,Honour Roll

开源课程

深度学习与强化学习开源教育资源。

深度学习 · PyTorch
GitHub →

PyTorch 深度学习课程

10 章节实战课程,从张量到部署。涵盖 CNNs、迁移学习、Vision Transformers (ViT)、TensorBoard 实验追踪、Gradio 模型部署。

PyTorch CNNs Vision Transformers 迁移学习 TensorBoard
强化学习 · 世界模型
GitHub →

强化学习与世界模型课程

4 阶段课程,从 RL 基础到机器人级世界模型。涵盖 DQN、PPO、基于模型的规划(MPC、CEM)、Isaac Lab 集成与 Sim-to-Real。

DQN / PPO 世界模型 MuJoCo Isaac Lab Sim-to-Real

研究项目

强化学习、优化、大语言模型系统相关工作精选。

世界模型 · 强化学习
研究原型
GitHub →

Geometry Dash 世界模型智能体(DreamerV3 风格)

面向 60Hz 物理驱动游戏环境的 DreamerV3 风格智能体,具有严格的失败约束。 基于自定义 Gymnasium 栈、Windows↔WSL 同步、高频日志记录实现可复现评估。

JAX DreamerV3 风格 Gymnasium Windows↔WSL 桥接 高频日志
环境
自定义 Gymnasium 环境 + 可复现评估框架
系统
Windows↔WSL 桥接同步观测/状态与动作
调试
高频轨迹记录用于离线分析与健全性检查
优化 · TDA
GitHub →

TopoAdamW:TDA 引导的元优化器

基于 GUDHI 的 PyTorch 优化器,利用 TDA 特征探测局部损失地形几何(尖锐 vs 平坦区域), 并通过稳定性保障机制自适应调整更新行为。

方法
拓扑特征提取
基准
CIFAR-10 vs AdamW
PyTorch GUDHI 损失地形
LLM 系统

大语言模型高效微调

面向 Dream-7B 和 GPT-OSS-20B 的内存高效微调流水线, 采用 QLoRA、梯度检查点和 DeepSpeed 优化。

数学推理
+20%
显存降低
60%
DeepSpeed QLoRA 4-bit RunPod

联系我

欢迎研究合作、实习机会和有趣的项目。 如果你想讨论机器学习研究或数学,随时联系我。

[email protected]
加拿大安大略省滑铁卢