Kaige Zhang

李宏毅-ML2022-HW14-Lifelong Learning

Introduction 本次作业的主题是Lifelong Learning,即终身学习。理想情况下,模型依序在不同任务的数据上训练,从而学会解所有的任务。但现实情况中模型会发生Catastrophic Forgetting(灾难性遗忘),即学会新任务的同时忘记学过的旧任务。 为什么会发生灾难性遗忘? 核心在于每个任务的error surface不同,从而参数优化的方向也不同。当...

李宏毅-ML2022-HW12-Reinforcement Learning

Task Description 使用深度强化学习算法执行OpenAI Gym的Lunar Lander(月球着陆器)任务。LunarLander是一个经典的强化学习环境,模拟航天器在月球表面着陆的任务。通过合理设计策略和调参,智能体可以学会精准着陆,该环境是验证强化学习算法的理想测试平台。 Environment Lunar Lander的目标是控制航天器降落在月球表面的两个黄色旗帜...

李宏毅-ML2022-HW11-Adaptation

Task Description 本次作业的主题是Domain Adaptation,即领域自适应。 假设你要执行与真实3D场景相关的任务,但是真实环境3D图像很难标记并且价格昂贵,而模拟图像(例如GTA-5上的模拟场景)易于标记。如果将模拟图像作为训练集,真实环境图像作为测试集,这样作会有什么问题? 模型会将真实环境图像识别为“异常”,因为训练数据和测试数据来自不同的domain。 ...