·S1 E4

翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，开源，CMU，清华｜WhynotTV Podcast #4

January 17

2h 2m

Episode Description

本期嘉宾翁家翌。他在 2022 年加入 OpenAI，并且是 OpenAI 一系列核心模型背后的核心贡献者之一——从 GPT-3.5、GPT-4、再到 GPT-5，你能看到的那些关键跃迁里，都有他的身影；而他最主要的贡献，你可以先记住三个词：强化学习、post-training、infra。但对我来说，翁家翌不只是“把模型做得更强的人”。在成为 OpenAI 研究员之前，他就已经用开源和产品影响过无数人：把知识与资料公开、试图打破信息差；把做工具称作一种“慈善”——在他的价值观里，开源不是履历装饰，而是一种对世界的投入方式：追求的不是掌声，而是 impact。在这期节目里，我们会从翁家翌的童年经历聊起，走到他在清华与 CMU 的求学与成长，再到他在 2022 年加入 OpenAI 后的亲历：站在 AI 风暴中心的人，到底看见了什么？这里是 WhynotTV Podcast。现在请和我一起，走进翁家翌的世界。

------------

00:02:33 - 小时候的翁家翌是什么样的小孩

00:05:56 - 成长过程中的投资未来的意识

00:08:10 - 高中计算机竞赛与升学

00:16:02 - 在清华开源作业与信息差

00:19:23 - 在本科与强化学习结缘

00:28:00 - 在Yoshua Bengio组暑研做NLP的经历

00:30:38 - 对前ChatGPT时代的NLP和RL有什么反思

00:32:47 - 留学申请季受挫的经历

00:35:28 - 对固有评价体系的挣脱

00:41:08 - 天授Tianshou强化学习框架的前世今生

00:48:07 - tuixue online签证查询系统

00:49:54 - 追求影响力impact的底层逻辑是什么

00:56:21 - CMU读研与加入OpenAI的经历

00:59:46 - 和John Schulman的面试故事

01:01:54 - 为什么没有考虑读PhD

01:03:16 - 研究能力和工程能力谁更重要

01:06:31 - infra的重要性

01:09:28 - 还会鼓励今天的学生读AI PhD吗

01:13:13 - 什么是强化学习和post-training（后训练）

01:14:22 - 加入OpenAI的时候ChatGPT是主线吗

01:16:01 - 发布ChatGPT前可以想象这样大规模的成功吗

01:19:18 - 2022年加入OpenAI的初印象是什么

01:20:52 - OpenAI的人才密度与组织架构

01:24:09 - GPT强化学习Post-training的前世今生

01:25:10 - 在2022年做RLHF有什么关键的挑战与突破

01:27:01 - 大模型工业级RL infra 的挑战

01:32:08 - 未来5-10年大语言模型的挑战和瓶颈会是是什么

01:36:30 - 现在的预训练和后训练可以达到AGI吗

01:38:34 - OpenAI还Open吗

01:43:30 - OpenAI实现AGI使命的最大挑战是什么

01:44:02 - 内部视角看Sam Altman被开除的经历

01:46:37 - 如何看待OpenAI的人才流失

01:47:43 - OpenAI面对AI竞赛的内部视角

01:52:48 - 未来与宿命论

01:58:35 - 考虑过创业吗

02:00:01 - 希望十年后的自己是什么样的

See all episodes

翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，开源，CMU，清华｜WhynotTV Podcast #4

Episode Description

Never lose your place, on any device