大語言模型：從注意力機制到智能體時代丨面向復雜系統(tǒng)的人工智能第六講

2026-04-12 20:05:57　來源: 集智俱樂部

北京舉報

分享至

導語

集智俱樂部、集智學園創(chuàng)始人，北京師范大學張江教授開設(shè)了，致力于打破學科壁壘，將復雜系統(tǒng)與人工智能深度融合。從神經(jīng)網(wǎng)絡(luò)到因果推斷，從世界模型到多尺度建模，甚至包含最前沿的“氛圍編程（Vibe Coding）”實戰(zhàn)，帶你親手落地AI項目。

作為系列課程的第六講，張江教授將以「大語言模型：從注意力機制到智能體時代」為題，講解Transformer模型，大語言模型預訓練與微調(diào)，以及現(xiàn)在新的技術(shù)趨勢。正式分享將于4月13日（周一）13:30-16:15騰訊會議線上直播，北師大海淀區(qū)線下授課（助教可協(xié)助入校）。

課程簡介

ChatGPT背后的核心機制，Transformer注意力已成為當代AI基礎(chǔ)設(shè)施的核心組件，這套架構(gòu)在過去七年里驅(qū)動了整個領(lǐng)域的能力跳躍。理解它，就是理解當前大模型能力的物理邊界在哪里。

本節(jié)課程從語言模型三十年的演進史出發(fā)，系統(tǒng)拆解大語言模型的運作原理。課程沿兩條主線推進：一條是機制主線，從注意力機制的幾何直覺（如何用Query-Key-Value構(gòu)造有向信息網(wǎng)絡(luò)），到Transformer編解碼器的完整架構(gòu)，再到GPT系列的訓練流程（預訓練→指令微調(diào)→RLHF）；另一條是前沿主線，大模型的涌現(xiàn)能力、思維鏈推理、推理時計算擴展規(guī)律，以及DeepSeek-R1用GRPO替代PPO的技術(shù)路線。

學完這門課，你能讀懂“Attention is All You Need”的推導，能解釋ChatGPT與DeepSeek的技術(shù)異同，能區(qū)分Prompt Engineering、Context Engineering與Harness Engineering三個工程層次，并具備從Prompt到API調(diào)用搭建LLM應(yīng)用的基礎(chǔ)能力。

課程大綱

認識大語言模型
1. 語言模型三十年演進：n-gram統(tǒng)計模型→Word2Vec神經(jīng)語言模型→預訓練LM（BERT/GPT）→LLM→多模態(tài)智能體
2. LLM的六種使用方式：Prompt、應(yīng)用集成、私有知識庫、AI Agent、Fine-tune、Train的適用場景與難度對比
3. 上下文學習（In-context Learning）與指令學習（Instruction Learning）
4. Prompt Engineering、Context Engineering及GPT API調(diào)用實踐
Transformer架構(gòu)
1. 信息聚合視角：全連接、卷積（局域聚合）、圖神經(jīng)網(wǎng)絡(luò)的對比
2. Query-Key-Value注意力
3. 多頭注意力（Multi-head Attention）、Layer Norm、Position-wise Feedforward
4. 正弦余弦位置編碼（Positional Encoding）及其設(shè)計動機
5. Transformer編碼器-解碼器完整架構(gòu)與PyTorch源碼解析
6. In-context learning的數(shù)學本質(zhì)：注意力機制等價于隱式梯度下降
GPT與DeepSeek
1. GPT-1到GPT-4的技術(shù)演進：Decoder-only架構(gòu)、參數(shù)規(guī)模爆增、in-context learning、多模態(tài)能力
2. ChatGPT訓練流程：預訓練（Base Model）→監(jiān)督微調(diào)（SFT）→獎勵建模→RLHF/PPO對齊
3. 指令微調(diào)（Instruct Tuning）與人類反饋強化學習（RLHF）
4. DeepSeek-V3：MATH-500達90.2分，極低推理成本的性能-價格帕累托最優(yōu)
5. DeepSeek-R1與GRPO：以組策略優(yōu)化替代PPO，無需獨立價值網(wǎng)絡(luò)
新趨勢
1. 大模型涌現(xiàn)能力：規(guī)模突破臨界值后的能力突現(xiàn)
2. 思維鏈（Chain of Thought）推理與推理時計算擴展定律（Inference Scaling Laws）
3. AI Agents：自主性、任務(wù)特定性、反應(yīng)性三要素
4. Harness Engineering：Prompt→Context→Harness的工程范式演進，信息層/執(zhí)行層/反饋層三層架構(gòu)

關(guān)鍵術(shù)語

Transformer：基于多頭自注意力的序列建模架構(gòu)，摒棄RNN的遞歸結(jié)構(gòu)，當前主流LLM的核心組件
自注意力（Self-attention）：序列每個位置對所有位置計算注意力權(quán)重，實現(xiàn)全局信息聚合；公式：Attention=softmax(QK^T/√d?)V
RLHF：基于人類反饋的強化學習，通過人工偏好標注訓練獎勵模型，再用PPO優(yōu)化LLM輸出
GRPO：DeepSeek-R1采用的強化學習算法，以組策略優(yōu)化替代PPO，省去獨立價值網(wǎng)絡(luò)
In-context Learning（ICL）：無需更新參數(shù)，僅在提示中提供少量示例引導LLM完成任務(wù)；數(shù)學上等價于注意力層的隱式梯度下降
涌現(xiàn)能力（Emergent Abilities）：LLM參數(shù)規(guī)模突破閾值后突然具備的新能力
Positional Encoding：將位置信息注入詞嵌入，彌補注意力機制對序列順序不敏感的缺陷
Harness Engineering：2026年興起的智能體系統(tǒng)工程范式，整合Memory、Tools、Orchestration、Guardrails、Evaluation等組件于Prompt之上
幻覺（Hallucination）：LLM生成與事實不符內(nèi)容的現(xiàn)象，研究顯示約64%的LLM錯誤由此引發(fā)

課程信息

課程主題：大語言模型：從注意力機制到智能體時代

課程時間：2026年4月13日（周一） 13:30-16:15

課程形式：騰訊會議（會議信息見群內(nèi)通知）/北師大海淀區(qū)線下授課（助教可協(xié)助入校）；集智學園網(wǎng)站錄播（3個工作日內(nèi)上線）

課程主講人

張江，北京師范大學系統(tǒng)科學學院教授，集智俱樂部、集智學園創(chuàng)始人，集智科學研究中心理事長，曾任騰訊研究院、華為戰(zhàn)略研究院等特聘顧問。主要研究領(lǐng)域包括因果涌現(xiàn)、復雜系統(tǒng)分析與建模、規(guī)模理論等。

個人主頁：https://jake.swarma.org/

課程適用對象

理工科背景高年級本科生
理工科背景碩士、博士研究生

報名須知

1. 課程形式：

參與方式：付費學員可參與騰訊會議直播/北師大海淀區(qū)線下授課（助教可協(xié)助入校）
授課形式：

平時：課堂討論與內(nèi)容共創(chuàng)
結(jié)課：項目匯報

2. 課程周期：2026年3月2日-2026年6月22日，每周一 13:30-16:15進行。

3. 課程定價：399元

課程鏈接：https://campus.swarma.org/v3/course/5684?from=wechat

付費流程：

課程頁面添加學員登記表，添加助教微信入群；
課程可開發(fā)票。

課程共創(chuàng)任務(wù)：課程字幕

為鼓勵學員深度參與、積極探索，我們致力于形成系列化知識傳播成果，并構(gòu)建課程知識共建社群。為此，我們特別設(shè)立激勵機制，讓您的學習之旅滿載收獲與成就感。

課程以老師講授為主，每期結(jié)束后，助教會于課程群內(nèi)發(fā)布字幕共創(chuàng)任務(wù)。學員通過參與這些任務(wù)，不僅能加深對內(nèi)容的理解，還可獲得積分獎勵。積分可兌換其他讀書會課程或?qū)嵨铼勂罚δ某掷m(xù)成長。

推薦課程

參考課程

吳恩達：Build with Andrew https://www.deeplearning.ai/courses/build-with-andrew/
Jure Leskovec: Machine Learning with Graphs, StanfordCS224W.https://www.youtube.com/playlist?list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn
Steve Brunton: Data Driven Science and Engineering, University of Washingtonhttps://www.youtube.com/playlist?list=PLMrJAkhIeNNRpsRhXTMt8uJdIGz9-X_1-
Karthik Duraisamy: DATA-DRIVEN ANALYSIS AND MODELING OF COMPLEX SYSTEMS, Michigen institute for computational discovery and engineering, Michigen University.https://micde.umich.edu/academic-programs-old/data-driven-course/
Sergey Levine: Deep Reinforcement Learning, CS 285 at UC Berkeley.http://rail.eecs.berkeley.edu/deeprlcourse/

【集智學園網(wǎng)站資源】

對復雜系統(tǒng)連續(xù)變化自動建模——Neural Ordinary Differential Equations解讀https://campus.swarma.org/course/2046
復雜網(wǎng)絡(luò)自動建模在大氣污染中的應(yīng)用https://campus.swarma.org/course/1998
兩套因果框架深度剖析：潛在結(jié)果模型與結(jié)構(gòu)因果模型https://campus.swarma.org/course/2526
穩(wěn)定學習：發(fā)掘因果推理和機器學習的共同基礎(chǔ)https://campus.swarma.org/course/2323
因果強化學習https://campus.swarma.org/course/2156
張江：因果與機器學習能夠破解涌現(xiàn)之謎嗎https://campus.swarma.org/course/4540
因果涌現(xiàn)理論提出者：Erik Hoel主題報告https://campus.swarma.org/course/4317
如何從數(shù)據(jù)中發(fā)現(xiàn)因果涌現(xiàn)——神經(jīng)信息壓縮器https://campus.swarma.org/course/4874
標準化流技術(shù)簡介https://campus.swarma.org/course/1999
帶隱狀態(tài)的強化學習世界模型https://campus.swarma.org/course/4848

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.