網易首頁 > 網易號 > 正文申請入駐

那個在OpenAI修中文的人

2026-05-02 12:05:17　來源: 字母榜

北京舉報

分享至

OpenAI研究科學家陳博遠在知乎上發了一篇文章，開頭非常直接：

“大家好，我是GPT Image團隊的研究科學家陳博遠。上周發布的GPT生圖模型就是我主力訓練的！”

他還提到，這次終于修好了模型的中文渲染。如果中文用戶有什么反饋，可以直接回復他。

ChatGPT Images 2.0發布之后，很多人的第一反應是：這個模型的中文能力，強得有點不講道理。

過去的圖像模型多少有些“看不懂字”。它們能畫風景、畫人物，但一旦涉及中文，就很容易變成一團難以辨認的鬼畫符。但GPT-image-2不一樣，它不僅能寫對字，還能排版、分段、生成帶邏輯結構的中文信息圖。

曾經那種“看文字判斷是不是AI生成”的辦法，到這一代已經行不通了。

陳博遠是GPT Image 2訓練和能力展示里真正站到前臺的人之一。在發布會上，他和奧特曼一起演示了文字渲染能力。發布后，他又在知乎上解釋了官網圖片背后的很多花絮：LMArena雙盲測試時，GPT Image 2曾用“duct-tape”（布基膠帶）作為代號；官網blog里的很多圖片，是他親手用模型做出來的；中文漫畫、米粒刻字、多語言文字、視覺證明、自動生成二維碼，這些看起來像宣傳素材的圖片，其實都是一次次有設計目的的能力測試。

對這個“duct-tape”的膠帶，他用了一個很有趣的解釋：

“至于為啥起名叫布基膠帶嘛..當然是因為你可以用布基膠帶把香蕉貼在墻上啦！”

他在問一個更慢的問題

陳博遠并不是那種一眼就能被記住的研究員。沒有頻繁的公開演講，也沒有刻意經營個人表達。他會寫博客、發一些輕松的內容，但這些更像是記錄，而不是建立影響力。

相比之下，他的存在感更多來自模型本身。

他現在是OpenAI的一名研究員，參與圖像模型的訓練。在此之前，他在麻省理工學院完成電子工程與計算機科學博士學位，同時輔修哲學，也曾在谷歌DeepMind參與多模態模型的研究工作。

這些經歷已經足夠亮眼，但更重要的是他長期關注的問題。

從DeepMind到OpenAI，陳博遠的研究方向幾乎沒有改變。當大多數人還在討論模型能不能寫得更好、畫得更像的時候，他關心的是更基礎的一層：模型究竟在“理解”什么。

具體可以看作三個問題：模型如何理解圖像？圖像和語言之間到底是什么關系？當一個模型面對真實世界時，它究竟是在生成結果，還是在模擬世界？

這些問題聽起來抽象，但它們幾乎決定了今天這一代模型的邊界。

在他的個人主頁上，他把自己的研究方向寫得很直接：世界模型、具身智能、強化學習。

所謂世界模型，可以理解為一件事：讓AI在內部形成一個對世界的判斷。

它不僅要知道眼前發生了什么，還要能預測接下來會發生什么。

這和今天常見的LLM（大語言模型）有一點區別，LLM更像是在處理語言，而世界模型更接近一種結構：它需要理解空間、時間、因果，以及行為的結果。

用一個很簡單的例子來說，AI如果真的“理解”世界，它應該知道塑料杯掉在地上會彈一下，而玻璃杯會碎掉。

具身智能和強化學習，則可以理解為這個問題的延伸——如果一個模型真的理解世界，它就不應該只是回答問題，還應該能夠行動，并在行動中不斷修正自己的判斷。

他參與的工作，往往不是單一任務優化，而是試圖把生成模型、視覺理解和決策系統連在一起。

他最有代表性的工作之一，是一項名為Diffusion Forcing的研究。

這項研究試圖解決一個很基礎的問題：模型到底是一步一步生成，還是一次性生成？

LLM是前者，它擅長靈活生成，但在長內容里容易出錯；擴散模型更接近后者，它更穩定，但缺乏結構。

陳博遠的做法，則是把這兩種方式放在同一個模型里，讓模型既能逐步生成，又能對整體進行約束。

如果說Diffusion Forcing是在時間維度上做統一，那么他參與的另一項工作SpatialVLM，則是在空間維度上補齊能力。

這個工作針對一個長期存在的問題：模型雖然能看圖說話，但并不真正理解空間關系。它不知道遠近、大小，也不清楚物體之間的相對位置。

為了解決這一點，他所在的團隊構建了一套三維空間推理體系，讓模型不僅能“看見”，還要能“推理”。

類似的思路也出現在其他工作中，比如利用歷史信息指導生成的History-Guided方法，或者將視覺、動作與語言統一建模的研究。這些工作看起來分散，但都指向一個方向：讓模型不只是輸出結果，而是在內部形成一種穩定的表示。

在嚴肅的研究方向之外，陳博遠也會偶爾流露出一種很鮮活的個人趣味。

比如這次在知乎上發表的文章，又比如他在個人主頁特別介紹了自己的興趣是珍珠奶茶（making boba），就連知乎名都是”MIT奶茶店長“。

他還寫了一篇博客，給美國計算機科學名校做了一個排名，標準不是科研實力，而是珍珠奶茶。

他把伯克利排在第一位，因為校園周圍“幾乎被高質量奶茶店包圍”，而MIT則被他打了一個不太高的分數，理由是“附近奶茶店太少，而且質量不穩定”。

這類表達很輕松，但可以看出他的研究習慣：把復雜的問題拆開，找到可以比較的維度，再做判斷。

他的工作本身也在做類似的事情，只不過對象換成了模型。

他避開了更容易的方向

如果只看圖像模型的發展路徑，過去的邏輯其實很清晰：更大的數據、更高的分辨率、更穩定的生成過程。大多數改進，集中在“畫得更像”這件事上。

但隨著模型開始處理更復雜的內容，這條路徑也走到了瓶頸：當圖像里不僅有視覺元素，還包含文字、結構甚至邏輯關系時，問題不再只是像或不像，而是這些信息如何同時成立。

問題從生成質量，轉向了結構一致性。

這類問題并不是所有研究者都會去做，它既不直接對應某一個評測指標，也很難在短期內轉化成產品效果。相比之下，做分辨率、做風格、做細節，往往更容易看到提升。

而陳博遠的路徑，恰好避開了那些“更容易”的方向：從他在學術階段的研究開始，他關注的就不是單一模態的能力，而是不同能力之間如何被連接在一起。

在很長一段時間里，視覺模型、語言模型和決策系統，是各自發展的。它們可以通過接口連接，但在內部往往是分開的。因此，模型雖然可以“調用能力”，卻很難表現出一致的理解。

陳博遠做的工作，就是試圖改變這種狀態。

這次模型的很多能力展示，本來就發生在“圖像、文字、梗、真實物體和文化語境”的交界處。

陳博遠說，官網blog里的很多圖片都是他親手做的。整個blog都是用圖片生成的，完全沒有普通文本。換句話說，用戶在官網上看到的很多示例，不只是宣傳物料，而是模型能力本身的一部分。

比如那張中文彩蛋漫畫。

他想做一個很搞笑的漫畫，于是用到了“接住梗”和“香蕉梗”。為了展示文字能力，他特意讓模型在圖里加入多國語言文字，又在家鄉海報的右下角生成特別特別小的中文，用來測試模型到底能處理多細的細節。

更關鍵的是，這張圖不是拼接出來的——按照他的說法，整張圖，包括畫中畫和畫中畫中畫都是一次性生成的。他擔心大家以為這是拼接圖，還特意在圖底加了備注。

這正好說明GPT Image 2的難點在哪里。過去的圖像模型如果能寫出幾個不出錯的大字，已經算很不錯了。但GPT Image 2要處理的是一整套層級：它要知道這是一張漫畫書照片，漫畫書里有圖，圖里還有圖；它要在不同層級里放入不同語言的文字；它還要讓這些文字和畫面關系成立，而不是隨機散落在圖里。

再比如米粒刻字。

陳博遠說，他一開始覺得普通文字渲染還不夠驚艷，于是在隊友提示下做了一張4K圖：畫面里是一堆米粒，其中一顆米粒上刻著字。

這測試了模型在極小尺度里的文字控制能力。

還有那張黑板視覺證明。

陳博遠表示：“如果讓他解普通數學題方程啥的，似乎就太簡單了。nano banana似乎通過思考模式+文字渲染的方式也能做。于是我想到了我非常喜歡的一個視覺證明來真正考驗GPT Image 2獨特的視覺推理效果。圖里提示詞說的是，在黑板上用視覺（而不是代數）證明從1開始的奇數之和是一個平方。普通的模型其實很容易推理出代數解，但是圖形解只有視覺模型才能做了。”

這也是GPT Image 2這次發布里最值得注意的變化之一：它開始能把一個抽象關系變成圖像結構，再把這個結構用視覺方式表達出來。

所以，與其說GPT Image 2在“生圖”，不如說它在生成一種帶有結構的視覺表達。

漫畫、海報、視覺證明……這些東西本質上都不是純圖片，它們同時包含文字、排版、層級、對象關系、任務目標和審美判斷。

過去的圖像模型容易在這里崩掉，是因為它們把圖像當成像素結果。而這一代更強的圖像模型，必須把圖像當成一種帶結構的表達。

他不是一個人

在OpenAI內部，真正參與模型訓練的人其實不多。GPT-image-2發布之后，研究負責人Gabriel Goh在社交媒體上公開感謝了他們的團隊成員。

名單并不長，只有十幾個人。

這更像是一支小團隊，而不是一個龐大的工程體系。

團隊成員分散在不同方向，有人做視覺，有人做生成機制，有人處理系統結構，但最終指向的是同一件事：讓模型具備一套可以同時處理圖像、語言和結構的能力。

推文里的插圖某種程度上也像是一個比喻：一群人圍在一起，每個人負責一部分，最后拼成同一張圖。

模型的結構、能力邊界，甚至“圖像應該是什么”，都是在這樣的團隊里被一點點做出來的。

有個值得注意的地方是，在這十幾人的核心團隊里，可以看到相當數量的中文名字。

除陳博遠之外，還包括做視覺語言模型的王劍鋒（Jianfeng Wang）、做模型評估與數據問題的梁偉新（Weixin Liang）、長期從事圖像生成的楊宇光（Yuguang Yang）、以及參與圖像生成與系統訓練的多位研究者。

陳博遠也沒有把這件事寫成一個人的勝利。在知乎文章的最后，他特別感謝了整個團隊。他說，每個人都做了很多很多的事情。在發布前的尾聲，他除了修一些小東西，就是和市場部門的同事、做藝術的同事一起準備發布會和網站。

也就是說，GPT Image 2是一次研究、產品、審美和傳播的共同完成。模型團隊要把能力做出來，藝術團隊要知道什么樣的圖能把能力展示出來，市場團隊要把這些能力翻譯成普通用戶看得懂、愿意測試、也愿意傳播的畫面。

這也是為什么這次發布里的很多示例都很特別。它們并不是隨便生成一張漂亮圖片就結束，而是在主動制造難題：多國語言、極小文字、畫中畫、真實物體、視覺證明、搜索生成海報、二維碼嵌入。

每一張圖都在告訴用戶：你以前覺得圖像模型做不到的事情，現在可以重新試一遍。

從這個角度看，陳博遠的位置很特殊。

他既在模型訓練一側，也站到了發布敘事的一側；他不僅參與把模型做出來，也親手設計了很多讓外界理解模型能力的圖片。

GPT Image 2當然不是陳博遠一個人的作品，但從公開信息看，陳博遠確實是這次圖像模型發布中最值得中文社區關注的名字之一。

一方面，這次發布的GPT生圖模型就是他主力訓練的；另一方面，他又剛好承擔了一個中文用戶最容易感知的突破：中文渲染。

當AI終于能把中文寫進復雜圖像里，背后那個長期研究世界模型、空間理解和生成一致性的研究者，站到了臺前。

他說：“希望這次穩穩地接住了大家。”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.