來不及前情回顧了,
這次我開源的伯樂Skill,
它的作用不是廣撒網,抓全網AI新聞,不只是把我四五年累積下來的150+個信息源打包做了一個網頁,再給你推薦一個新的信息流入口。
每個人的信息需求不一樣,閱讀習慣也不一樣。
伯樂做的是更上游的事,
它能判斷一個信息源,它的內容值不值得長期追更,會不會跟你現有信息流有內容重復,如果值得,應該怎么接進來最穩定?
我以前踩過的坑巨巨巨多,同個信息源是走RSS,走公開API,走Skill,走飛書文檔,還是讀網頁自帶的feed,用Jina兜底讀靜態頁面,還是復用登錄態,走付費API的話要如何限制更新頻率,以及Agent郵件訂閱日報等等等等。
千里馬(信息源)常有,而伯樂不常有。
我也嘗試過把所有的源都做成RSS格式,或者把所有的源通過Agent讀取,精簡,做成純文字,也就是當時我認為的無噪音形式,后面發現這直接就是一個舍近求遠。
不同的網頁能夠穩定獲取信息的方式不同,強行通過某個規則進行轉換,非要讓他們都走同一條路,本質上就是一個為難我們自己理解,也為難Agent執行的事。
伯樂Skill華麗登場:github.com/LearnPrompt/ai-news-radar
那接下來我來介紹一下伯樂的看馬三絕招!
伯樂Skill能做什么?
它是從我三個月前開源的ai-news-radar,一個24小時更新的AI熱點網站的項目衍生出來的,敢說24小時更新是因為上線之后就可以不依賴大模型穩定獲取雙語版本和去重,用Gtihub Action可以每30分鐘更新一次。
![]()
learnprompt.github.io/ai-news-radar/
第二版追加了更明確的閱讀分層,
想要開箱即食的可以直接看伯樂Skill生成的網頁,里面除了有信息,信息來源,雙語翻譯,還加了分類,時間軸,原始鏈接和信源健康狀態檢查。
但有些源還是非常特殊的,
穩定的X需要我們接入API Key,一些日報沒有公開歸檔,需要用Agent郵箱訂閱,或者要復用我們的登錄態才能夠獲取。這時候都可以通過伯樂Skill配置。
這次支持的信源類型提升到了九類,默認版本的信息源也到了22個,
![]()
我把我日常訂閱150個左右的信息源的原生網站,在不依賴任何RSS或腳本解析的前提下,交給伯樂去學習判斷,
讓它判斷能穩定獲取信息源的方式是什么,
讓它根據這個方式去做一個7天觀察期,觀察它是否能夠長期獲得穩定的AI信息,
讓它做URL,標題,正文的內容過濾,7天跟現有信息源差異大于65%才會保留,
舉幾個具體例子就很清楚了,
比如最近我收藏了AI HOT,
![]()
aihot點virxact點com
這個站有一個非常好的設計,它不只是給了個可視化網頁,還專門做了Agent接入,里面提供了三條路,Skill,RSS和REST API。
所以Agent要讀取AI HOT,正確的做法就不是打開網頁,在頁面上硬扒文本。
伯樂Skill不需要我明確告訴他這個網頁已經有這三種方式了,它會先從首頁開始讀取這個網站的所有路徑,找到最佳接入點,
![]()
既然已經給了RSS和API,那就優先走結構化,
精選內容走/feed.xml。
全部內容走/feed/all.xml。
日報走/feed/daily.xml。
開發者要更細的篩選,就走/api/public/items或者/api/public/daily,根據我們平時信息閱讀的習慣來調整信息密度。
這就是伯樂看了那么多千里馬學會的第一招。
抓之前,先判斷這個網站自己有沒有更穩定更適合Agent的入口。
再比如Info Flow,
![]()
伯樂Skill會把它歸到聚合源這一層。它不是官方一手源,但可以提供很好的廣度。
處理方式也不應該把整個頁面當成一篇文章讀完,而是識別它頁面里公開的feed列表,再逐個讀取子feed。
這樣如果某個子feed壞了,就跳過,不會讓一個壞源拖垮整條線。
![]()
伯樂Skill輸出的這個可視化網頁ai news rader會保留信息源的時間軸,分區和條數。
這就是伯樂看馬的第二招,
篩選信息源的時候會保留第一手層,
比如OpenAI,Anthropic,Google DeepMind,Google AI Blog。
也會保留能提供穩定的過濾路線的聚合層,
比如TechURLs,Buzzing,Info Flow。
這兩層的角色是不一樣的。
一手源負責信息可信度。
聚合源負責信息廣度。
再比如Follow Builders,
它本身是一個Skill,會追蹤X上的創業者,產品經理和工程師,也會追蹤博客和播客,我們可以讓Agent安裝這個 Skill,來獲取文字版的更新。
![]()
github點com/zarazhangrui/follow-builders
伯樂Skill在收錄的過程中就會判斷,
Follow Builders輸出的是一個JSON文件。所以我們在可視化的時候,可以直接讀取GitHub把這個JSON文件可視化,不需要額外模型額度來運行這個skill。
然后就是,伯樂在這個基礎上優化了我們原有的X API策略。因為它發現從這個信息源調用X API的時候是有很多訣竅的,包括但不限于:
- 1.只看過去24個小時的內容,保留備份去重
- 2.每個賬號最多保留3條新的Tweets
- 3.去掉無效的轉發的以及回復
能有效降低成本,滿額返回125條頂上天了也就是是$0.625/天,5塊不到。
![]()
這就是伯樂看馬的第三招,
選好馬的同時,把別人的養馬技術也學到手。
為什么要寫這個Skill
因為我自己在信息源上踩過太多坑。
第一個階段,我特別執著RSS。
看到一個好博客,訂閱。
看到一個Newsletter不錯,訂閱。
看到一個聚合站每天更新很多,也先加進去。
那時候我的想法就是,只要把所有好東西都塞進RSS里,就不會錯過任何重要信息了。
結果很快就被信息淹沒了。
![]()
真正的問題是,當你把一切都塞進去以后,它就不再是信息系統,它變成了垃圾場。
每天幾千條,幾萬條更新躺在那里,還沒點開就已經開始信息焦慮了。
而且大量內容是重復的。
一個模型發布,官方博客發一遍,聚合站轉一遍,Newsletter講一遍,X上再來十幾個人點評一遍,其實就是在不同地方反復看到同一件事。
第二個階段,兩年前我開始用AI做預處理。
去重,過濾,總結,把鏈接放到后面,只留下文字,讓大家像讀一份干凈日報一樣閱讀。
這個思路也不是錯的。
如果只是瀏覽,它確實舒服。
![]()
老粉應該還記得科技搶鮮看
但我做了半年之后,發現它有一個更要命的缺點。要判斷一個東西值不值得深挖,那你不能只看被AI處理過的文字。
你必須知道它來自哪里。
這條信息是官方發布,還是二手轉述?還是聚合站搬運?是開發者本人寫的博客,還是營銷號轉了第三四遍的版本?
原始來源不是可有可無的鏈接。
它是一條信息的身份證。
第三個階段,我開始做AI News Radar。
也就是一個公開的24小時AI更新雷達。
普通用戶直接打開頁面,不需要任何前置條件,就能看到最近24小時AI,模型,開發者工具和技術生態里發生了什么。但跑了兩個月以后,我又發現一個問題。
固定站點最多只能成為起點,
不能成為所有人的終點。
因為每個人的信息需求不一樣。
有人只想看模型更新,有人只想看開發者工具,有人關心論文和產品發布,有人有自己一套運行了很多年的RSS批量列表。
你給所有人同一個頁面,
TA就一定會想在這個基礎上加一點自己的東西,
再刪掉一點自己不喜歡的東西。
所以第四個階段就來了。
伯樂Skill,
它不是再折騰出一個更大的聚合站,
真正的問題是今天有某個佬開發了自己的所有信息源,明天又有佬A,佬B,大佬 C,你是要選擇全盤接收他們發出來的500個源,還是在這500個源里面挑出合適的方式,根據自己的閱讀習慣,保留適合自己的10個?
這才是伯樂Skill的價值。
怎么用?
如果你只是想看結果,可以直接打開24小時更新的AI News Radar,我會持續迭代我覺得有用的信息。
learnprompt.github.io/ai-news-radar/
如果你想自己改,歡迎fork倉庫。
github.com/LearnPrompt/ai-news-radar
如果你已經有一堆自己的RSS,Newsletter,GitHub項目,X賬號和飛書資料,
最簡單的方法是把下面這句話丟給你的Agent。
安裝伯樂Skill(github.com/LearnPrompt/ai-news-radar),再問我要信息源清單,目標是部署一個不需要服務器,能用GitHub Actions自動更新的AI日報網站。
以前我覺得,
每天看到的信息越多越安全。
真正有安全感的不是信息量,是判斷力。
AI讓獲取信息的成本越來越低。
選擇信息源,保留原始來源,
判斷哪些值得長期追,
這些事情更重要。
千里馬常有,新聞很多,更新很多,熱點很多。
真正缺的是一個能幫你看馬的人。
現在這個伯樂,
我先給大家做出來了。
如果你也被信息源折磨過,
我的建議是先別急著再訂閱一大堆新的,
先讓伯樂看看。
@ 作者 / 卡爾
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論
如果想要第一時間收到推送,不妨給我個星標
如果你有更有趣的玩法,歡迎在評論區聊聊
更多的內容正在不斷填坑中……
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.