Jim Fan銳評(píng):GPT-4o低延遲的奧秘在這里
激石Pepperstone(http://qintiejiang.com/)報(bào)道:
14日凌晨,OpenAI召開了一個(gè)簡(jiǎn)短的發(fā)布會(huì),發(fā)布了新的AI模型:GPT-4o,除了可以給普通用戶使用之外,還將開放相應(yīng)API給GPT的開發(fā)者,比原來(lái)的GPT 4-Turbo快2倍,價(jià)格還便宜50%,妥妥的“加量又減價(jià)”。
英偉達(dá)高級(jí)研究科學(xué)家Jim Fan對(duì)此發(fā)了篇長(zhǎng)推文,點(diǎn)評(píng)OpenAI的這款新模型:低延遲,支持文字、圖像和視頻輸入和輸出,而且還會(huì)假裝自己是有情感的人類...
原文如下:
我知道你的時(shí)間線上現(xiàn)在充斥著“瘋狂的,電影《Her》,你錯(cuò)過(guò)的10個(gè)功能,我們又回來(lái)了”這樣的文字。 坐下來(lái),像Mark在演示中那樣深呼吸,讓我們一步步思考:
從技術(shù)角度來(lái)看,OpenAI已經(jīng)找到了一種方法,可以直接將音頻映射到音頻作為第一類模態(tài),并實(shí)時(shí)將視頻流傳輸?shù)絫ransformer大模型。這需要對(duì)標(biāo)記化和架構(gòu)進(jìn)行一些新的研究,但總體上是一個(gè)數(shù)據(jù)和系統(tǒng)優(yōu)化問(wèn)題。
高質(zhì)量的數(shù)據(jù)至少可以來(lái)自以下兩個(gè)來(lái)源:
首先是YouTube、播客、電視劇、電影等內(nèi)容包含的對(duì)話。
可以訓(xùn)練Whisper來(lái)識(shí)別對(duì)話中的發(fā)言者順序或分離重疊的講話以進(jìn)行自動(dòng)注釋。
其次是合成數(shù)據(jù)。使用強(qiáng)大的模型分3階段運(yùn)行:
語(yǔ)音1->文本1(自動(dòng)語(yǔ)音識(shí)別ASR)
文本1->文本2(大型語(yǔ)言模型LLM)
文本2->語(yǔ)音2(文本到語(yǔ)音TTS)。
期間大型語(yǔ)言模型LLM可以決定何時(shí)停止,也可以模擬如何從中斷中恢復(fù)。它可以輸出對(duì)話中暗含“想法”,以幫助生成更好的回復(fù)。
然后GPT-4o直接從語(yǔ)音1>語(yǔ)音2過(guò)程中進(jìn)行提取,可選的輔助損失函數(shù)基于3階段數(shù)據(jù)。提取后,所有操作都被被嵌入到模型中,而不需要發(fā)出中間文本。
在系統(tǒng)方面:如果每個(gè)視頻幀都解壓成RGB圖像,就能實(shí)現(xiàn)低延遲。OpenAI可能已經(jīng)開發(fā)了基于神經(jīng)網(wǎng)絡(luò)的流式視頻編解碼器,以token形式傳輸運(yùn)動(dòng)增量。通信協(xié)議和神經(jīng)網(wǎng)絡(luò)推理必須共同優(yōu)化。
例如,可以在終端設(shè)備上運(yùn)行一個(gè)小型且節(jié)能的神經(jīng)網(wǎng)絡(luò),如果視頻有趣就傳輸更多token,否則傳輸較少。
我沒(méi)想到GPT-4o會(huì)離GPT-5更近,GPT-5是傳聞中的“Arrakis”模型,可以輸入和輸出多模態(tài)。實(shí)際上,它很可能是GPT-5的一個(gè)早期訓(xùn)練點(diǎn),但還沒(méi)有完成訓(xùn)練。
GPT-4o的定位透露出OpenAI某種不安全感。在Google I/O之前,OpenAI寧愿超越我們對(duì)GPT-4.5的心理預(yù)期,也不愿因?yàn)檫_(dá)不到對(duì)GPT-5的極高期望而令人失望。這是一個(gè)聰明的舉措,可以爭(zhēng)取更多時(shí)間。
值得注意的是,GPT-4o更加活潑,甚至有點(diǎn)調(diào)皮。GPT-4o甚至嘗試(也許有點(diǎn)過(guò)于努力)聽起來(lái)像女性。OpenAI正在蠶食Character AI的市場(chǎng)份額,這兩家的產(chǎn)品高度重疊,并且OpenAI擁有龐大的分銷渠道。GPT-4o正嘗試向更具情感的AI轉(zhuǎn)變,OpenAI過(guò)去似乎積極抑制了這一點(diǎn)。
誰(shuí)先贏得蘋果,誰(shuí)就能大獲全勝。我看到與iOS的整合有三個(gè)層次:
1)放棄Siri。OpenAI為iOS提取一個(gè)較小級(jí)別的、純粹的設(shè)備上的GPT-4o,可選的付費(fèi)升級(jí)以使用云服務(wù)。
?2)將相機(jī)或屏幕流式傳輸?shù)侥P?,芯片?jí)支持神經(jīng)音頻/視頻編解碼器。
?3)與iOS系統(tǒng)級(jí)操作API和智能家居API整合。沒(méi)有人使用Siri快捷方式,但現(xiàn)在是時(shí)候復(fù)活了。這可以立即成為擁有10億用戶的AI代理產(chǎn)品。智能手機(jī)的全自動(dòng)駕駛(FSD)與特斯拉規(guī)模的數(shù)據(jù)飛輪。?????????
掃描二維碼推送至手機(jī)訪問(wèn)。
版權(quán)聲明:本文由激石Pepperstone發(fā)布,如需轉(zhuǎn)載請(qǐng)注明出處。