第二章 大家說(shuō)的大模型,其實(shí)到底是個(gè)什么東西?
蘇格拉底之問(wèn):解剖大模型本質(zhì)
無(wú)知客:我發(fā)現(xiàn)一個(gè)問(wèn)題。
不管是新聞、公司介紹,還是技術(shù)文章,大家都在說(shuō)三個(gè)字:大模型。
但奇怪的是,說(shuō)得越多,我越不知道它到底是什么。
它是軟件?
是程序?
是某種 AI 大腦?
還是一臺(tái)服務(wù)器?
蘇格拉底:在你問(wèn)“它是什么”之前,我們先問(wèn)一個(gè)更基礎(chǔ)的問(wèn)題。
你覺(jué)得——“大模型”這個(gè)名字,是在描述它的本質(zhì),還是在描述它的規(guī)模?
無(wú)知客:聽(tīng)起來(lái)像規(guī)模。
蘇格拉底:很好。
那我們先記住一件事:“大模型”這個(gè)詞,本身幾乎什么都沒(méi)說(shuō)清楚。
蘇格拉底:我問(wèn)你一個(gè)簡(jiǎn)單的問(wèn)題。
如果有人跟你說(shuō):“我們公司有一個(gè)超級(jí)大的 Excel 表?!?br>
你會(huì)覺(jué)得它在干什么?
無(wú)知客:數(shù)據(jù)很多?
蘇格拉底:對(duì)。
但你會(huì)不會(huì)因此覺(jué)得:這個(gè) Excel 表“更聰明”?
無(wú)知客:當(dāng)然不會(huì)。
蘇格拉底:那我們換個(gè)名字:“超級(jí)智能數(shù)據(jù)系統(tǒng)”。
感覺(jué)是不是立刻不一樣了?
無(wú)知客:……是有一點(diǎn)。
蘇格拉底:“大模型”就處在這兩者之間。
它聽(tīng)起來(lái)既像“數(shù)據(jù)”,又像“智能”。
于是我們很容易在腦子里,自動(dòng)補(bǔ)完一個(gè)不存在的形象:一個(gè)正在思考的東西。
無(wú)知客:那我換個(gè)問(wèn)法。
大模型是不是一個(gè)很復(fù)雜的程序?
蘇格拉底:不是。
至少,不是你理解的那種程序。
你寫(xiě)過(guò) if-else 嗎?
無(wú)知客:寫(xiě)過(guò)。
蘇格拉底:那程序是怎么工作的?
無(wú)知客:人先寫(xiě)好規(guī)則,滿(mǎn)足條件 A,就執(zhí)行結(jié)果 *。
蘇格拉底:很好。
那我現(xiàn)在告訴你一個(gè)非常重要、但很反首覺(jué)的事實(shí):大模型里面,沒(méi)有人類(lèi)寫(xiě)好的“回答規(guī)則”。
沒(méi)有一行代碼寫(xiě)著:“如果用戶(hù)問(wèn)人生意義,就這樣回答如果用戶(hù)情緒低落,就那樣安慰”無(wú)知客:那它怎么知道該說(shuō)什么?
蘇格拉底:等一下。
在回答之前,我們先確認(rèn)一件事:大模型不是“被寫(xiě)出來(lái)的”,而是“被訓(xùn)練出來(lái)的”。
這兩個(gè)詞,差別非常大。
蘇格拉底:你有沒(méi)有養(yǎng)過(guò)狗?
無(wú)知客:有。
蘇格拉底:那你有沒(méi)有在狗的大腦里,寫(xiě)過(guò)這樣一條規(guī)則?
“如果看到主人回家,就搖尾巴。”
無(wú)知客:當(dāng)然沒(méi)有。
蘇格拉底:但它最后還是學(xué)會(huì)了。
因?yàn)槟阕隽艘患拢褐貜?fù)反饋長(zhǎng)時(shí)間大模型更接近哪一種?
程序,還是狗?
無(wú)知客:……聽(tīng)你這么說(shuō),好像更像后者。
蘇格拉底:對(duì)。
你可以把大模型理解成:一個(gè)被喂了海量文字,在反復(fù)試錯(cuò)中“長(zhǎng)出來(lái)”的系統(tǒng)。
它不是被教“意義”,而是被逼著:在任何情況下,都把話(huà)接下去。
無(wú)知客:那“模型”這個(gè)詞呢?
為什么不首接叫“超大文本系統(tǒng)”?
蘇格拉底:因?yàn)椤澳P汀边@個(gè)詞,其實(shí)非常誠(chéng)實(shí)。
我問(wèn)你:地圖是城市嗎?
無(wú)知客:當(dāng)然不是。
蘇格拉底:但地圖能不能在某些方面代表城市?
無(wú)知客:可以。
蘇格拉底:那你記住這個(gè)比喻:模型 ≈ 世界的一個(gè)壓縮版、近似版、可用版。
語(yǔ)言模型不是語(yǔ)言本身,不是知識(shí)本身,甚至不是思想本身。
它只是:“在統(tǒng)計(jì)意義上,學(xué)會(huì)了語(yǔ)言是怎么出現(xiàn)的。”
無(wú)知客:那“大模型”的“大”,到底大在哪?
蘇格拉底:我給你三個(gè)不浪漫的答案:見(jiàn)過(guò)的文本多內(nèi)部參數(shù)多訓(xùn)練花的錢(qián)多沒(méi)有一個(gè)是“更懂人生”。
無(wú)知客:可它確實(shí)回答得更好。
蘇格拉底:因?yàn)楫?dāng)一個(gè)系統(tǒng):看過(guò)足夠多的例子記住足夠多的模式能在極細(xì)微的地方做區(qū)分它就會(huì)越來(lái)越像“懂了”。
但注意這個(gè)措辭:像,不等于 是。
蘇格拉底:現(xiàn)在我說(shuō)一句話(huà),你可以不同意,但必須記住。
大模型不是一個(gè)“知道很多東西的存在”,而是一個(gè)“非常擅長(zhǎng)繼續(xù)說(shuō)下去的系統(tǒng)”。
它存在的唯一目標(biāo),從訓(xùn)練開(kāi)始就只有一個(gè):“下一句話(huà),最可能是什么?”
不是最真實(shí)的,不是最有意義的,也不是最負(fù)責(zé)任的。
只是:最像人類(lèi)會(huì)寫(xiě)出來(lái)的。
無(wú)知客:如果你說(shuō)的是真的,那事情好像有點(diǎn)不妙。
蘇格拉底:是的。
因?yàn)檫@意味著一件事:你之所以覺(jué)得它“懂你”,可能不是因?yàn)樗斫饬四?,而是因?yàn)椋喝祟?lèi),本來(lái)就太容易被“像自己”的東西說(shuō)服。
所以,在你繼續(xù)往下讀之前,我只希望你帶走一個(gè)問(wèn)題:如果一個(gè)系統(tǒng)的目標(biāo)從來(lái)不是“理解”,那它是怎么做到“看起來(lái)理解”的?
不管是新聞、公司介紹,還是技術(shù)文章,大家都在說(shuō)三個(gè)字:大模型。
但奇怪的是,說(shuō)得越多,我越不知道它到底是什么。
它是軟件?
是程序?
是某種 AI 大腦?
還是一臺(tái)服務(wù)器?
蘇格拉底:在你問(wèn)“它是什么”之前,我們先問(wèn)一個(gè)更基礎(chǔ)的問(wèn)題。
你覺(jué)得——“大模型”這個(gè)名字,是在描述它的本質(zhì),還是在描述它的規(guī)模?
無(wú)知客:聽(tīng)起來(lái)像規(guī)模。
蘇格拉底:很好。
那我們先記住一件事:“大模型”這個(gè)詞,本身幾乎什么都沒(méi)說(shuō)清楚。
蘇格拉底:我問(wèn)你一個(gè)簡(jiǎn)單的問(wèn)題。
如果有人跟你說(shuō):“我們公司有一個(gè)超級(jí)大的 Excel 表?!?br>
你會(huì)覺(jué)得它在干什么?
無(wú)知客:數(shù)據(jù)很多?
蘇格拉底:對(duì)。
但你會(huì)不會(huì)因此覺(jué)得:這個(gè) Excel 表“更聰明”?
無(wú)知客:當(dāng)然不會(huì)。
蘇格拉底:那我們換個(gè)名字:“超級(jí)智能數(shù)據(jù)系統(tǒng)”。
感覺(jué)是不是立刻不一樣了?
無(wú)知客:……是有一點(diǎn)。
蘇格拉底:“大模型”就處在這兩者之間。
它聽(tīng)起來(lái)既像“數(shù)據(jù)”,又像“智能”。
于是我們很容易在腦子里,自動(dòng)補(bǔ)完一個(gè)不存在的形象:一個(gè)正在思考的東西。
無(wú)知客:那我換個(gè)問(wèn)法。
大模型是不是一個(gè)很復(fù)雜的程序?
蘇格拉底:不是。
至少,不是你理解的那種程序。
你寫(xiě)過(guò) if-else 嗎?
無(wú)知客:寫(xiě)過(guò)。
蘇格拉底:那程序是怎么工作的?
無(wú)知客:人先寫(xiě)好規(guī)則,滿(mǎn)足條件 A,就執(zhí)行結(jié)果 *。
蘇格拉底:很好。
那我現(xiàn)在告訴你一個(gè)非常重要、但很反首覺(jué)的事實(shí):大模型里面,沒(méi)有人類(lèi)寫(xiě)好的“回答規(guī)則”。
沒(méi)有一行代碼寫(xiě)著:“如果用戶(hù)問(wèn)人生意義,就這樣回答如果用戶(hù)情緒低落,就那樣安慰”無(wú)知客:那它怎么知道該說(shuō)什么?
蘇格拉底:等一下。
在回答之前,我們先確認(rèn)一件事:大模型不是“被寫(xiě)出來(lái)的”,而是“被訓(xùn)練出來(lái)的”。
這兩個(gè)詞,差別非常大。
蘇格拉底:你有沒(méi)有養(yǎng)過(guò)狗?
無(wú)知客:有。
蘇格拉底:那你有沒(méi)有在狗的大腦里,寫(xiě)過(guò)這樣一條規(guī)則?
“如果看到主人回家,就搖尾巴。”
無(wú)知客:當(dāng)然沒(méi)有。
蘇格拉底:但它最后還是學(xué)會(huì)了。
因?yàn)槟阕隽艘患拢褐貜?fù)反饋長(zhǎng)時(shí)間大模型更接近哪一種?
程序,還是狗?
無(wú)知客:……聽(tīng)你這么說(shuō),好像更像后者。
蘇格拉底:對(duì)。
你可以把大模型理解成:一個(gè)被喂了海量文字,在反復(fù)試錯(cuò)中“長(zhǎng)出來(lái)”的系統(tǒng)。
它不是被教“意義”,而是被逼著:在任何情況下,都把話(huà)接下去。
無(wú)知客:那“模型”這個(gè)詞呢?
為什么不首接叫“超大文本系統(tǒng)”?
蘇格拉底:因?yàn)椤澳P汀边@個(gè)詞,其實(shí)非常誠(chéng)實(shí)。
我問(wèn)你:地圖是城市嗎?
無(wú)知客:當(dāng)然不是。
蘇格拉底:但地圖能不能在某些方面代表城市?
無(wú)知客:可以。
蘇格拉底:那你記住這個(gè)比喻:模型 ≈ 世界的一個(gè)壓縮版、近似版、可用版。
語(yǔ)言模型不是語(yǔ)言本身,不是知識(shí)本身,甚至不是思想本身。
它只是:“在統(tǒng)計(jì)意義上,學(xué)會(huì)了語(yǔ)言是怎么出現(xiàn)的。”
無(wú)知客:那“大模型”的“大”,到底大在哪?
蘇格拉底:我給你三個(gè)不浪漫的答案:見(jiàn)過(guò)的文本多內(nèi)部參數(shù)多訓(xùn)練花的錢(qián)多沒(méi)有一個(gè)是“更懂人生”。
無(wú)知客:可它確實(shí)回答得更好。
蘇格拉底:因?yàn)楫?dāng)一個(gè)系統(tǒng):看過(guò)足夠多的例子記住足夠多的模式能在極細(xì)微的地方做區(qū)分它就會(huì)越來(lái)越像“懂了”。
但注意這個(gè)措辭:像,不等于 是。
蘇格拉底:現(xiàn)在我說(shuō)一句話(huà),你可以不同意,但必須記住。
大模型不是一個(gè)“知道很多東西的存在”,而是一個(gè)“非常擅長(zhǎng)繼續(xù)說(shuō)下去的系統(tǒng)”。
它存在的唯一目標(biāo),從訓(xùn)練開(kāi)始就只有一個(gè):“下一句話(huà),最可能是什么?”
不是最真實(shí)的,不是最有意義的,也不是最負(fù)責(zé)任的。
只是:最像人類(lèi)會(huì)寫(xiě)出來(lái)的。
無(wú)知客:如果你說(shuō)的是真的,那事情好像有點(diǎn)不妙。
蘇格拉底:是的。
因?yàn)檫@意味著一件事:你之所以覺(jué)得它“懂你”,可能不是因?yàn)樗斫饬四?,而是因?yàn)椋喝祟?lèi),本來(lái)就太容易被“像自己”的東西說(shuō)服。
所以,在你繼續(xù)往下讀之前,我只希望你帶走一個(gè)問(wèn)題:如果一個(gè)系統(tǒng)的目標(biāo)從來(lái)不是“理解”,那它是怎么做到“看起來(lái)理解”的?