ChatGPT大更新,能看能聽也能說,多模態(tài)功能即將上線
作者:綜合 來源:綜合 瀏覽: 【大 中 小】 發(fā)布時(shí)間:2025-11-23 22:24:34 評(píng)論數(shù):
OpenAI在其官網(wǎng)宣布,看能聽目前正在推出ChatGPT的說多上線合肥約炮(約上門服務(wù))外圍女接待電崴信159-8298-6630提供外圍女小姐上門服務(wù)快速安排面到付款新版本,除了通過常見的模態(tài)文本框交互外,現(xiàn)在它正在學(xué)會(huì)以新的更新功方式理解人類的問題,比如通過大聲說話或者上傳一張圖片??茨苈?/p>
·隨著越來越多的說多上線人使用語音控制和圖像搜索,并且ChatGPT越來越接近成為一個(gè)真正多模式、模態(tài)有用的更新功虛擬助手,維持住安全護(hù)欄會(huì)變得越來越困難。看能聽
OpenAI在其官網(wǎng)宣布,說多上線ChatGPT現(xiàn)在可以“看”、模態(tài)“聽”和“說”了。更新功
自誕生以來,看能聽合肥約炮(約上門服務(wù))外圍女接待電崴信159-8298-6630提供外圍女小姐上門服務(wù)快速安排面到付款ChatGPT的說多上線大部分更新主要在于,這個(gè)基于AI的機(jī)器人可以做什么、可以回答哪些問題、可以訪問哪些信息,以及如何改進(jìn)其基礎(chǔ)模型等方面。這一次,OpenAI正在調(diào)整使用ChatGPT的方式。
北京時(shí)間9月25日晚,OpenAI在其官網(wǎng)宣布,目前正在推出ChatGPT的新版本,除了通過常見的文本框交互外,現(xiàn)在它正在學(xué)會(huì)以新的方式理解人類的問題,比如通過大聲說話或者上傳圖片。
具體而言,在語音方面:第一,允許用戶進(jìn)行語音對(duì)話,提供更直觀的交互方式;第二,支持在iOS和Android移動(dòng)應(yīng)用上使用;第三,提供5種不同的語音選擇;第四,通過新型文本轉(zhuǎn)語音模型和語音識(shí)別系統(tǒng)實(shí)現(xiàn)。
這應(yīng)該感覺就像與蘋果的Siri交談一樣,只是OpenAI希望,通過改進(jìn)基礎(chǔ)技術(shù)使其說出更好的答案。目前,大多數(shù)虛擬助手,如亞馬遜的Alexa,都在以大語言模型(LLM)為基礎(chǔ)進(jìn)行改進(jìn)。
據(jù)OpenAI介紹,新的語音功能由一個(gè)新的文本到語音模型提供支持,該模型能夠從文本和幾秒鐘的語音樣本生成“類似人類的音頻”。OpenAI似乎還認(rèn)為該模型的潛力不止于此,其正在與流媒體音樂服務(wù)平臺(tái)Spotify合作,將播客翻譯成其他語言,同時(shí)保持播音者的聲音。合成語音有許多有趣的用途,而OpenAI可能會(huì)成為該行業(yè)的重要組成部分。
然而,只需幾秒鐘的音頻就能構(gòu)建出功能強(qiáng)大的合成音色,這也為各種問題性用例敞開了大門。“這些功能還帶來了新的風(fēng)險(xiǎn),比如惡意行為者冒充公眾人物或?qū)嵤┢墼p的可能性”,OpenAI在其宣布新功能的博文中寫道。OpenAI表示,出于這個(gè)原因,該模型不會(huì)廣泛被使用,而更多受到特定用例和合作伙伴的限制。
在圖像方面,第一,允許用戶上傳圖像與ChatGPT進(jìn)行交互;第二,支持多張圖像;第三,提供移動(dòng)應(yīng)用上的繪圖工具;第四,使用多模態(tài)GPT模型(Generative Pre-Trained Transformer,生成式預(yù)訓(xùn)練Transformer模型)理解圖像;第五,在接下來的兩周內(nèi)首先面向Plus(付費(fèi)訂閱用戶)和企業(yè)用戶推出;第六,語音和圖像功能的推出采取漸進(jìn)策略,以確保安全性;第七,要注意模型局限性,避免高風(fēng)險(xiǎn)場(chǎng)景下對(duì)其依賴。
圖像搜索有點(diǎn)類似于Google Lens的功能,用戶拍攝自己感興趣的任何東西的照片,ChatGPT去嘗試了解用戶在詢問什么,并做出相應(yīng)的回應(yīng)。用戶還可以使用應(yīng)用程序的繪圖工具幫助明晰自己的訴求,或配合圖像進(jìn)行說話或?qū)懭雴栴}。
這是ChatGPT希望實(shí)現(xiàn)的一個(gè)互動(dòng)特性:與其進(jìn)行一次搜索得到錯(cuò)誤答案,然后再重新進(jìn)行一次搜索,不如在進(jìn)行的過程中提示AI機(jī)器人完善答案。
不過,顯然圖像搜索也有其潛在問題。比如,如果用戶詢問的是關(guān)于一個(gè)人的情況,ChatGPT該如何反應(yīng)?OpenAI表示,他們故意限制了ChatGPT“分析和直接陳述關(guān)于人的能力”,這既是為了準(zhǔn)確性,也是為了隱私原因。這意味著對(duì)于AI的一個(gè)極具科幻色彩的想象——看著某人然后問AI“那是誰”,并不會(huì)很快實(shí)現(xiàn)。
在ChatGPT首次推出將近一年后,OpenAI似乎仍在尋找,如何為其AI機(jī)器人增加更多功能和能力而不會(huì)產(chǎn)生新的問題和缺點(diǎn)。OpenAI也試圖通過有意限制其新模型的功能,來維持“更進(jìn)一步”和“降低風(fēng)險(xiǎn)”這兩者之間的平衡。但這種方法可能不會(huì)永遠(yuǎn)奏效。隨著越來越多的人使用語音控制和圖像搜索,并且ChatGPT越來越接近成為一個(gè)真正多模式、有用的虛擬助手,維持住這個(gè)護(hù)欄會(huì)變得越來越困難。
分享免責(zé)聲明:家電資訊網(wǎng)站對(duì)《ChatGPT大更新,能看能聽也能說,多模態(tài)功能即將上線》一文中所陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。
本網(wǎng)站有部分內(nèi)容均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),本網(wǎng)站無法鑒別所上傳圖片或文字的知識(shí)版權(quán),本站所轉(zhuǎn)載圖片、文字不涉及任何商業(yè)性質(zhì),如果侵犯,請(qǐng)及時(shí)通知我們,本網(wǎng)站將在第一時(shí)間及時(shí)刪除,不承擔(dān)任何侵權(quán)責(zé)任。聯(lián)系QQ:411954607
本網(wǎng)認(rèn)為,一切網(wǎng)民在進(jìn)入家電資訊網(wǎng)站主頁及各層頁面時(shí)已經(jīng)仔細(xì)看過本條款并完全同意。敬請(qǐng)諒解。
