By accepting you will be accessing a service provided by a third-party external to https://www.incgmedia.com/
OpenAI 推出 GPT-4o,更即時人性化的互動,從唱歌、說笑話到畫面分析都不是問題
OpenAI 在最新的春季發表會中,發佈最新旗艦模型 GPT-4o,將能夠即時理解並回應所接收的視線畫面與聲音。同時開放更多免費的 ChatGPT 進階工具給使用者。
全新生成式語言模型 GPT-4o,將開放給所有使用者使用
OpenAI 技術長 Mira Murati 在發表會開始,即宣佈推出 GPT-4o(o 代表 omni),它有著與 GPT-4 同樣水平的智慧的生成式語言模型,GPT-4o 也預計在幾週後開放給所有使用者使用。
GPT-4o 將帶來更即時的理解你的聲音、視線畫面以及文字,而且以更自然的人聲來與使用者對話。在 GPT-4o 的 Demo 中,使用者透過手機的相機功能讓 GPT-4o 來瀏覽現場環境後,便立即以推敲的口吻來描繪出使用者身處的場景將用來做些什麼事,或是在畫面中帶到蛋糕、蠟燭,即可以推敲出有人生日了,重點是 GPT-4o 即時快速的反應,以及超自然的語音功能,紮實往更自然的人機互動向前邁出一大步。
就 OpenAI 表示,GPT-4o 對於接收語音資料後,能夠以 232 毫秒(約 0.23 秒)的速度做回應,平均大約為 320 毫秒,這個回應速度幾乎接近於人類做出回應的時間。同時 GPT-4o 在處理英文以及程式語法的速度,也與現階段 GPT-4 Turbo 是同等效率的。
在 GPT-4o 的功能展示中,也展示出其即時理解回應畫面的能力,可以為視障朋友帶來許多幫助,做為語音導覽、辨視等應用,甚至還可以做到即時的客服問題處理,賦予 GPT-4o 更多個性、人性化的表現。
OpenAI 表示,在 GPT-4o 之前,使用者在與 ChatGPT 對話時是透過它們的 Voice Mode,當中會經過三種不同的模型來處理,先將聲音轉換成文字,然後 GPT-3.5 或 GPT-4 來接收文字並匯出文字,最後再用第三組模型將文字轉換成聲音。以往這樣的過程通常會在反應時間上產生延遲,GPT-3.5 大約平均是 2.8 秒延遲,GPT-4 則是 5.4 秒。而 OpenAI 因為將 GPT-4o 以單一全新的語言模型,一條龍的從文字、畫面和聲音做訓練,代表著所有的匯入到匯出都是用同樣神經網路(Neural Network)做處理,因此才能獲得更即時的回應。
全新生成式語言模型 GPT-4o,將開放給所有使用者使用
OpenAI 也宣布,在幾週後將開放更多先進智能的工具,包含在使用 GPT-4o 的時候,免費使用者將能夠使用下列工具:
- 體驗 GPT-4 等級的人工智慧
- 從生成式語言模型和網路瀏覽器兩端獲得回覆
- 分析數據並創建圖表的能力
- 與 ChatGPT 討論你所拍攝的照片
- 上傳文件以獲得摘要、撰寫或分析的協助
- 探索並使用 GPTs 和 GPT Store
- 透過「記憶」來構建在未來更有幫助的體驗
不過免費使用者還是會根據使用情況和需求受到一些限制,免費使用者可以使用 GPT-4o 發送的訊息數量會受到限制。當達到限制時,ChatGPT 會自動切換到 GPT-3.5,以便使用者可以繼續對話。
ChatGPT 發佈 macOS 桌面程式,推出全新介面
macOS 桌面程序將可讓免費或付費使用者使用。它可以無縫地集成到您在電腦上的任何操作中。只需使用簡單的利用鍵盤快捷鍵(Option + Space),即可向 ChatGPT 提問,還可以直接在應用程式中做討論和截圖。同時也可以直接從電腦來與 ChatGPT 進行語音對話(現階段將還是以 ChatGPT 的 Voice Mode 來處理),未來將推出 GPT-4o 新的音訊和視訊功能,無論是要獲取新的靈感,還是為面試準備一個話題,只需點擊桌面應用程序右下角的耳機圖標即可開始語音對話。
ChatGPT 也將推出全新的外觀和感受,提供更友善和更容易對話性,以及全新的登入介面和佈局規劃。
文章授權聲明
-
映CG 編輯整理
-
文章為映CG所有,如需轉載請標明出處