OpenAI의 LaunchRelease - GPT-4o: 사용 사례, 작동 방식 및 액세스 방법

OpenAI는 월요일 최신 대규모 언어 모델인 GPT-4o를 공개하며 이전 모델인 GPT-4 Turbo보다 ​​더욱 발전된 모습을 보여주었습니다. 다음 섹션에서 GPT-XNUMXo의 기능, 효율성, 그리고 잠재적인 활용 분야에 대해 살펴보겠습니다.

OpenAI의 GPT-4o는 무엇인가요?

GPT-4o는 OpenAI의 최신 대규모 언어 모델을 나타냅니다. 이름의 'o'는 라틴어로 "모든"을 의미하는 "옴니(omni)"를 의미하며, 텍스트, 오디오, 이미지, 비디오가 혼합된 프롬프트를 처리할 수 있음을 나타냅니다. 과거에는 ChatGPT 인터페이스 내에서 다양한 콘텐츠 유형에 대해 서로 다른 모델이 사용되었습니다.

예를 들어, ChatGPT와 음성 모드로 상호 작용하는 경우 음성은 Whisper를 사용하여 텍스트로 변환되고, 텍스트 응답은 GPT-4 Turbo를 사용하여 공식화되고, 응답 텍스트는 TTS를 사용하여 다시 음성으로 변환됩니다.

마찬가지로, ChatGPT 상호작용에 이미지를 통합하려면 GPT-4 Turbo와 DALL-E 3를 함께 사용해야 합니다. 이러한 기능을 다양한 콘텐츠 형식에 맞는 단일 모델로 통합하면 처리 속도가 빨라지고, 결과 품질이 향상되고, 인터페이스가 간소화되고, 새로운 사용 사례가 모색될 가능성이 있습니다.

GPT-4o는 GPT-4 Turbo와 무엇이 다릅니까?

GPT-4o는 올인원 모델 전략을 채택함으로써 기존 음성 상호작용 기능과 관련된 다양한 제약을 극복했습니다.

1. 음성 톤이 고려되어 감정적 반응이 용이해집니다.

Whisper, GPT-4 Turbo, TTS를 순차적으로 결합하는 이전 OpenAI 시스템에서는 추론 엔진인 GPT-4가 전사된 음성 언어에만 접근할 수 있었습니다. 이러한 접근 방식은 음성 톤, 배경 소음, 여러 화자 간의 차이점과 같은 중요한 요소들을 배제하는 결과를 가져왔습니다. 결과적으로 GPT-4 Turbo는 다양한 감정이나 발화 스타일을 가진 응답을 생성하는 데 한계가 있었습니다.

그러나 텍스트와 오디오를 모두 처리할 수 있는 통합 모델을 통해 이 귀중한 오디오 정보를 활용하여 더 다양한 말하기 스타일을 특징으로 하는 더 높은 품질의 응답을 제공할 수 있게 되었습니다.

아래에서 비디오 OpenAI가 제공하는 GPT-4o는 냉소적인 출력을 생성하는 능력을 보여줍니다.

2. 낮은 지연 시간으로 실시간 대화가 가능

이전의 3가지 모델 파이프라인은 ChatGPT와 상호 작용하고 응답을 받는 사이에 사소한 지연 또는 "대기 시간"이 발생했습니다.

OpenAI는 음성 모드의 평균 지연 시간이 GPT-2.8에서 3.5초, GPT-5.4에서 4초라고 밝혔습니다. 반면, GPT-4o의 평균 지연 시간은 0.32초로, GPT-3.5보다 17배, GPT-4보다 XNUMX배 빠릅니다.

이렇게 단축된 지연 시간은 평균 인간의 반응 시간인 0.21초에 근접하며, 특히 인간과 AI 사이에 빈번한 상호 작용이 일어나고 반응 간 지연이 누적되는 대화 상황에서 매우 중요합니다.

이 기능은 2010년 Google이 검색어 자동완성 기능인 Instant를 출시했을 때를 떠올리게 합니다. 일반적으로 검색하는 데는 많은 시간이 걸리지 않지만, 사용할 때마다 몇 초씩 절약하면 전반적인 제품 경험이 향상됩니다.

GPT-4o의 지연 시간 단축으로 더욱 실현 가능해진 유망한 활용 사례 중 하나는 실시간 음성 번역입니다. OpenAI는 영어와 스페인어를 구사하는 두 동료가 GPT-4o를 통해 대화 내용을 즉시 번역하는 시나리오를 보여주었습니다.

https://youtu.be/WzUnEfiIqP4?si=dnnqaNxT4ncX7cfJ

3. 통합 비전을 통해 카메라 피드에 대한 설명이 가능해집니다.

GPT-4o는 음성 및 텍스트 기능 외에도 이미지 및 비디오 기능도 통합했습니다. 즉, 컴퓨터 화면에 접근 권한이 부여되면 화면 콘텐츠에 대한 설명을 제공하고, 표시된 이미지와 관련된 질문에 답변하거나, 심지어 작업 지원 도우미 역할도 할 수 있습니다.

OpenAI가 공개한 Khan Academy의 Sal Khan이 출연한 영상에서 GPT-4o는 Sal 아들의 수학 숙제를 도와줍니다.

https://youtu.be/_nSmkyDNulk?si=sFvBOgk9hznhqf4f

화면 상호 작용을 넘어, GPT-4o에 스마트폰 등의 카메라에 대한 접근 권한을 부여하면 주변 환경에 대한 설명을 제공할 수 있습니다.

OpenAI의 포괄적인 시연에서 이러한 모든 기능이 결합되었습니다. GPT-4o가 장착된 두 대의 스마트폰이 대화를 나눕니다. 한 GPT는 스마트폰 카메라에 접근하여 시각 기능이 없는 다른 GPT에게 시각적 관찰 결과를 설명합니다.

그 결과, 인간 한 명과 AI 두 대가 참여하는 삼자 대화가 탄생했습니다. 영상에는 AI가 노래하는 장면도 포함되어 있는데, 이는 이전 모델에서는 불가능했던 기능입니다.

https://youtu.be/MirzFk_DSiI?si=Dv7HoVcNliXD3lJg

4. 로마자가 아닌 알파벳에 대한 더 나은 토큰화는 더 빠른 속도와 비용 대비 가치를 제공합니다.

대규모 언어 모델의 워크플로에서 중요한 단계(LLMs)는 프롬프트 텍스트를 모델이 이해할 수 있는 텍스트 단위인 토큰으로 변환하는 것을 포함합니다.

영어에서 토큰은 일반적으로 하나의 단어나 구두점을 의미하지만, 일부 단어는 여러 개의 토큰으로 나뉘기도 합니다. 평균적으로 약 세 개의 영어 단어는 약 네 개의 토큰으로 표현됩니다.

모델에서 언어를 표현하는 데 필요한 토큰 수를 줄이면 계산량이 줄어들고 텍스트 생성 속도가 빨라집니다.

게다가 OpenAI는 API 사용자에게 입력 또는 출력된 토큰 수에 따라 요금을 청구하므로, 토큰이 적을수록 API 사용자의 비용이 낮아집니다.

GPT-4o는 텍스트당 필요한 토큰 수를 줄이는 향상된 토큰화 모델을 특징으로 합니다. 이러한 개선은 특히 로마자를 사용하지 않는 언어에서 두드러집니다.

예를 들어, 힌디어, 마라티어, 타밀어, 텔루구어, 구자라트어를 포함한 인도어는 토큰이 2.9배에서 4.4배까지 감소했습니다. 아랍어는 토큰이 2배 감소했고, 중국어, 일본어, 한국어, 베트남어와 같은 동아시아 언어는 토큰이 1.4배에서 1.7배까지 감소했습니다.

5. 무료 플랜으로 롤아웃

ChatGPT에 대한 OpenAI의 현재 가격 구조는 사용자가 최상위 모델에 액세스하려면 비용을 지불해야 합니다. GPT-4 Turbo는 Plus 및 Enterprise 유료 플랜에서만 독점적으로 제공되었습니다.

하지만 OpenAI가 무료 요금제에도 GPT-4o를 제공하겠다고 약속하면서 이러한 상황은 변화하고 있습니다. 또한, 사용자는 무료 요금제 사용자보다 XNUMX배 더 많은 메시지 할당량을 받게 됩니다.

배포는 점진적으로 진행되며, 먼저 레드팀 구성원(모델 취약점을 식별하는 임무를 맡은 테스터)이 즉시 액세스 권한을 얻고, 그 후 시간이 지남에 따라 더 광범위한 사용자 액세스가 단계적으로 제공됩니다.

6. ChatGPT 데스크톱 앱 출시

GPT-4o와 특별히 연계된 것은 아니지만, OpenAI는 ChatGPT 데스크톱 애플리케이션도 출시했습니다. 앞서 언급한 지연 시간과 다중 모달리티 기능의 개선과 앱 출시를 고려하면 ChatGPT와의 상호작용 역학이 혁신을 맞이할 준비가 되어 있음을 분명히 알 수 있습니다. 예를 들어, OpenAI는 음성 및 ChatGPT 데스크톱 앱을 활용한 증강 코딩 워크플로우 시연을 선보였습니다. 사용 사례 섹션에서 아래로 스크롤하여 이 예시가 어떻게 작동하는지 확인해 보세요!

GPT-4o는 어떻게 작동하나요?

다양한 콘텐츠 유형, 하나의 신경망

GPT-4o의 작동 방식에 대한 자세한 내용은 아직 제한적입니다. OpenAI가 발표에서 밝힌 유일한 정보는 GPT-4o가 텍스트, 시각, 오디오 입력을 학습한 통합 신경망이라는 것입니다.

이 새로운 접근 방식은 서로 다른 데이터 유형에 대해 학습된 별도의 모델을 사용하는 기존 방식과 다릅니다.

그러나 GPT-4o는 멀티모달 접근 방식을 도입한 최초의 모델은 아닙니다. 2022년 TenCent Lab은 SkillNet을 도입했습니다. LLM 컴퓨터 비전 기술을 접목한 변형 기능을 통해 중국어 문자 인식을 강화합니다.

마찬가지로, 2023년에는 취리히 연방공과대학교(ETH Zurich), MIT, 스탠퍼드 대학교의 협력으로 BERT 계열의 대규모 언어 모델 중 하나인 WhisBERT가 탄생했습니다. GPT-4o는 선구적인 모델은 아니지만, 이전 연구들과 비교했을 때 놀라운 야심과 잠재력을 자랑합니다.

GPT-4o는 GPT-4 Turbo와 크게 달라졌나요?

GPT-4o 아키텍처의 수정 범위는 GPT-4 Turbo와 비교했을 때 OpenAI의 엔지니어링 팀과 마케팅 팀 중 어느 팀에 문의하느냐에 따라 해석의 여지가 있는 것으로 보입니다. 2월에는 "im-also-a-good-gpt4-chatbot"이라는 이름의 봇이 LMSYS의 Chatbot Arena(최고의 생성 AI 순위표)에 등장했습니다. 이 수수께끼 같은 AI는 이제 GPT-XNUMXo라는 이름으로 공개되었습니다.

이름에 "gpt2"가 포함된 것은 중요한 의미를 지닙니다. 이는 GPT-4o를 GPT-2와 GPT-3.5의 전신인 GPT-4와 구별하기 때문입니다. 접미사 "2"는 GPT 시리즈 모델 내에서 완전히 새로운 아키텍처를 의미하는 것으로 널리 해석되었습니다.

OpenAI의 연구팀이나 엔지니어링 팀 구성원들은 텍스트, 시각, 오디오 콘텐츠 유형을 단일 모델로 통합하는 것을 6년 만에 첫 버전 번호를 인상할 만큼 충분히 중요한 변화로 인식하는 듯합니다.

반면, 마케팅팀은 "GPT-4" 규칙을 계속 적용하여 비교적 제한적인 명명 방식을 채택하기로 했습니다.

GPT-4o 성능 vs 다른 모델

OpenAI는 GPT-4o를 다른 여러 최상위 모델과 비교한 벤치마크 수치를 발표했습니다.

1. GPT-4 터보
2. GPT-4(최초 릴리스)
3. 클로드 3 작품
4. 제미니 프로 1.5
5. 제미니 울트라 1.0
6. 라마 3 400B

이 중 비교에 유의미한 연관성을 갖는 모델은 GPT-4 Turbo, Claude 3 Opus, Gemini Pro 1.5 세 모델뿐입니다. 이 모델들은 최근 몇 달 동안 LMSYS Chatbot Arena 순위표에서 XNUMX위 자리를 놓고 경쟁해 왔습니다.

Llama 3 400B가 향후 경쟁자로 부상할 가능성은 있지만, 아직 개발 중입니다. 따라서 본 벤치마크 결과는 이 세 모델과 GPT-4o에만 초점을 맞추고 있습니다.

평가에는 6가지 벤치마크가 활용되었습니다.

  1. 대규모 멀티태스크 언어 이해(MMLU): 초등 수학, 미국사, 컴퓨터 과학, 법학 등 다양한 분야의 과제를 다룹니다. 이 시험에서 높은 정확도를 달성하려면 모델은 광범위한 세계 지식과 문제 해결 능력을 보유해야 합니다.
  2. 대학원 수준 구글 검증 Q&A(GPQA): 생물학, 물리학, 화학 분야 전문가들이 제작한 객관식 문제들로 구성되어 있습니다. 문제 수준은 높고 난이도는 매우 높으며, 해당 분야 박사 학위 소지자 또는 박사 학위 취득 예정인 전문가들의 정확도는 74%에 달합니다.
  3. 수학: 중학교와 고등학교 수학 문제가 포함됩니다.
  4. HumanEval: 컴퓨터 코드의 기능적 정확성을 평가하며, 코드 생성을 평가하는 데 사용됩니다.
  5. 다국어 초등학교 수학(MSGM): 벵골어와 스와힐리어와 같이 표현이 부족한 언어를 포함하여 10개 언어로 번역된 초등학교 수학 문제로 구성되어 있습니다.
  6. 문단에 대한 이산 추론(DROP): 여러 문장에 걸쳐 있는 값을 더하기, 세기, 정렬하는 등의 작업을 포함하여 완전한 문단에 대한 이해를 요구하는 질문에 중점을 둡니다.
GPT-4o, GPT-4 Turbo, Gemini Pro 1.5 및 Claude 3 Opus의 XNUMX개에 대한 성능 LLM 벤치마크. 각 벤치마크 점수는 0점부터 100점까지입니다. OpenAI에서 제공한 데이터를 기반으로 재구성되었습니다. GPQA 벤치마크의 경우 Gemini Pro 1.5에 대한 데이터는 제공되지 않았습니다.

GPT-4o는 네 가지 벤치마크에서 다른 모델보다 우수한 성능을 보였지만, MSGM 벤치마크에서는 Claude 3 Opus에, DROP 벤치마크에서는 GPT-4 Turbo에 뒤처졌습니다. 이러한 구체적인 결과에도 불구하고, GPT-4o의 전반적인 성능은 인상적이며, 이는 새로운 멀티모달 학습 방식의 잠재력을 시사합니다.

GPT-4o 수치를 GPT-4 Turbo와 비교했을 때, 성능 향상 폭은 상대적으로 미미하며 몇 퍼센트 포인트 정도밖에 차이가 나지 않습니다. 이는 1년 만에 눈에 띄는 발전을 의미하지만, GPT-2에서 GPT-2로, 또는 GPT-3에서 GPT-XNUMX으로의 극적인 성능 향상에는 미치지 못합니다.

텍스트 추론 능력을 매년 10% 향상시키는 것이 새로운 기준이 될 수 있다는 점이 분명해지고 있습니다. 쉬운 과제들이 해결되면서 텍스트 추론 능력의 상당한 발전은 점점 더 어려워지고 있습니다.

그러나 이들은 LLM 벤치마크는 다중 모드 문제에 대한 AI의 성능을 완전히 반영하지 못합니다. 다중 모드 학습이라는 개념은 아직 비교적 새로운 개념이며, 텍스트, 오디오, 비전 전반에 걸쳐 모델의 숙련도를 측정하는 효과적인 방법이 부족합니다.

전반적으로 GPT-4o의 성능은 인상적이며 다중 모드 훈련의 혁신적인 접근 방식에 대한 잠재력을 보여줍니다.

GPT-4o 사용 사례

1. 데이터 분석 및 코딩 작업을 위한 GPT-4o

최신 GPT 모델과 GitHub Copilot과 같은 파생 모델은 이미 코드 작성, 오류 설명, 오류 수정 등 코드 지원을 제공할 수 있도록 설계되었습니다. GPT-4o의 다중 모드 기능은 흥미로운 가능성을 제시합니다.

OpenAI의 CTO인 미라 무라티가 출연한 홍보 영상에서 OpenAI의 연구원인 마크 첸과 바렛 조프는 GPT-4o를 사용하여 Python 코드와 상호 작용하는 방법을 시연했습니다.

코드는 GPT에 텍스트로 제시되고, 음성 상호작용 기능을 통해 GPT에 코드에 대한 설명을 요청합니다. 이후 코드 실행 후, GPT-4o의 시각 기능을 활용하여 플롯에 대한 설명을 제공합니다.

전반적으로 ChatGPT에 화면을 보여주고 구두로 질문하는 과정은 플롯을 이미지 파일로 저장하고 ChatGPT에 업로드한 다음 질문을 입력하는 것보다 워크플로가 더 간단할 수 있습니다.

2. 실시간 번역을 위한 GPT-4o

휴가에 GPT-4o를 가져갈 준비를 하세요. GPT-4o는 저지연 음성 기능을 통해 실시간 번역을 지원하여 (휴대폰 요금제에 로밍 데이터가 포함되어 있는 경우!) 실시간 번역이 가능합니다. 덕분에 해당 언어를 사용하지 않는 국가 여행도 훨씬 수월해집니다.

3. GPT-4o를 활용한 롤플레이

ChatGPT는 꿈의 데이터 관련 직업을 위한 면접을 시뮬레이션하거나 제품 판매를 향상시키기 위해 영업팀을 교육하는 등 롤플레잉 시나리오를 위한 귀중한 리소스임이 입증되었습니다.

이전에는 주로 텍스트 기반 롤플레이를 지원했기 때문에 특정 사용 사례에는 적합하지 않을 수 있습니다. 그러나 향상된 음성 기능을 통해 이제 음성 롤플레이도 가능한 옵션입니다.

하지만 전통적인 텍스트 문자 플레이를 선호하는 경우 선택할 수 있습니다. novita.ai LLM API :

4. 시각 장애인 사용자를 위한 GPT-4o

GPT-4o는 카메라의 비디오 입력을 해석하고 장면을 음성으로 설명할 수 있는 기능을 갖추고 있어 시각 장애인에게 필수적인 기능으로 큰 잠재력을 가지고 있습니다. 기본적으로 TV의 음성 설명 기능을 모방하지만, 실제 상황까지 확장됩니다.

ChatGPT에서 GPT-4o에 액세스하기

ChatGPT의 주소가 변경되었습니다. chat.openai.com 에 chatgpt.com이는 AI를 단순한 실험이 아닌 제품으로서의 가치에 대한 상당한 헌신을 나타냅니다. 계정에 GPT-4o 접속 권한이 있는 경우, 모바일 앱과 온라인 모두에서 접속할 수 있습니다.

또한, 특정 사용자를 대상으로 Mac 앱이 배포되기 시작했습니다. 하지만 사기꾼들이 이 릴리스를 악용하여 컴퓨터에 악성 코드를 유포하고 있으므로 링크에 주의해야 합니다. 가장 안전한 방법은 OpenAI에서 직접 보낸 링크가 ​​포함된 이메일이나 알림을 기다리는 것입니다.

앱에 대한 작동 링크를 보유하고 있더라도 OpenAI 계정에 대한 권한이 부여되기 전까지는 접근 권한이 부여되지 않습니다. 권한이 부여되지 않은 상태에서 앱을 사용하려고 하면 "접근 권한이 없습니다"라는 오류 메시지가 표시됩니다.

ChatGPT에 로그인하세요

ChatGPT 유료 버전이나 무료 버전 중 어떤 것을 선택하시든, 첫 번째 단계는 로그인입니다. 웹사이트를 방문하거나 앱을 다운로드하여 계정에 연결하세요. 아직 계정이 없으시다면 가입하세요.

모델 선택을 확인하세요

화면 상단에는 모델 목록이 포함된 드롭다운 메뉴가 있습니다. 웹사이트에서는 이미 "GPT-4o"가 선택되어 표시될 수 있지만, "GPT-4" 또는 "GPT-3.5"와 같은 옵션도 표시될 수 있습니다. "GPT-4o"가 표시되지 않으면 아직 해당 모델에 액세스할 수 없다는 의미입니다.

모바일 기기에서 접근 권한이 있는 경우, 화면 상단의 탐색 모음 중앙에 "ChatGPT 4o"가 표시됩니다.

채팅 시작

접속 권한이 있다면 GPT-4에서처럼 GPT-4o에서도 채팅을 시작하세요. 단, 속도 제한이 적용되며 무료 플랜에서는 이 제한이 훨씬 낮습니다. 따라서 하루에 보낼 수 있는 메시지 수는 정해져 있습니다. 이 제한에 도달하면 GPT-4 또는 GPT-3.5에서 대화를 계속할 수 있습니다.

채팅에서 모델 변경

채팅 세션 중에 사용하는 AI 모델을 전환할 수도 있습니다. 예를 들어, GPT-4o를 사용하여 전송하는 메시지 수를 조절하려면 GPT-3.5로 채팅을 시작할 수 있습니다. 그런 다음 응답 끝에 있는 반짝이 아이콘을 선택하세요.

이 작업을 수행하면 모델 메뉴가 열리고, 더 복잡한 수학 쿼리를 처리하는 데 필요할 수 있는 GPT-4o를 선택하면 후속 응답이 GPT-4o를 사용하여 생성됩니다.

파일 업로드하다

GPT-4o에 접속하고 무료 플랜을 이용 중이시라면 이제 분석을 위해 파일을 업로드할 수 있습니다. 이미지, 비디오 또는 PDF 파일도 업로드할 수 있습니다. 업로드 후에는 콘텐츠에 대한 질문을 GPT-4o에 제기할 수 있습니다.

GPT-4o 제한 사항 및 위험

생성 AI에 대한 규제는 아직 초기 단계에 있으며, EU AI법이 현재 시행 중인 주요 법적 틀입니다. 따라서 AI를 개발하는 기업들은 무엇이 안전한 AI인지 스스로 판단해야 합니다.

OpenAI는 새로운 모델이 대중에 공개하기에 적합한지 평가하기 위해 준비 프레임워크를 사용합니다. 이 프레임워크는 네 가지 주요 우려 사항을 평가합니다.

  1. 사이버 보안: AI가 사이버 범죄자의 생산성을 높이는지, 아니면 악용 사례 생성을 용이하게 할 수 있는지 평가합니다.
  2. BCRN: AI가 전문가들이 생물학적, 화학적, 방사선적, 핵적 위협을 고안하는 데 도움을 줄 수 있는지 조사합니다.
  3. 설득: AI가 개인의 신념을 바꾸도록 영향을 미치는 설득력 있는(잠재적으로 상호작용적인) 콘텐츠를 생성할 수 있는 잠재력을 평가합니다.
  4. 모델 자율성: AI가 다른 소프트웨어와 함께 작업을 실행하는 자율적 에이전트로 작동할 수 있는지 조사합니다.

각 우려 영역은 낮음, 보통, 높음, 심각으로 분류되며, 모델의 전체 점수는 4가지 범주 중 가장 높은 등급에 해당합니다.

OpenAI는 심각한 우려를 야기하는 모델은 공개하지 않겠다고 약속합니다. 그러나 심각한 우려는 인류 문명을 심각하게 교란할 수 있는 것으로 정의되기 때문에 이 안전 기준은 상대적으로 낮습니다. GPT-4o는 이러한 우려를 거의 충족하며 중간 수준의 우려 등급을 받았습니다.

불완전한 출력

모든 생성 AI에서 흔히 그렇듯이, 모델이 항상 예상대로 동작하지 않을 수 있습니다. 컴퓨터 비전 기술은 완벽하지 않기 때문에 이미지나 비디오 해석의 정확성이 보장되지 않습니다.

마찬가지로, 음성을 필사해도 100% 정확한 경우는 거의 없습니다. 특히 말하는 사람이 강한 악센트를 사용하거나 기술 용어를 사용하는 경우 더욱 그렇습니다.

OpenAI는 GPT-4o가 의도한 대로 작동하지 않는 몇 가지 오류 영상을 공개했습니다. 주요 오류 사례로는 영어가 아닌 두 언어 간 번역 실패, 부적절한 어조(예: 거만하게 들리는 것), 잘못된 언어 사용 등이 있습니다.

오디오 딥페이크의 위험 가속화

OpenAI 발표는 "GPT-4o의 오디오 방식이 여러 가지 새로운 위험을 야기한다"는 점을 인정합니다. 여러 측면에서 GPT-4o는 AI가 유명인, 정치인, 그리고 개인의 지인을 사칭하는 딥페이크 사기 전화의 확산을 가속화할 잠재력을 가지고 있습니다. 이는 효과적으로 해결되기 전에 더욱 악화될 가능성이 높은 문제이며, GPT-4o는 딥페이크 사기 전화의 설득력을 크게 향상시킬 수 있는 역량을 보유하고 있습니다.

이러한 위험을 해결하기 위해 오디오 출력은 미리 정의된 음성으로 제한됩니다.

기술적으로 능숙한 사기꾼이 GPT-4o를 사용하여 텍스트 출력을 생성한 후 자체적인 텍스트-음성 변환 모델을 사용할 수 있을 것으로 예상됩니다. 그러나 이러한 접근 방식이 GPT-4o가 제공하는 지연 시간과 음성 톤 측면에서 여전히 이점을 유지할지는 불확실합니다.

GPT-4o 가격은 얼마인가요?

GPT-4o는 GPT-4 Turbo보다 ​​뛰어난 속도와 향상된 비전 기능을 제공하지만, 이전 모델보다 약 50% 더 저렴할 예정입니다. OpenAI 웹사이트에 명시된 바와 같이, 이 모델을 사용하면 입력 토큰 5만 개당 15달러, 출력 토큰 XNUMX만 개당 XNUMX달러의 비용이 발생합니다.

맺음말

GPT-4o는 텍스트, 오디오, 시각 처리를 하나의 효율적인 모델로 통합하여 생성 AI 분야에서 상당한 발전을 이루었습니다. 이 혁신은 더욱 빠른 응답, 더욱 몰입적인 상호작용, 그리고 실시간 번역부터 향상된 데이터 분석, 시각 장애인의 접근성 향상에 이르기까지 더욱 광범위한 적용 분야를 제공할 것으로 기대됩니다.

novita.ai무한한 창의력을 위한 원스톱 플랫폼으로, 100개 이상의 API를 제공합니다. 이미지 생성 및 언어 처리부터 오디오 향상 및 비디오 편집까지, 저렴한 종량제 결제 방식으로 GPU 직접 제품을 만들 때 발생하는 유지 관리의 번거로움을 해결하세요. 무료로 체험해 보세요.

추천 독서

차이 사이는 무엇인가 LLM 그리고 GPT

LLM 2024년 리더보드 예측 공개

Novita AI LLM 추론 엔진: 가장 큰 처리량과 가장 저렴한 추론


Novita에서 더 많은 것을 알아보세요

이메일로 최신 게시물을 받아보려면 구독하세요.

코멘트 남김

위쪽으로 스크롤

Novita에서 더 많은 것을 알아보세요

계속해서 읽고 전체 아카이브에 액세스하려면 지금 구독하세요.

계속 읽기