반응형

GPT 4

tiktoken 라이브러리 활용 - OpenAI LLM 토큰 계산으로 AI 모델 비용 예상하기

대규모 언어 모델(LLM)에서 자연어 처리의 핵심 개념 중 하나는 토큰(Token)입니다. OpenAI에서 개발한 tiktoken 라이브러리는 바로 이 토큰수를 예상할 수 있는 라이브러리입니다. 이번에는 tiktoken를 어떻게 활용할 수 있는지 코드와 함께 정리해 보겠습니다. OpenAI LLM 토큰수 계산하기 tiktoken 라이브러리tiktoken은 OpenAI의 모델들이 텍스트를 인코딩(토큰화)하고 디코딩하는 데 사용하는 BPE(Byte Pair Encoding)입니다. 쉽게 말해, 우리가 작성하는 문장을 모델이 이해할 수 있는 작은 숫자(토큰 ID)들의 배열로 변환하거나, 반대로 토큰 ID 배열을 다시 우리가 읽을 수 있는 문장으로 변환해 주는 역할을 합니다. 다음과 같이 활용됩니다.토큰 수 ..

OpenAI API input/output token(토큰) 계산 및 확인 방법 - LLM 모델 사용량과 비용 #1

이번에는 토큰(Token) 수 계산 방법에 대해 살펴보도록 할게요. OpenAI API를 사용하다 보면 토큰(Token) 수에 따라 비용이 책정되는 것을 볼 수 있는데요, 이것은 LLM기반 생성형 AI 모델을 사용함에 있어서 반드시 적용되는 부분으로 어떤 모델을 사용하던지 필요한 단위가 됩니다. OpenAI API input/output token(토큰) 계산간단히 말하자면, LLM(대규모 언어 모델)은 이미 언어를 구성할때 토큰이라는 개념을 사용합니다. 때문에 생성형 AI를 사용함에 있어서 토큰이 사용량 측정의 기본 단위가 되는 것은 어쩌면 너무나 당연한 것입니다. 그러므로, 이러한 기본 단위인 토큰을 기준으로 사용량에 따른 비용을 책정한다는 것은 너무나 당연하다고도 할 수 있죠. 결국, 내가 얼마나..

GPT로 고객 리뷰 분석부터 뉴스 주제 추출까지 - 정보 추출 자동화 프롬프트 방법 #4

이번에는 프롬프트 엔지니어링 방법을 이용해서 어떤 텍스트 자료에서 원하는 정보를 추출하거나 어떤 요소를 추축해 내는 방법에 대해 다뤄보겠습니다. 정보 추출 자동화 프롬프트 방법기업과 조직이 다루는 데이터 중 상당수는 문장으로 이루어진 비정형 텍스트입니다. 개인마다 다르겠지만, 저 같은 경우도 개인적으로 필요한 데이터는 모두 텍스트 형식이죠. 이런 데이터를 사람이 직접 읽고 분류하는 데에는 시간이 많이 소요됩니다. 더구나, 많은 데이터를 분류하다 보면 분류 기준의 일관성도 흔들리기 쉽습니다.만일, 특정 정보만 선별해 구조화된 형태로 추출할 수 있다면, 개인이나, 조직의 분석 효율을 높이고 운영 의사결정을 빠르게 내릴 수 있을 거예요. GPT를 활용한 정보 추출GPT 모델은 사용자가 입력한 프롬프트..

OpenAI GPT 출력 형식 설정으로 JSON 파싱과 프롬프트 엔지니어링 #2

이번 글에서는 지난번에 시작했던, 프롬프트 엔지니어링을 이용해서 GPT에게 원하는 답을 얻는 방법 중 GPT에게 명확하게 구체적으로 잘 묻는 방법에 이어서 GPT의 응답을 명확하게 하도록 요구하는 방법에 대해 이야기해 보겠습니다. OpenAI GPT 출력 형식 설정으로 JSON 파싱과 프롬프트 엔지니어링 GPT에게 잘 묻는 방법지난 글에서는 구분자를 이용해서 지시/요청/질문하는 형식을 말했어요. 오늘은 GPT에게 지시(instruction) 하기 위해 프롬프트를 작성할 때, 응답형식을 정의하는 방법에 대해 이야기해 볼게요. [일단 지난 글과 비슷하게 get_completion 함수를 다음과 같이 구성했고요.def get_completion(prompt): response = openai.chat...

반응형