‘속도 비용·난이도 제각각’··· 기업이 LLM을 도입하는 7가지 방법

생성형 AI는 역사상 가장 빠르게 발전하는 기술이라고 보아도 무리가 아니다. 이 기술은 이미 세상을 변화시키고 있다. 9월에 발표된 미국 직장인 3,000명 이상을 대상으로 한 조사에 따르면 1/4이 지난 주에 적어도 한 번 이상 업무에 생성형 AI를ᄎ 사용했으며, 거의 11%가 매일 사용한다.이 새로운 기술의 도입 속도는 인터넷보다 약 2배 빠르다. 웨카(Weka)의 의뢰로 S&P 글로벌 마켓 인텔리전스가 조사해 최근 발표한 보고서에 따르면 조사 대상 조직의 88%가 이미 생성형 AI를 사용하고 있으며 24%는 워크플로우 전반에 걸쳐 통합된 생성형 AI 기능을 사용하고 있다.좀 더 엄밀히 말하자면, LLM은 텍스트와 코드에 초점을 맞춘 생성형 AI의 한 유형이다. 하지만 일부 모델은 이 밖의 다양한 포맷도 통합하기 시작했다. 현재 기업에서 인기 있는 LLM으로는 챗GPT 및 기타 오픈AI GPT 모델, 앤쓰로픽의 클로드, 구글의 제미니, 메타의 라마, 딥마인드 전 직원들이 만든 오픈소스 프로젝트인 미스트랄 등이 있다.생성형 AI를 보다 적극적으로 활용해야 한다는 압박이 커지고 있는 가운데, 오늘날 기업들이 LLM을 도입할 수 있는 7가지 방안과, 경쟁 우위를 확보하는 방법을 살펴본다.챗봇 사용하기챗봇은 회사에서 생성형 AI를 가장 간단하게 사용할 수 있는 방법이다. AI 기반 인터넷 검색이나 공개 문서 요약과 같이 위험도가 낮은 사용 사례를 위한 무료 옵션들이 풍부하다. 이러한 챗봇에는 엔터프라이즈 버전도 있는데, 공급업체들은 모든 대화를 안전하게 보관하고 AI를 학습시키는 데 사용하지 않겠다고 약속하곤 한다.넷스코프 위협 연구소의 7월 보고서에 따르면, 96%의 조직(1년 전 74%에서 증가)이 생성형 AI 챗봇을 사용하고 있으며, 기업 분야에서 인기 있는 범용 생성형 AI 챗봇 플랫폼은 80%의 사용률을 기록한 챗GPT였다. 마이크로소프트 코파일럿이 67%, 구글 제미니가 51%로 그 뒤를 이었다.또한, 엔터프라이즈 소프트웨어 공급업체들이 생성형 AI 기능을 자사 솔루션에 도입하고 있다. 예를 들어 그래머리(Grammarly), 세일즈포스, 서비스나우 등이 있다. 사실상 대부분의 주요 엔터프라이즈 소프트웨어 공급업체는 이미 일부 생성형 AI 기능을 출시했거나 로드맵에 추가하고 있다.글로벌 컨설팅 회사 SSA & 컴퍼니의 응용 솔루션 부문 리더인 닉 크레이머는 “향후 2년 동안 생성형 AI로 인한 가치 창출의 대부분은 검색 엔진, 애플리케이션, 도구에서 코파일럿 또는 어시스턴트 역할에서 비롯될 것”이라고 말했다. 또한 가트너는 엔터프라이즈 소프트웨어 공급업체의 80% 이상이 2026년까지 생성형 AI 기능을 보유할 것으로 예측하고 있다. 올해 3월에 5% 미만이었던 수치다.API다음으로 일반적인 생성형 AI 배포 전략은 기업 플랫폼에 API를 추가하는 접근법이다. 예를 들어, API를 사용해 미팅 애플리케이션이 자동으로 대화 내용 요약을 생성하도록 할 수 있다. 가트너는 2026년까지 API 수요 증가의 30% 이상이 생성형 AI에서 발생할 것이라고 전망했다.커니의 디지털 및 분석 실무 파트너인 바라트 토타는 “API를 이용해 상업용 LLM에 접근할 수 있다. 다수의 클라우드 (소프트웨어) 벤더들이 이 작업의 문턱을 낮추고 있기도 한다”라고 말했다.보고서 요약과 같은 기본적 작업이라면, 검색 증강 생성(RAG) 임베딩이나 파인 튜닝 없이 LLM을 그대로 사용할 수 있다. 즉 이는 큰 오버헤드 없이 기업 시스템에 생성형 AI 기능을 추가하는 저위험, 저비용의 접근법이다. 또한 기업이 이러한 API의 작동 방식과 효과적인 프롬프트를 만드는 방법을 배울 수 있는 기회이기도 하다.오픈AI에 따르면, 포춘 500대 기업의 92%가 이 API를 사용하고 있으며, 새로운 모델 출시와 비용 절감, 성능 향상으로 인해 7월 이후 사용량이 두 배로 증가했다.벡터 데이터베이스와 RAGLLM을 커스터마이즈하려는 대부분의 기업에게 RAG는 우선적 검토 대상이다. 누군가 임베딩 또는 벡터 데이터베이스에 대해 이야기한다면, 일반적으로 이 기법을 의미한다.작동 방식을 간단히 설명하면 다음과 같다. 사용자가 회사 정책이나 제품에 대한 질문을 하면 그 질문이 바로 LLM으로 전송되지 않는다. 대신 사용자가 해당 정보에 액세스할 수 있는 권한이 있는지 먼저 확인한다. 액세스 권한이 있는 경우 잠재적으로 관련성이 있는 모든 정보가 탐색된다. 일반적으로 벡터 데이터베이스에 있는 정보들이다. 그런 다음 질문과 관련 정보가 LLM으로 전송되어 최적화된 프롬프트로 질의된다. LLM에서 돌아오는 답변에 대해서는 선호하는 형식과 어조도 지정할 수 있다.벡터 데이터베이스는 정보를 일련의 목록으로 구성하는 방법으로, 각 목록은 서로 다른 속성에 따라 정렬된다. 예를 들어 알파벳순으로 나열된 목록이 있는 경우 답변이 그 순서에 가까울수록 관련성이 높다. 알파벳순 목록은 1차원 벡터 데이터베이스이지만, 벡터 데이터베이스는 차원을 무제한으로 가질 수 있으므로 여러 요소와의 근접성을 기준으로 관련 답변을 검색할 수 있다. 따라서 LLM과 함께 사용하기에 적합하다.영업 인게이지먼트 플랫폼 벤더 세일즈로프트(Salesloft)의 최고 제품 및 엔지니어링 책임자 엘리 필즈는 “현재 우리는 벡터 데이터베이스로 전환하고 있다. 효과가 분명하다”라며, LLM 쿼리에 대한 컨텍스트를 제공함에 있어 벡터 데이터베이스가 단순한 문서를 사용하는 것보다 더 효과적이라고 설명했다. 이 회사는 주로 오픈소스 벡터 저장소인 크로마DB(ChromaDB)를 사용한다. 세일즈로프트는 이 밖에 다른 벡터 데이터베이스로 ‘PG벡터’(PGVector)를 사용한다. 이는 포스트그레스SQL 데이터베이스용 벡터 유사성 검색 확장 익스텐션이다.필즈는 “하지만 우리는 FAISS와 파인콘(Pinecone)을 이용하는 연구도 수행했다”라고 전했다. FAISS(Facebook AI Similarity Search)는 메타가 제공하는 오픈소스 라이브러리로 멀티미디어 문서에서 유사성 검색을 지원한다. 파인콘은 개발자들 사이에서 인기를 끌고 있는 클라우드 기반 벡터 데이터베이스다. 파인콘의 무료 티어는 최대 10만 개의 벡터를 지원한다. 벡터 데이터베이스에서 관련 정보가 탐색되고 이후 프롬프트에 포함되면, 파인콘은 이를 오픈AI(마이크로소프트 애저 내의 프라이빗 인스턴스에서 실행)로 전송한다.필즈는 “우리 플랫폼의 서브 프로세서로 애저를 인증한 상태다. 고객의 정보에 대한 새로운 프로세서를 영입하면 항상 고객에게 이를 고지한다”라고 말했다. 실제로 세일즈로프트는 구글 및 IBM과도 협력하고 있으며, 이러한 플랫폼을 사용하는 생성형 AI 기능도 개발 중이다.그녀는 “앞으로도 다양한 공급업체 및 다양한 모델과 협력할 방침이다. 상황은 매주 변화하고 있다. 다양한 모델을 살펴보지 않는다면 기회를 놓치게 된다”라고 말했다.이렇듯 RAG를 사용하면 기업이 독점 데이터를 모델 자체에서 분리할 수 있으므로 더 나은 모델이 출시될 때 모델을 훨씬 쉽게 교체할 수 있게 된다. 또한, 벡터 데이터베이스를 실시간으로 업데이트할 수 있어 모델을 파인 튜닝하거나 재학습시킬 필요도 없다.단 모델마다 API가 다른 경우도 있기는 하다. 하지만 모델을 교체하는 것이 재교육하는 것보다 쉽다. 필즈는 “벡터 데이터베이스보다 파인 튜닝이 더 나은 사용 사례를 아직 찾지 못했다. 이런 사례가 있다고 생각하지만 아직까지 더 나은 성능을 발휘하는 사용 사례를 찾지 못했다”라고 말했다.세일즈로프트가 LLM을 처음 적용한 사용 사례 중 하나는 고객이 잠재 고객에게 영업 이메일을 생성하도록 돕는 기능이었다. 필즈는 “고객들은 이메일을 작성하는 데 많은 시간을 할애하고 있었다. 시작하기도 어려웠고, 글쓰기에 대한 막막함이 많았다”라며, 이제 고객은 대상 페르소나, 가치 제안 및 클릭 유도 문안을 지정할 수 있으며, 개인화할 수 있는 세 가지 이메일 초안을 받을 수 있다고 설명했다.로컬에서 오픈소스 모델 실행콘스텔레이션 리서치의 부사장이자 수석 애널리스트인 앤디 투라이는 시중의 오픈소스 LLM군이 매우 강력해졌다고 전했다. 메타는 최근 새로운 비전(vision) 기능을 갖춘 다양한 크기의 라마 3.2 모델을 출시했으며, 3억 5,000만 회에 가까운 다운로드 횟수(1년 동안 10배 증가)와 특정 사용 사례에 맞게 미세 조정된 6만 개 이상의 파생 모델을 보유하고 있다고 그는 설명했다.챗봇 아레나 LLM 리더보드에 따르면 메타의 최상위 모델인 라마는 오픈AI의 GPT 4 및 앤쓰로픽의 클로드 3.5 소네트과 품질 면에서 비슷한 수준이다.투라이는 “일단 라마가 우위를 점하고 있지만, 다른 많은 기업들도 자체 버전의 오픈소스 LLM을 개발하고 있다”라고 말했다. IBM의 그래나이트(Granite) 모델, AWS의 타이탄, 구글의 여러 오픈소스 모델 등이 그 예다. API 회사인 콩(Kong)이 최근 수백 명의 IT 전문가와 비즈니스 리더를 대상으로 실시한 설문조사에 따르면 대부분의 기업이 직접 또는 애저 AI를 통해 오픈AI를 사용하고 있으며, 구글 제미나이가 그 뒤를 이었다. 메타의 라마는 3위였다.오픈소스 모델이 다양한 크기로 제공된다는 사실은 기업에게 풍부한 선택지가 있다는 의미다. 소규모 모델이 더 저렴하고 빠르다는 점을 감안하면 더욱 그렇다. 투라이는 “많은 기업이 실험에서 벗어나 배포 모드로 전환하고 있으며, 추론과 최적화에 드는 비용이 주요 이슈가 되고 있다. 많은 기업이 배포하려는 규모와 관련해 충격을 받고 있는 중이다”라고 말했다.보스턴에 본사를 둔 이키가이 랩스(Ikigai Labs)는 맞춤형 대형 그래픽 모델 또는 구조화된 데이터를 다룰 수 있도록 설계된 AI 모델 구축용 플랫폼을 제공하는 기업이다. 이 기업은 인터페이스를 더 쉽게 사용할 수 있도록 프런트엔드에 LLM을 탑재하고 있다. 이를 테면 70억 개의 파라미터를 가진 팰콘 오픈소스 LLM 버전을 사용하고 일부 고객을 위해 자체 환경에서 이를 실행한다.이키가이는 LLM에 정보를 제공하기 위해 로컬에서 실행되는 벡터 데이터베이스를 사용한다고 공동 설립자이자 공동 CEO 데바브라트 샤는 설명했다. MIT 교수이기도 한 그는 “4년 전 MIT에서 학생들과 함께 수많은 벡터 데이터베이스를 실험해 본 적이 있다. 유용할 줄은 알았지만 이렇게 유용할 줄은 몰랐다”라고 말했다.그에 따르면 모델과 벡터 데이터베이스를 모두 로컬에 유지하면 데이터가 제3자에게 유출되지 않는다. “외부에 쿼리를 전송해도 괜찮은 고객에게는 오픈AI를 사용한다. 즉 우리는 LLM 종류에 구애받지 않는다”라고 말했다.자체적으로 챗PwC(ChatPwC) 도구를 구축한 PwC도 LLM에 구애받지 않는 조직이다. 이 회사의 파트너이자 생성형 AI 시장 진출 전략의 리더인 브렛 그린스타인은 “챗PwC는 우리 직원들의 역량을 강화하는 도구다”라며, 가령 직무 설명 생성 등의 사용 사례를 위해 사전 구축된 프롬프트와 임베딩이 포함되어 있다고 설명했다.“이는 우리의 형식, 템플릿, 용어를 사용하기 위해 구현됐다. 이를 구현하기 위해 HR, 데이터, 프롬프트 전문가를 보유하고 있으며, 일관성 있는 양질의 채용 공고를 생성하기 위해 사용 사례를 최적화하고 있다. 이제 최종 사용자는 직무 설명을 생성하기 위해 프롬프트를 작성하는 방법을 알 필요가 없다”라고 그는 덧붙였다.이 도구는 마이크로소프트 애저를 기반으로 구축됐으며, 구글 클라우드 플랫폼과 AWS용으로도 개발된 상태다. 그린스타인은 “고객들이 클라우드에 존재하고 우리는 이러한 고객에서 서비스를 제공한다”라고 말했다. 백엔드에서 다양한 모델을 사용하도록 최적화한 것도 고객이 원하는 방식이기 때문이다. 그는 “모든 주요 모델이 작동하고 있다. 클로드, 앤쓰로픽, 오픈AI, 라마, 팔콘 등 모든 것을 갖추고 있다”라고 말했다.그는 시장이 빠르게 변화하고 있기에 기업은 후회를 최소화할 수 있는 AI 배포 정책을 마련해야 한다고 조언했다. 그린스타인은 “모델과 독립적으로 데이터를 구축하고 거버넌스를 구축하는 등 할 수 있는 일이 많다”라며, 그러면 시장이 변화하고 새로운 모델과 기술이 등장하더라도 데이터와 거버넌스 구조는 여전히 유효할 수 있다고 전했다.파인 튜닝경영 컨설팅 회사 에이릿(AArete)는 AWS 베드록의 클로드 2.5 소네트에서 퓨-샷 러닝 기반의 파인 튜닝을 사용한다. 이 회사의 디지털 기술 서비스 담당 부사장인 프리야 이라가바라푸는 “AWS 미국 동부 1 리전 최상위 사용자가 우리다. 생성형 AI 애플리케이션을 프로덕션 환경으로 효과적으로 확장해왔다”라고 말했다.-> ‘하나만 알려줘도 열을 안다’ 생성 AI의 학습 방식, 제로샷·퓨샷 러닝만약 에이릿이 호스팅 모델을 사용하고 API를 통해 연결하면 신뢰 이슈가 발생할 수 있다. 그녀는 “프롬프트의 데이터가 어디로 흘러갈지 우려하게 된다. 우리는 그런 위험을 감수하고 싶지 않다”라고 말했다.그녀는 오픈소스 모델을 선택함 있어 다운로드 횟수, 커뮤니티 지원, 하드웨어 요구 사항을 살펴본다. “기본 모델이 작년에 시작했을 때보다 훨씬 강력해져서 업무 관련 효율성에 대해 걱정할 필요가 없어졌다. 이제 유일한 차이점은 모델에서 사용할 수 있는 토큰 수와 버전 관리가 어떻게 다른가 하는 점이다”라고 말했다.이 밖에도 금융 및 의료 업계의 많은 기업이 자체 추가 데이터 세트를 기반으로 LLM을 파인 튜닝하고 있다. 기본 LLM은 인터넷 전체의 데이터를 학습하지만, 기업은 파인 튜닝을 통해 비즈니스 사용 사례에 맞게 특별히 타겟팅된 모델을 만들 수 있다. 이를 위한 일반적인 방법은 질문과 답변 목록을 만들고 이를 바탕으로 모델을 미세 조정하는 것이다.실제로 오픈AI는 2023년 8월부터 Q&A 방식을 사용하여 GPT 3.5 모델의 파인 튜닝을 허용하기 시작했으며, 11월 데브데이에서 GPT 4를 위한 새로운 미세 조정, 사용자 지정 및 RAG 옵션 세트를 공개했다. 이는 고객 기업이 이미 FAQ 데이터 뱅크를 보유했을 가능성이 높은 고객 서비스 및 헬프 데스크 애플리케이션에 특히 유용하다.PwC의 그린스타인은 SaaS 앱과 같은 애플리케이션을 구축하는 소프트웨어 회사가 파인 튜닝을 사용할 만하다고 전했다. “반복성이 높은 패턴이 있는 경우 파인 튜닝을 통해 비용을 절감할 수 있다. 단 엔터프라이즈 배포의 경우 95% 정도에게는 RAG가 더 효율적이다”라고 그는 말했다.처음부터 시작하기처음부터 자체 LLM을 구축하는 기업은 거의 없다. 오픈AI의 경우 1,750억 개의 파라미터를 가진 GPT 3에 45테라바이트의 데이터 세트를 학습시키는 데 460만 달러의 비용이 들었다. 오픈AI의 CEO 샘 알트먼에 따르면, GPT 4는 1억 달러가 넘는 비용이 들었다. 이 정도 규모를 투자해야 LLM이 어느 정도의 상식을 갖춰 인간의 언어를 처리할 수 있는 마법과 능력을 갖추게 된다.인사이트(Insight)의 최고 데이터 책임자 캄 타글리엔티는“자체 LLM을 만들 수는 있지만, 이를 위해서는 상당한 데이터와 처리 능력을 투자해야 한다. 처음부터 모델을 학습시키려면 데이터를 기반으로 예상되는 LLM 작업을 실행할 수 있을 만큼 충분한 양의 데이터가 필요하다”라고 말했다.그런 다음 모델이 기본 학습을 완료하면 모델이 사용자와 적절한 방식으로 상호 작용하는 데 필요한 인간 피드백을 통한 강화 학습 단계인 RLHF를 거쳐야 한다.오늘날 거의 모든 LLM은 대형 하이퍼스케일러나 오픈AI, 앤쓰로픽과 같은 AI 스타트업에 의해 제공된다. 자체 모델 구축 경험이 풍부한 기업조차도 대부분 자체 LLM을 만들려 하지 않는다. 예를 들어 세일로프트는 이전 기술을 사용한 생성형 AI 모델을 포함해 수년간 자체 AI 및 ML 모델을 구축해 왔지만, 완전히 새로운 최첨단 기반 모델을 처음부터 구축하려는 시도는 삼가고 있다. 필즈는 “적어도 현 단계에서는 시작하기에 부담스러운 대규모 계산을 요구한다”라고 말했다.모델로 채워진 정원(Model gardens)성숙한 기업의 경우 단일 생성형 AI 모델만으로는 충분하지 않다. 각기 다른 모델은 각기 다른 종류의 사용 사례에 적합하며 비용과 성능 지표도 다르다. 그리고 새로운 플레이어들이 끊임없이 이 분야에 진입하고 있다. 일부 모델은 온프레미스 또는 코로케이션 데이터 센터에서 실행할 수 있어 기업의 비용을 절감하거나 추가적인 보안 또는 유연성을 제공하기도 한다.이러한 옵션을 활용하기 위해 기업들은 맞춤형 모델이나 파인 튜닝 모델로 가득한 모델 정원, 신중하게 심사된 LLM의 비공개 컬렉션을 만들고 라우팅 시스템을 사용하여 적합한 모델에 요청을 전달한다. 커니의 토타는 “하지만 이 정도로 복잡한 작업을 진행하려는 회사는 아직 많지 않다. 단 미래에는 그렇게 될 것이라고 본다”라고 말했다[email protected]

featured-image

생성형 AI는 역사상 가장 빠르게 발전하는 기술이라고 보아도 무리가 아니다. 이 기술은 이미 세상을 변화시키고 있다. 9월에 발표된 미국 직장인 3,000명 이상을 대상으로 한 조사에 따르면 1/4이 지난 주에 적어도 한 번 이상 업무에 생성형 AI를ᄎ 사용했으며, 거의 11%가 매일 사용한다.

이 새로운 기술의 도입 속도는 인터넷보다 약 2배 빠르다. 웨카(Weka)의 의뢰로 S&P 글로벌 마켓 인텔리전스가 조사해 최근 발표한 보고서에 따르면 조사 대상 조직의 88%가 이미 생성형 AI를 사용하고 있으며 24%는 워크플로우 전반에 걸쳐 통합된 생성형 AI 기능을 사용하고 있다. 좀 더 엄밀히 말하자면, LLM은 텍스트와 코드에 초점을 맞춘 생성형 AI의 한 유형이다.



하지만 일부 모델은 이 밖의 다양한 포맷도 통합하기 시작했다. 현재 기업에서 인기 있는 LLM으로는 챗GPT 및 기타 오픈AI GPT 모델, 앤쓰로픽의 클로드, 구글의 제미니, 메타의 라마, 딥마인드 전 직원들이 만든 오픈소스 프로젝트인 미스트랄 등이 있다. 생성형 AI를 보다 적극적으로 활용해야 한다는 압박이 커지고 있는 가운데, 오늘날 기업들이 LLM을 도입할 수 있는 7가지 방안과, 경쟁 우위를 확보하는 방법을 살펴본다.

챗봇 사용하기 챗봇은 회사에서 생성형 AI를 가장 간단하게 사용할 수 있는 방법이다. AI 기반 인터넷 검색이나 공개 문서 요약과 같이 위험도가 낮은 사용 사례를 위한 무료 옵션들이 풍부하다. 이러한 챗봇에는 엔터프라이즈 버전도 있는데, 공급업체들은 모든 대화를 안전하게 보관하고 AI를 학습시키는 데 사용하지 않겠다고 약속하곤 한다.

넷스코프 위협 연구소의 7월 보고서에 따르면, 96%의 조직(1년 전 74%에서 증가)이 생성형 AI 챗봇을 사용하고 있으며, 기업 분야에서 인기 있는 범용 생성형 AI 챗봇 플랫폼은 80%의 사용률을 기록한 챗GPT였다. 마이크로소프트 코파일럿이 67%, 구글 제미니가 51%로 그 뒤를 이었다. 또한, 엔터프라이즈 소프트웨어 공급업체들이 생성형 AI 기능을 자사 솔루션에 도입하고 있다.

예를 들어 그래머리(Grammarly), 세일즈포스, 서비스나우 등이 있다. 사실상 대부분의 주요 엔터프라이즈 소프트웨어 공급업체는 이미 일부 생성형 AI 기능을 출시했거나 로드맵에 추가하고 있다. 글로벌 컨설팅 회사 SSA & 컴퍼니의 응용 솔루션 부문 리더인 닉 크레이머는 “향후 2년 동안 생성형 AI로 인한 가치 창출의 대부분은 검색 엔진, 애플리케이션, 도구에서 코파일럿 또는 어시스턴트 역할에서 비롯될 것”이라고 말했다.

또한 가트너는 엔터프라이즈 소프트웨어 공급업체의 80% 이상이 2026년까지 생성형 AI 기능을 보유할 것으로 예측하고 있다. 올해 3월에 5% 미만이었던 수치다. API 다음으로 일반적인 생성형 AI 배포 전략은 기업 플랫폼에 API를 추가하는 접근법이다.

예를 들어, API를 사용해 미팅 애플리케이션이 자동으로 대화 내용 요약을 생성하도록 할 수 있다. 가트너는 2026년까지 API 수요 증가의 30% 이상이 생성형 AI에서 발생할 것이라고 전망했다. 커니의 디지털 및 분석 실무 파트너인 바라트 토타는 “API를 이용해 상업용 LLM에 접근할 수 있다.

다수의 클라우드 (소프트웨어) 벤더들이 이 작업의 문턱을 낮추고 있기도 한다”라고 말했다. 보고서 요약과 같은 기본적 작업이라면, 검색 증강 생성(RAG) 임베딩이나 파인 튜닝 없이 LLM을 그대로 사용할 수 있다. 즉 이는 큰 오버헤드 없이 기업 시스템에 생성형 AI 기능을 추가하는 저위험, 저비용의 접근법이다.

또한 기업이 이러한 API의 작동 방식과 효과적인 프롬프트를 만드는 방법을 배울 수 있는 기회이기도 하다. 오픈AI에 따르면, 포춘 500대 기업의 92%가 이 API를 사용하고 있으며, 새로운 모델 출시와 비용 절감, 성능 향상으로 인해 7월 이후 사용량이 두 배로 증가했다. 벡터 데이터베이스와 RAG LLM을 커스터마이즈하려는 대부분의 기업에게 RAG는 우선적 검토 대상이다.

누군가 임베딩 또는 벡터 데이터베이스에 대해 이야기한다면, 일반적으로 이 기법을 의미한다. 작동 방식을 간단히 설명하면 다음과 같다. 사용자가 회사 정책이나 제품에 대한 질문을 하면 그 질문이 바로 LLM으로 전송되지 않는다.

대신 사용자가 해당 정보에 액세스할 수 있는 권한이 있는지 먼저 확인한다. 액세스 권한이 있는 경우 잠재적으로 관련성이 있는 모든 정보가 탐색된다. 일반적으로 벡터 데이터베이스에 있는 정보들이다.

그런 다음 질문과 관련 정보가 LLM으로 전송되어 최적화된 프롬프트로 질의된다. LLM에서 돌아오는 답변에 대해서는 선호하는 형식과 어조도 지정할 수 있다. 벡터 데이터베이스는 정보를 일련의 목록으로 구성하는 방법으로, 각 목록은 서로 다른 속성에 따라 정렬된다.

예를 들어 알파벳순으로 나열된 목록이 있는 경우 답변이 그 순서에 가까울수록 관련성이 높다. 알파벳순 목록은 1차원 벡터 데이터베이스이지만, 벡터 데이터베이스는 차원을 무제한으로 가질 수 있으므로 여러 요소와의 근접성을 기준으로 관련 답변을 검색할 수 있다. 따라서 LLM과 함께 사용하기에 적합하다.

영업 인게이지먼트 플랫폼 벤더 세일즈로프트(Salesloft)의 최고 제품 및 엔지니어링 책임자 엘리 필즈는 “현재 우리는 벡터 데이터베이스로 전환하고 있다. 효과가 분명하다”라며, LLM 쿼리에 대한 컨텍스트를 제공함에 있어 벡터 데이터베이스가 단순한 문서를 사용하는 것보다 더 효과적이라고 설명했다. 이 회사는 주로 오픈소스 벡터 저장소인 크로마DB(ChromaDB)를 사용한다.

세일즈로프트는 이 밖에 다른 벡터 데이터베이스로 ‘PG벡터’(PGVector)를 사용한다. 이는 포스트그레스SQL 데이터베이스용 벡터 유사성 검색 확장 익스텐션이다. 필즈는 “하지만 우리는 FAISS와 파인콘(Pinecone)을 이용하는 연구도 수행했다”라고 전했다.

FAISS(Facebook AI Similarity Search)는 메타가 제공하는 오픈소스 라이브러리로 멀티미디어 문서에서 유사성 검색을 지원한다. 파인콘은 개발자들 사이에서 인기를 끌고 있는 클라우드 기반 벡터 데이터베이스다. 파인콘의 무료 티어는 최대 10만 개의 벡터를 지원한다.

벡터 데이터베이스에서 관련 정보가 탐색되고 이후 프롬프트에 포함되면, 파인콘은 이를 오픈AI(마이크로소프트 애저 내의 프라이빗 인스턴스에서 실행)로 전송한다. 필즈는 “우리 플랫폼의 서브 프로세서로 애저를 인증한 상태다. 고객의 정보에 대한 새로운 프로세서를 영입하면 항상 고객에게 이를 고지한다”라고 말했다.

실제로 세일즈로프트는 구글 및 IBM과도 협력하고 있으며, 이러한 플랫폼을 사용하는 생성형 AI 기능도 개발 중이다. 그녀는 “앞으로도 다양한 공급업체 및 다양한 모델과 협력할 방침이다. 상황은 매주 변화하고 있다.

다양한 모델을 살펴보지 않는다면 기회를 놓치게 된다”라고 말했다. 이렇듯 RAG를 사용하면 기업이 독점 데이터를 모델 자체에서 분리할 수 있으므로 더 나은 모델이 출시될 때 모델을 훨씬 쉽게 교체할 수 있게 된다. 또한, 벡터 데이터베이스를 실시간으로 업데이트할 수 있어 모델을 파인 튜닝하거나 재학습시킬 필요도 없다.

단 모델마다 API가 다른 경우도 있기는 하다. 하지만 모델을 교체하는 것이 재교육하는 것보다 쉽다. 필즈는 “벡터 데이터베이스보다 파인 튜닝이 더 나은 사용 사례를 아직 찾지 못했다.

이런 사례가 있다고 생각하지만 아직까지 더 나은 성능을 발휘하는 사용 사례를 찾지 못했다”라고 말했다. 세일즈로프트가 LLM을 처음 적용한 사용 사례 중 하나는 고객이 잠재 고객에게 영업 이메일을 생성하도록 돕는 기능이었다. 필즈는 “고객들은 이메일을 작성하는 데 많은 시간을 할애하고 있었다.

시작하기도 어려웠고, 글쓰기에 대한 막막함이 많았다”라며, 이제 고객은 대상 페르소나, 가치 제안 및 클릭 유도 문안을 지정할 수 있으며, 개인화할 수 있는 세 가지 이메일 초안을 받을 수 있다고 설명했다. 로컬에서 오픈소스 모델 실행 콘스텔레이션 리서치의 부사장이자 수석 애널리스트인 앤디 투라이는 시중의 오픈소스 LLM군이 매우 강력해졌다고 전했다. 메타는 최근 새로운 비전(vision) 기능을 갖춘 다양한 크기의 라마 3.

2 모델을 출시했으며, 3억 5,000만 회에 가까운 다운로드 횟수(1년 동안 10배 증가)와 특정 사용 사례에 맞게 미세 조정된 6만 개 이상의 파생 모델을 보유하고 있다고 그는 설명했다. 챗봇 아레나 LLM 리더보드에 따르면 메타의 최상위 모델인 라마는 오픈AI의 GPT 4 및 앤쓰로픽의 클로드 3.5 소네트과 품질 면에서 비슷한 수준이다.

투라이는 “일단 라마가 우위를 점하고 있지만, 다른 많은 기업들도 자체 버전의 오픈소스 LLM을 개발하고 있다”라고 말했다. IBM의 그래나이트(Granite) 모델, AWS의 타이탄, 구글의 여러 오픈소스 모델 등이 그 예다. API 회사인 콩(Kong)이 최근 수백 명의 IT 전문가와 비즈니스 리더를 대상으로 실시한 설문조사에 따르면 대부분의 기업이 직접 또는 애저 AI를 통해 오픈AI를 사용하고 있으며, 구글 제미나이가 그 뒤를 이었다.

메타의 라마는 3위였다. 오픈소스 모델이 다양한 크기로 제공된다는 사실은 기업에게 풍부한 선택지가 있다는 의미다. 소규모 모델이 더 저렴하고 빠르다는 점을 감안하면 더욱 그렇다.

투라이는 “많은 기업이 실험에서 벗어나 배포 모드로 전환하고 있으며, 추론과 최적화에 드는 비용이 주요 이슈가 되고 있다. 많은 기업이 배포하려는 규모와 관련해 충격을 받고 있는 중이다”라고 말했다. 보스턴에 본사를 둔 이키가이 랩스(Ikigai Labs)는 맞춤형 대형 그래픽 모델 또는 구조화된 데이터를 다룰 수 있도록 설계된 AI 모델 구축용 플랫폼을 제공하는 기업이다.

이 기업은 인터페이스를 더 쉽게 사용할 수 있도록 프런트엔드에 LLM을 탑재하고 있다. 이를 테면 70억 개의 파라미터를 가진 팰콘 오픈소스 LLM 버전을 사용하고 일부 고객을 위해 자체 환경에서 이를 실행한다. 이키가이는 LLM에 정보를 제공하기 위해 로컬에서 실행되는 벡터 데이터베이스를 사용한다고 공동 설립자이자 공동 CEO 데바브라트 샤는 설명했다.

MIT 교수이기도 한 그는 “4년 전 MIT에서 학생들과 함께 수많은 벡터 데이터베이스를 실험해 본 적이 있다. 유용할 줄은 알았지만 이렇게 유용할 줄은 몰랐다”라고 말했다. 그에 따르면 모델과 벡터 데이터베이스를 모두 로컬에 유지하면 데이터가 제3자에게 유출되지 않는다.

“외부에 쿼리를 전송해도 괜찮은 고객에게는 오픈AI를 사용한다. 즉 우리는 LLM 종류에 구애받지 않는다”라고 말했다. 자체적으로 챗PwC(ChatPwC) 도구를 구축한 PwC도 LLM에 구애받지 않는 조직이다.

이 회사의 파트너이자 생성형 AI 시장 진출 전략의 리더인 브렛 그린스타인은 “챗PwC는 우리 직원들의 역량을 강화하는 도구다”라며, 가령 직무 설명 생성 등의 사용 사례를 위해 사전 구축된 프롬프트와 임베딩이 포함되어 있다고 설명했다. “이는 우리의 형식, 템플릿, 용어를 사용하기 위해 구현됐다. 이를 구현하기 위해 HR, 데이터, 프롬프트 전문가를 보유하고 있으며, 일관성 있는 양질의 채용 공고를 생성하기 위해 사용 사례를 최적화하고 있다.

이제 최종 사용자는 직무 설명을 생성하기 위해 프롬프트를 작성하는 방법을 알 필요가 없다”라고 그는 덧붙였다. 이 도구는 마이크로소프트 애저를 기반으로 구축됐으며, 구글 클라우드 플랫폼과 AWS용으로도 개발된 상태다. 그린스타인은 “고객들이 클라우드에 존재하고 우리는 이러한 고객에서 서비스를 제공한다”라고 말했다.

백엔드에서 다양한 모델을 사용하도록 최적화한 것도 고객이 원하는 방식이기 때문이다. 그는 “모든 주요 모델이 작동하고 있다. 클로드, 앤쓰로픽, 오픈AI, 라마, 팔콘 등 모든 것을 갖추고 있다”라고 말했다.

그는 시장이 빠르게 변화하고 있기에 기업은 후회를 최소화할 수 있는 AI 배포 정책을 마련해야 한다고 조언했다. 그린스타인은 “모델과 독립적으로 데이터를 구축하고 거버넌스를 구축하는 등 할 수 있는 일이 많다”라며, 그러면 시장이 변화하고 새로운 모델과 기술이 등장하더라도 데이터와 거버넌스 구조는 여전히 유효할 수 있다고 전했다. 파인 튜닝 경영 컨설팅 회사 에이릿(AArete)는 AWS 베드록의 클로드 2.

5 소네트에서 퓨-샷 러닝 기반의 파인 튜닝을 사용한다. 이 회사의 디지털 기술 서비스 담당 부사장인 프리야 이라가바라푸는 “AWS 미국 동부 1 리전 최상위 사용자가 우리다. 생성형 AI 애플리케이션을 프로덕션 환경으로 효과적으로 확장해왔다”라고 말했다.

-> 만약 에이릿이 호스팅 모델을 사용하고 API를 통해 연결하면 신뢰 이슈가 발생할 수 있다. 그녀는 “프롬프트의 데이터가 어디로 흘러갈지 우려하게 된다. 우리는 그런 위험을 감수하고 싶지 않다”라고 말했다.

그녀는 오픈소스 모델을 선택함 있어 다운로드 횟수, 커뮤니티 지원, 하드웨어 요구 사항을 살펴본다. “기본 모델이 작년에 시작했을 때보다 훨씬 강력해져서 업무 관련 효율성에 대해 걱정할 필요가 없어졌다. 이제 유일한 차이점은 모델에서 사용할 수 있는 토큰 수와 버전 관리가 어떻게 다른가 하는 점이다”라고 말했다.

이 밖에도 금융 및 의료 업계의 많은 기업이 자체 추가 데이터 세트를 기반으로 LLM을 파인 튜닝하고 있다. 기본 LLM은 인터넷 전체의 데이터를 학습하지만, 기업은 파인 튜닝을 통해 비즈니스 사용 사례에 맞게 특별히 타겟팅된 모델을 만들 수 있다. 이를 위한 일반적인 방법은 질문과 답변 목록을 만들고 이를 바탕으로 모델을 미세 조정하는 것이다.

실제로 오픈AI는 2023년 8월부터 Q&A 방식을 사용하여 GPT 3.5 모델의 파인 튜닝을 허용하기 시작했으며, 11월 데브데이에서 GPT 4를 위한 새로운 미세 조정, 사용자 지정 및 RAG 옵션 세트를 공개했다. 이는 고객 기업이 이미 FAQ 데이터 뱅크를 보유했을 가능성이 높은 고객 서비스 및 헬프 데스크 애플리케이션에 특히 유용하다.

PwC의 그린스타인은 SaaS 앱과 같은 애플리케이션을 구축하는 소프트웨어 회사가 파인 튜닝을 사용할 만하다고 전했다. “반복성이 높은 패턴이 있는 경우 파인 튜닝을 통해 비용을 절감할 수 있다. 단 엔터프라이즈 배포의 경우 95% 정도에게는 RAG가 더 효율적이다”라고 그는 말했다.

처음부터 시작하기 처음부터 자체 LLM을 구축하는 기업은 거의 없다. 오픈AI의 경우 1,750억 개의 파라미터를 가진 GPT 3에 45테라바이트의 데이터 세트를 학습시키는 데 460만 달러의 비용이 들었다. 오픈AI의 CEO 샘 알트먼에 따르면, GPT 4는 1억 달러가 넘는 비용이 들었다.

이 정도 규모를 투자해야 LLM이 어느 정도의 상식을 갖춰 인간의 언어를 처리할 수 있는 마법과 능력을 갖추게 된다. 인사이트(Insight)의 최고 데이터 책임자 캄 타글리엔티는“자체 LLM을 만들 수는 있지만, 이를 위해서는 상당한 데이터와 처리 능력을 투자해야 한다. 처음부터 모델을 학습시키려면 데이터를 기반으로 예상되는 LLM 작업을 실행할 수 있을 만큼 충분한 양의 데이터가 필요하다”라고 말했다.

그런 다음 모델이 기본 학습을 완료하면 모델이 사용자와 적절한 방식으로 상호 작용하는 데 필요한 인간 피드백을 통한 강화 학습 단계인 RLHF를 거쳐야 한다. 오늘날 거의 모든 LLM은 대형 하이퍼스케일러나 오픈AI, 앤쓰로픽과 같은 AI 스타트업에 의해 제공된다. 자체 모델 구축 경험이 풍부한 기업조차도 대부분 자체 LLM을 만들려 하지 않는다.

예를 들어 세일로프트는 이전 기술을 사용한 생성형 AI 모델을 포함해 수년간 자체 AI 및 ML 모델을 구축해 왔지만, 완전히 새로운 최첨단 기반 모델을 처음부터 구축하려는 시도는 삼가고 있다. 필즈는 “적어도 현 단계에서는 시작하기에 부담스러운 대규모 계산을 요구한다”라고 말했다. 모델로 채워진 정원(Model gardens) 성숙한 기업의 경우 단일 생성형 AI 모델만으로는 충분하지 않다.

각기 다른 모델은 각기 다른 종류의 사용 사례에 적합하며 비용과 성능 지표도 다르다. 그리고 새로운 플레이어들이 끊임없이 이 분야에 진입하고 있다. 일부 모델은 온프레미스 또는 코로케이션 데이터 센터에서 실행할 수 있어 기업의 비용을 절감하거나 추가적인 보안 또는 유연성을 제공하기도 한다.

이러한 옵션을 활용하기 위해 기업들은 맞춤형 모델이나 파인 튜닝 모델로 가득한 모델 정원, 신중하게 심사된 LLM의 비공개 컬렉션을 만들고 라우팅 시스템을 사용하여 적합한 모델에 요청을 전달한다. 커니의 토타는 “하지만 이 정도로 복잡한 작업을 진행하려는 회사는 아직 많지 않다. 단 미래에는 그렇게 될 것이라고 본다”라고 말했다.

[email protected].