웨이모, 엠마(EMMA) 논문 공개 “멀티모달 모델을 자율 주행 영역으로 확장”

자율 주행 기술에서 고려해야 하는 가장 어려운 점은 모든 것이 실시간이라는 것이다. 자동차가 이동하는 도로 위에서 만나는 모든 요소를 지체 없이 구분하고 분석하고 예측해야 한다. 더구나 빠른 속도로 달리는 자동차의 주행과 안전에 직결되는 만큼 사람의 판단력만큼이나 빨라야 한다.따라서 자율 주행 자동차에 장착된 다양한 센서에서 수집하는 정보를 멀티모달 대규모 언어 모델의 도움으로 빠르게 이행하고 추론할 수 있다면, 고속으로 주행하면서 방대한 정보를 분석해야 하는 자율 주행 기술을 향상할 수 있다. 이번 연구는 이러한 멀티모달 모델을 자율 주행에 적용할 수 있는 방법을 적용해 엔드투엔드 접근 방식의 장단점을 연구하는 것이 목표다.웨이모는 “멀티모달 대규모 언어 모델 기반에 구축된 엠마는 원시 카메라 센서 데이터를 플래너 궤적, 인식 개체, 도로 그래프 요소 등 다양한 주행 관련 출력으로 직접 매핑한다. 엠마는 모든 비센서 입력(예: 내비게이션 지침 및 차량 상태)과 출력(예: 궤적 및 3D 위치)을 자연어 텍스트로 표현하여 사전 학습된 대규모 언어 모델의 세계 지식의 활용도를 극대화한다”라고 밝혔다.엠마는 대규모 멀티모달 학습 모델을 자율 주행 기술의 영역으로 확장하는 연구로, 우수한 공간 이해와 추론 기술을 필요로 하는 자율 주행에 맞게 모델을 미세 조정하고, 센서를 통해 얻은 정보를 멀미모달 대규모 언어 모델이 가진 지식과 통합한다. 이를 통해 여러 자율 주행 과제에서 최첨단 또는 긍정적인 결과를 달성했다는 것이 웨이모의 설명이다.이번 연구에서 중점적으로 진행한 내용은 ►엔드투엔드 학습(End-to-End Learning) ►통합 언어 공간(Unified Language Space) ►연쇄적 사고 추론(Chain-of-Thought Reasoning) 세 가지다. 또한, 공동으로 학습한 단일 엠마의 작업 결과를 통해 많은 자율 주행 애플리케이션을 위한 범용 모델로서 잠재력을 확인하는 것이다.통합 언어 공간은 엠마가 비센서(non-sensor) 입력과 출력을 자연어 텍스트로 표현하여 제미나이가 가진 지식을 극대화하는 것을 의미한다. 연쇄적 사고 추론은 연쇄 추론을 사용해 의사 결정 프로세서를 개선함으로써 엔드투엔드 계획의 성과를 향상하고 의사 결정에 해석 가능한 근거를 제공한다.향후 연구 과제에 대해 “엠마는 소량의 이미지 프레임만 처리할 수 있고, 라이다(LiDAR)나 레이더와 같은 정확한 3D 감지 방식을 통합하지 못하며, 계산 비용이 많이 든다는 한계도 있다. 이번 연구 결과가 이러한 문제를 완화하고 자율주행 모델 아키텍처의 최첨단 기술을 더욱 발전시키기 위한 추가 연구에 영감을 줄 수 있기를 바란다”라고 웨이모는 밝혔다[email protected]

featured-image

자율 주행 기술에서 고려해야 하는 가장 어려운 점은 모든 것이 실시간이라는 것이다. 자동차가 이동하는 도로 위에서 만나는 모든 요소를 지체 없이 구분하고 분석하고 예측해야 한다. 더구나 빠른 속도로 달리는 자동차의 주행과 안전에 직결되는 만큼 사람의 판단력만큼이나 빨라야 한다.

따라서 자율 주행 자동차에 장착된 다양한 센서에서 수집하는 정보를 멀티모달 대규모 언어 모델의 도움으로 빠르게 이행하고 추론할 수 있다면, 고속으로 주행하면서 방대한 정보를 분석해야 하는 자율 주행 기술을 향상할 수 있다. 이번 연구는 이러한 멀티모달 모델을 자율 주행에 적용할 수 있는 방법을 적용해 엔드투엔드 접근 방식의 장단점을 연구하는 것이 목표다. 웨이모는 “멀티모달 대규모 언어 모델 기반에 구축된 엠마는 원시 카메라 센서 데이터를 플래너 궤적, 인식 개체, 도로 그래프 요소 등 다양한 주행 관련 출력으로 직접 매핑한다.



엠마는 모든 비센서 입력(예: 내비게이션 지침 및 차량 상태)과 출력(예: 궤적 및 3D 위치)을 자연어 텍스트로 표현하여 사전 학습된 대규모 언어 모델의 세계 지식의 활용도를 극대화한다”라고 밝혔다. 엠마는 대규모 멀티모달 학습 모델을 자율 주행 기술의 영역으로 확장하는 연구로, 우수한 공간 이해와 추론 기술을 필요로 하는 자율 주행에 맞게 모델을 미세 조정하고, 센서를 통해 얻은 정보를 멀미모달 대규모 언어 모델이 가진 지식과 통합한다. 이를 통해 여러 자율 주행 과제에서 최첨단 또는 긍정적인 결과를 달성했다는 것이 웨이모의 설명이다.

에서 중점적으로 진행한 내용은 ►엔드투엔드 학습(End-to-End Learning) ►통합 언어 공간(Unified Language Space) ►연쇄적 사고 추론(Chain-of-Thought Reasoning) 세 가지다. 또한, 공동으로 학습한 단일 엠마의 작업 결과를 통해 많은 자율 주행 애플리케이션을 위한 범용 모델로서 잠재력을 확인하는 것이다. 통합 언어 공간은 엠마가 비센서(non-sensor) 입력과 출력을 자연어 텍스트로 표현하여 제미나이가 가진 지식을 극대화하는 것을 의미한다.

연쇄적 사고 추론은 연쇄 추론을 사용해 의사 결정 프로세서를 개선함으로써 엔드투엔드 계획의 성과를 향상하고 의사 결정에 해석 가능한 근거를 제공한다. 향후 연구 과제에 대해 “엠마는 소량의 이미지 프레임만 처리할 수 있고, 라이다(LiDAR)나 레이더와 같은 정확한 3D 감지 방식을 통합하지 못하며, 계산 비용이 많이 든다는 한계도 있다. 이번 연구 결과가 이러한 문제를 완화하고 자율주행 모델 아키텍처의 최첨단 기술을 더욱 발전시키기 위한 추가 연구에 영감을 줄 수 있기를 바란다”라고 웨이모는 밝혔다.

[email protected].