Technology Innovation Institute
Sneha Sivanand, sneha.sivanand@tii.ae
아부다비 첨단기술연구위원회(ATRC) 산하의 글로벌 연구센터이자 응용연구 전담기관인 기술혁신연구소(Technology Innovation Institute, 약칭 TII)가 세계 최대 규모의 아랍어 자연어 처리(NLP) 모델인 누어(NOOR)를 출시했다고 8일 발표했다.
TII의 선임 연구원 및 인공지능(AI) 전문가팀은 라이트온(LightOn)과 협력해 아랍어 NLP 모델을 혁신하기 위해 기업에 적용되는 대규모 기계 지능(machine intelligence)을 개발했다. NOOR 모델은 크롤링, 필터링 및 큐레이션 등 단대단 파이프라인 고품질 데이터를 제공해 언어 영역을 넘어 작업을 수행할 수 있는 기능을 갖추고 있다. 또한 이 모델은 효율적인 추론과 모델 특성화를 통해 애플리케이션을 제공할 수 있는 방대한 규모의 분산형 훈련과 서비스를 활성화한다.
TII 및 어스파이어(ASPIRE) CEO인 레이 O. 존슨(Ray O. Johnson) 박사는 “이번 개발로 우리는 아부다비와 아랍에미리트의 위상을 진지한 연구 생태계로 격상시키는 것은 물론 연구 역량과 적격성 향상을 위한 궤도에 진입했다”며 “우리의 전문가팀은 이 지역이 전 세계에 영향을 미칠 수 있는 획기적인 R&D 성과를 이뤄낼 수 있음을 다시 한 번 입증했다”고 말했다.
TII의 AI 크로스센터 사업단 이사인 에브티삼 알마즈루에이(Ebtesam Almazrouei) 박사는 “대규모 언어 모델이 전 세계의 자연어 처리 분야에 돌풍을 일으켰다”며 “세계에서 가장 규모가 큰 아랍어 모델로 100억 개의 매개변수를 포함하는 첨단 모델을 개발하게 돼 자랑스럽다”며 “모델 훈련을 위해 수집된 독자적인 대규모 아랍어 데이터세트는 다양한 소스를 큐레이션·스크래핑·필터링하는 등 수개월 간 공들인 작업의 결과물”이라고 말했다. 이어 “NOOR가 전 세계 학계와 업계가 찾는 아랍어 분석 모델이 되도록 이 프로젝트에 힘을 쏟은 팀에게 특별한 감사의 뜻을 전한다”고 덧붙였다.
TII 디지털 과학 연구 센터 및 AI 크로스센터 사업단 수석연구원인 메루아니 데바(Mérouane Debbah) 박사는 이번 출시에 대해 “NOOR를 통해 TII는 이 새로운 세대의 AI 연구에서 여러 학문 분야에 걸친 고급 전문지식을 구축할 수 있는 대규모 언어 모델의 노하우를 활용함으로써 현대 표준 아랍어 모델의 범위를 확대했다”고 강조했다.
300억 개 이상의 단어를 포함하는 NOOR 고유의 데이터세트는 모든 영역을 망라하는 세계 최대의 고품질 아랍어 데이터세트를 체계화하기 위해 웹 데이터와 서적, 시, 뉴스 및 모델의 적용 가능성을 크게 확장하는 기술 정보를 결합한다.
에브티삼 알마즈루에이 박사는 NOOR 모델은 흔히 사용하는 변환기 아키텍처를 기반으로 한다고 밝혔다. GPT-3 구조와 유사한 디코더 전용 모델로 더 나은 위치로의 임베딩(embedding) 등의 개선사항을 포함해 최신 머신 러닝 기술 발전을 반영하고 업그레이드된 아키텍처를 통해 생성 과제를 처리하도록 프로그래밍했다. TII는 NOOR 데이터세트의 규모에 맞는 품질을 보장할 수 있도록 머신 러닝 기술을 기반으로 자동 필터링 파이프라인을 설계했다. 이 툴은 품질 참조와 같은 원문을 식별하고 모델이 스팸 콘텐츠에 노출되지 않도록 지켜준다.
첨단 3D 병렬 처리를 활용하는 NOOR는 128개의 A100 GPU를 통해 고성능 컴퓨팅 리소스에 대한 훈련을 거쳐 연산 배분이 가능하고 하드웨어 리소스의 효율적 사용을 보장한다.
크로스센터 사업단 이사는 이는 인공지능을 통해 더 광범위한 아랍에미리트 전략에 기여하려는 사업단 노력의 첫 단계일 뿐이라고 강조했다.
아랍어의 ‘빛(Light)’에서 이름을 딴 이 모델은 마음을 깨우쳐주는 것과 아랍어 모델의 상관관계가 성립된다는 의미를 담고 있다.
기술혁신연구소(TII: Technology Innovation Institute) 개요
웹사이트 www.tii.ae 참조.
[이 보도자료는 해당 기업에서 원하는 언어로 작성한 원문을 한국어로 번역한 것이다. 그러므로 번역문의 정확한 사실 확인을 위해서는 원문 대조 절차를 거쳐야 한다. 처음 작성된 원문만이 공식적인 효력을 갖는 발표로 인정되며 모든 법적 책임은 원문에 한해 유효하다.]
Technology Innovation Institute
Sneha Sivanand, sneha.sivanand@tii.ae