LG CNS, AI 한국어 표준 데이터 10만개 무료 공개

- AI 학습용 표준데이터 ‘코쿼드 2.0(KorQuAD 2.0)’ 공개

LG CNS가 인공지능(AI) 자연어 이해를 위한 한국어 표준 데이터 10만여 개를 제작해 AI 업계에 무료 개방한다.

언어 AI를 개발하려면 학생들이 공부하는 교과서와 유사한 개념인 AI 학습용 표준데이터 필요하다.

지난해 12월 공개한 ‘코쿼드 1.0’는 AI 전문가들이 모인 국내 최대 오픈 커뮤니티 ‘텐서플로우 코리아’에서 발표한 바 있다. 네이버, 카카오 등 국내 유수 AI 기술 기업들은 코쿼드 사용해 언어 AI 개발에 나섰다.

LG CNS는 표준 데이터를 제작해 자사 AI 개발뿐만 아니라 외부에 개방, AI 연구자들 간의 시너지를 통한 국내 인공지능 발전에 기여한다는 계획이다.

▲LG CNS AI커뮤니티 행사에서 이주열 AI빅데이터연구소장이 코쿼드2.0을 소개하고 있다. [LG CNS 제공]

LG CNS는 5일 서울 강서구 마곡 LG사이언스파크에 국내 AI 전문가 300여명 초청, AI 커뮤니티 행사 ‘AI Tech Talk(테크톡) for NLU(Natural Language Understanding, 자연어 이해)’ 열어 ‘코쿼드 2.0(KorQuAD 2.0)’를 공개했다.

코쿼드 2.0은 코쿼드 1.0 대비 한국어 표준데이터를 7만개에서 10만 개로 확대했다.  또한 단답형에서 장문 답변이 가능하도록 데이터를 강화했다. 특히 AI가 표나 리스트 형태에 담긴 정보도 읽어 답변하도록 표준데이터 범위를 확대했다. 

AI 테크톡 for NLU 행사에는 한국전자통신연구원(ETRI), 서울대, KAIST 등에서 연구진과 교수진이 연사로 참석해 언어 AI 연구 성과와 최신 기술 트렌드를 공유했다. LG CNS의 코쿼드 활용해 AI 모델 성능평가 리더보드 1위 네이버 클로바AI팀이 AI 개발 제작기를 발표했다.

한국어 표준데이터는 ‘코쿼드 2.0’ 웹사이트에서 5일부터 누구나 다운로드 가능하다.

이제은 기자 itnews@