[더리포트=김태우기자] 헬스케어, 언어, 자율주행 등 업계가 손꼽아 기다려온 AI 학습용 ‘데이터 댐’이 개방된다.

정부는 그동안 국내 주요 인공지능·데이터 전문기업과 서울대학교, 카이스트 등 48개의 주요 대학, 서울대병원, 아산병원 등 총 674개 기업·기관과 함께 데이터 댐을 만들어왔다. 분야별 산·학·연 전문가, 주요 활용기업 등이 참여해 민간의 광범위한 수요를 해소하기 위해 경주한 것이다. 이로써 이번 데이터 개방은 국내 인공지능 기술 및 산업 발전의 촉진제가 될 전망이다.

과학기술정보통신부와 한국지능정보사회진흥원은 18일 인공지능 학습용 데이터 170종(4억8000만건)을 인공지능(AI) 허브를 통해 개방한다고 밝혔다.

이 170종은 음성·자연어(한국어 방언 등 39종), 헬스케어(암진단 영상 등 32종), 자율주행(도로주행영상 등 21종), 비전(스포츠 동작 영상 등 15종), 국토환경(산림수종 이미지 등 12종), 농축수산(가축행동 영상 등 14종), 안전(노후 시설물 이미지 등 19종), 기타(패션상품 이미지 등 18종) 등 8개 분야다.

먼저 자율주행 데이터(21종)는 국내 도로주행 영상과 주차 장애물·이동체 인지 영상, 버스 노선주행 영상 등이다. 업계서는 이 데이터가 자율주행차 개발을 한층 앞당길 것으로 기대하고 있다.

또한 헬스케어 데이터는 AI 허브와 연결된 '안심존' 홈페이지에서 오는 30일부터 개방된다. 대부분은 비전(이미지)·영상 데이터 형태다. 데이터를 촬영해서 외부에 유출할 수 없도록 워터마킹 처리돼 반출된다.

아울러 한국어 방언(경상·전라·충청·강원·제주) 발화 데이터는 표준어에 비해 사투리를 잘 인식하지 못하던 음성 기반 인공지능(AI) 서비스의 문제점을 해결하는 데 도움을 줄 것으로 보인다.

특히 인공지능 학습용 데이터는 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려운 중소기업과 스타트업뿐 아니라, 대기업에 요긴하게 쓰일 것으로 예측되고 있다.

양기성 데이터진흥과장은 “헬스케어, 음성, 자율주행 등 업계가 손꼽아 기다린 기본 데이터 구축에 초점을 맞췄다”며 “자사 서비스에 특화된 데이터를 확보하기 위해서는 추가 가공이 필요할 것”이라고 말했다.

 

 

 

저작권자 © 더리포트 무단전재 및 재배포 금지