서울시가 불법대부, 다단계 판매 같은 민생범죄 수사에 국내 최초로 인공지능(AI) 기술을 도입한다고 밝혔다.
빅데이터 기술로 SNS, 블로그 등 온라인 콘텐츠 가운데 불법성이 의심되는 게시글이나 이미지를 실시간으로 수집·저장하고, 이런 불법광고에서 자주 발견되는 패턴 등을 인공지능에 학습시켜 정상적인 게시물과 불법 게시물을 분류하는 것이 핵심이다.
최근 민생범죄가 증가 추세인 가운데 카카오톡 같은 메신저나 SNS, 블로그 등 온라인 플랫폼을 통한 사이버범죄도 증가하고 있다. 특히, 한글을 파괴하거나 은어, 신조어, 기호 등을 활용한 불법 광고물이 인터넷 상에 확산되고 있지만 검색이 어렵고 생성‧삭제가 쉬운 온라인 특성상 증거 수집이 쉽지 않아 수사에 어려움을 겪고있는 실정이다.
* 민생범죄의 형사입건 수 : ’14(993건) ⇢ ’15(1,124건) ⇢ ’16(1,190건)⇢ ’17(1,423건)
이렇게 되면 수사관이 일일이 인터넷 사이트를 방문하거나 검색해서 게시물의 불법성을 판단했던 기존 방식 대신 빅데이터 분석 기법으로 인터넷 상의 막대한 양의 수사단서를 신속‧정확하게 찾을 수 있게 된다. 인공지능과 빅데이터 기술로 단순 반복 업무를 자동화함으로써 수사관의 업무 효율성이 더욱 높아질 것으로 기대된다.
서울시는 연말까지 관련 시스템을 구축해 ‘인공지능(AI) 수사관’을 도입한다고 밝혔다. 불법 콘텐츠 분류 정확도를 90% 이상으로 끌어올린다는 목표다.
우선 연말까지 불법 대부업, 다단계, 부동산 불법 거래, 상표권 침해행위 등 5개 분야 수사에 적용하고, 내년부터 수사분야를 점진적으로 확대해나간다는 계획이다.
시는 이번 기술용역을 통해 한글을 파괴하거나 기호나 은어 사용 등 검색을 회피하는 다양한 패턴을 찾아내는 ‘알고리즘’을 개발할 계획이다. 뿐만 아니라 최근 불법광고 내용을 텍스트 형태가 아닌 이미지에 삽입해 검색을 피하는 수법이 증가함에 따라 이미지를 분석해 정보를 추출하는 기술도 추가적으로 도입한다는 계획이다.
[한글파괴를 이용한 불법 콘텐츠 사례]
[이미지를 이용한 게시물 필터링 우회 사례]
한편, 앞서 시는 수사영역에 인공지능 기술 적용 가능성을 검증하기 위해 불법 다단계‧방문판매 분야를 대상으로 인공지능 알고리즘을 개발하는 시범사업(‘18.5.~7.)을 실시해 82%의 분류정확도를 확보했다. 즉, 수사관이 수많은 콘텐츠 중에서 100개의 불법 콘텐츠를 육안으로 찾아낸다면, 인공지능 알고리즘은 자동으로 82개를 찾아내는 셈이다.
시범사업은 ‘머신러닝’ 기법(데이터를 이용해 특성과 패턴을 학습해 그 결과를 바탕으로 미지의 데이터에 대한 미래 값을 예측하는 방식)을 활용해 알고리즘을 개발하는 식으로 이뤄졌다. 특히 범죄수사라는 특수성을 고려해 베테랑 수사관들의 노하우를 기계에 학습시키는 ‘지도학습(supervised learning)’ 기법을 사용했다.
특히, 이번 시범사업을 통해 ‘대출’→‘머출’, ‘명작’→‘띵작’ 같이 자‧모음의 유사성을 이용해서 비슷한 글자로 바꿔쓰는 일명 ‘야민정음’ 등 기존에 인지하지 못한 새로운 키워드를 발견하는 등의 추가적인 성과도 있었다고 시는 덧붙였다.
김태균 서울시 정보기획관은 “민생범죄로부터 시민의 안전이라는 구체적인 목표를 달성하기 위해 인공지능을 수사에 활용한 최초 사례”라면서 “앞으로 인터넷 상의 잘못된 정보로 인해 피해 받는 시민들을 보호하기 위해 4차 산업혁명 기술을 적극 활용하고 스마트도시 행정서비스를 선도해가기 위해 최선을 다하겠다.”고 말했다.
김영환 기자 kyh@newsone.co.kr