October 14,2019

포털 사이트, 검색 최적화 위해 매진 중

구글·네이버가 사용하는 검색 알고리즘

FacebookTwitter

검색 포털 사이트는 이미 우리의 삶에 많은 영향을 미치고 있다. 정보 검색, 뉴스 등을 포털 사이트를 통해 접하고 있기 때문이다.

이로 인해 포털 사이트의 검색 상위 순위 등은 사람의 가치관 형성에 영향을 미칠 수도 있다. 즉 포털 사이트가 사람의 가치관에 혼란 등을 야기할 수 있다는 뜻이다. 이를 정보 보호 분야로 빗대어 보면, 공산주의 국가, 테러국 등이 유해 콘텐츠로 정보 전쟁을 벌일 수 있음을 시사한다.

실제로 포털 사이트는 검색 노출 때문에 정보 편협성의 비판을 받고 있다.  구글을 예로 들어보자. 작년 구글은 미국 대통령 도널드 트럼프로부터 정보 편협성의 비판을 많이 받았다. 트럼프 대통령은 본인의 비판 콘텐츠를 구글 검색 상위에 노출한다고 발언한 바 있다. 물론 구글은 이를 부인했다.

지난 2월 월스트리트저널(WSJ)은 구글과 페이스북이 정보 편협성을 불러온다고 강하게 비판했다. 정보 배치도에 따라, 사람이 접하는 정보 유형이 달라지기 때문이다.

이러한 점은 국내 검색 포털 사이트도 자유로울 수 없다. 네이버는 민감한 주제인 정치 분야의 댓글은 숨김으로 표시했고, 최신 순으로 볼 수 있게 했다. 댓글 배치 또한 정보 편협성에 영향을 미칠 수 있기 때문이다.

이처럼 검색 포털 사이트의 가치관 선동은 과장된 우려가 아니다. 실제로 영향을 미치고 있기 때문이다. 따라서 포털 사이트는 정보 제공에 책임감을 가질 수밖에 없다. 이에 네이버는 노출 배치 공정성을 위해 일반 사용자를 검색 엔진 설계에 포함하기도 했다.

검색 엔진의 기반 ‘검색 알고리즘’ 개선을 위해서도 노력하고 있다.

특히 검색 알고리즘은 정보 제공 공정성에 매우 중요하다. 알고리즘이 실질적으로 정보 노출 배치를 담당하기 때문이다. 그럼 포털 사이트는 어떤 검색 알고리즘을 사용할까? 이를 살펴보자.

포털 사이트는 검색 최적화를 위해 노력하고 있다. ⓒ Pixabay

포털 사이트는 검색 최적화를 위해 노력하고 있다. ⓒ Pixabay

구글, 논문 인용 방식에서 검색 알고리즘 공화국으로 성장

세계 최대 검색 포털 사이트인 구글은 수천억 개에 달하는 웹페이지의 정보를 모아서 검색에 따라 결과를 노출한다. 검색 알고리즘 업데이트 횟수도 어마하다.

구글은 평균적으로 매년 알고리즘을 수백 번 바꾼다. 특히 작년에는 이러한 횟수가 최고조에 달했다. 구글은 작년에 3234번이나 검색 알고리즘을 업데이트했다고 밝혔다. 하루 평균 아홉 번이나 검색 알고리즘을 개선한 것이다.

이러한 구글의 시작은 매우 미약했다. 구글 포털 사이트는 대학원 연구 과정에서 시작했다. 1999년 구글 창업자인 ‘래리 페이지’와 ‘세르게이 브린’은 연구 논문을 기고했는데, 해당 논문에는 ‘페이지랭크(PageRank)’라는 검색 알고리즘이 소개돼 있었다. 해당 논문에 나온 알고리즘이 구글 검색 엔진의 뼈대를 만드는 역할을 했다.

논문 인용 방식을 본뜬 페이지 랭크 ⓒ 위키미디아

논문 인용 방식을 본뜬 페이지 랭크 ⓒ 위키미디아

페이지랭크 원리는 단순하다. 논문 인용 방식을 참조했기 때문이다. 논문의 전문성은 인용 지수와 실린 학회지에 따라 결정된다. 이러한 점을 페이지랭크에 그대로 적용됐다.

페이지랭크는 웹 사이트의 전문성에 따라 노출되는 검색 배치도를 달리했다. 페이지랭크를 그대로 직역하면, 웹 사이트의 순위를 정한다는 뜻이다. 순위를 논문 전문성에 따라 정하는 것이다. 그럼 전문성은 어떤 근거로 매겨지는 것일까?

페이지랭크는 논문 전문성을 매기는 것처럼 해당 웹페이지의 링크 수와 해당 웹페이지 링크를 업데이트한 사이트 전문성에 따라 결정된다. 다시 말해, 특정 웹페이지가 다른 사이트에 링크로 많이 업데이트되고 링크로 달고 있는 웹페이지의 전문성이 높을수록 상위에 노출된다. 참고로 링크를 달고 있는 웹페이지의 전문성 역시 페이지랭크 알고리즘에 의해서 계산된다.

이후, 페이지랭크에는 정확성을 위해 또 다른 요인이 추가됐다. 해당 요인은 사용자의 반응이다. 페이지랭크는 구글 검색으로 들어온 사용자가 해당 웹페이지에 오래 머물면 올바른 검색 정보를 제공한 것으로 간주한다. 다른 링크로 접속하면 그렇지 않은 것으로 반영한다. 이러한 요인을 기존 알고리즘에 배수로 합산하여 정확성을 개선하도록 했다.

현재 구글 검색 엔진은 앞서 업데이트 횟수에도 알 수 있듯이 페이지랭크만을 알고리즘으로 사용하지 않는다. 차지하는 비중이 작다. 대신 여러 알고리즘을 사용하고 있다.

대표적인 알고리즘으로 랭크브레인이 있다. 랭크브레인은 낯선 단어가 검색어로 입력되더라고 검색 결과를 정확하게 보여주는 알고리즘이다. 방식은 단순하다. 낯선 단어와 가장 근접한 단어의 검색 결과를 보여준다.

그뿐만 아니라, 허밍버드(Hummingbird)는 대화형 검색 지향을 위해 개발됐다. 해당 알고리즘은 단어가 아닌 문맥으로 검색어를 이용하는 알고리즘이다.

그 외에도 구글은 질 좋은 콘텐츠를 상위에 배치하기 위해 프레드(Fred)라는 알고리즘을 적용했다. 프레드는 콘텐츠 평가요소 ‘잇트(EAT, Expertise, Authoritativeness, Trustworthiness)’를 기반으로 콘텐츠 질을 평가하고, 질이 높을수록 상위에 배치한다. 잇트라는 평가 요소는 유튜브 영상 검색 알고리즘에 적용할 예정이고, 지난 12일에는 뉴스 검색 알고리즘에 잇트가 도입됐다. 다시 말해, 구글에 표시되는 뉴스 검색 결과가 잇트의 평가 기준에 따라 배치된다.

네이버, 콘텐츠 생산 제공 중심에서 외부 검색 기능 중심으로 변화

네이버도 검색 알고리즘 개선에 노력하고 있다. ⓒ 위키미디아

네이버도 검색 알고리즘 개선에 노력하고 있다. ⓒ 위키미디아

네이버 시작은 내부 콘텐츠를 제공하는 목적으로 시작했다. 블로그, 카페, 지식인 등 여러 콘텐츠를 제공하고 있다. 이에 따라, 네이버는 제공하는 콘텐츠 분야를 나눠서 각기 다른 검색 알고리즘을 사용했다. 참고로 이를 멀티 랭키(Multi-Ranking)이라고 불렀다.

최근 네이버는 내부 콘텐츠 정보뿐만 아니라 외부 사이트까지 검색 결과에 반영하는 알고리즘을 개발하고 있다.

이를 위해 네이버는 2014년부터 2017년까지 타우린(Taurine) 과제를 진행했다. 이후 그리핀(Griffine)이라는 프로젝트가 이어 진행됐는데, 해당 과제 목적은 웹사이트라는 분야에 인공지능(AI)을 적용해 외부 사이트를 보여주는 것이다. 그 외에도 PDF와 같은 파일도 검색되게 개선했다.

사용자에게 적합한 콘텐츠 제공을 위한 알고리즘 개발도 진행됐다. C-랭크라는 알고리즘을 블로그와 지식인에 도입했다. 해당 알고리즘은 해당 사이트에 적힌 문맥을 읽고 콘텐츠 수준을 평가한다. 아울러 개인 맞춤형 검색 알고리즘도 적용했다. 이는 사용자에게 알맞은 알고리즘을 제공하기 위함이다.

의견달기(0)