사이언스타임즈 로고

  • 과학기술인
  • 오피니언
오피니언
2005-04-14

인터넷 서핑을 즐기기 위한 크루즈- 검색엔진의 역사 정진원 연세대학교 생화학과 박사과정

  • 콘텐츠 폰트 사이즈 조절

    글자크기 설정

  • 프린트출력하기

‘구슬이 서말이어도 꿰어야 보배’라는 말이 있다. 인터넷에서 검색엔진의 역할처럼 이 말을 적절히 표현한 말은 없는 것 같다. 현재 인터넷에는 매일 60TB(테라바이트, 1012byte)의 새로운 정보가 등장한다고 한다. 그러나 정보가 이렇게 많다고 해도 필요한 정보를 적재적소에서 얻을 수 없다면 아무 소용이 없다. 검색엔진이 없었다면 인터넷의 유용성은 반감했을 것이다.


이렇게 인터넷에 생명을 불어넣은 검색엔진은 인터넷의 역사, 특히 인터넷의 대중화와 그 궤를 같이 한다. 최초의 검색엔진으로 archie를 지목하는 의견이 많다. archie는 ‘문서고’를 뜻하는 영단어 archive에서 따온 단어로 1990년에 등장했다. 인터넷이 미국립과학재단의 지원을 받아 대학가로 확장되기 시작한 것이 1980년대 후반부터였다.


당시 인터넷의 용도는 이메일과 원격지 서버에 접속하여 작업하는 telnet과 같은 터미널 작업, 그리고 FTP(file transfer protocol)에 의한 파일전송 위주였다. 특히 FTP 서버의 경우 몇몇 서버들은 누구나 접속해서 파일을 받을 수 있는 공개된 서버였다. 당시, 유용한 여러 자유소프트웨어들이 FTP 서버를 통해 공개되었으나 사용자의 입장에서는 자신들에게 필요한 프로그램의 소재를 알 수 없다는 문제점이 있었다.


이러한 문제점을 타개하고자 나온 것이 ‘archie’였다. McGill 대학의 학생이었던 Alan Emtage에 의해 개발된 archie는 지정된 FTP서버로부터 정기적으로 파일목록을 받아와 사용자로 하여금 검색가능하게 한 비교적 간단한 것이었다. archie의 인기는 1993년까지 이어졌고 후에 텍스트파일 위주의 검색엔진인 ‘veronica’의 개발에 영향을 주게 된다.


1990년 CERN(Centre Européen pour la Recherche Nucléaire, 유럽핵물리연구소)의 연구원인 Tim Berners-Lee가 연구내용의 원활한 교환과 배포를 위해 WWW(world wide web)를 제안하고 최초의 브라우저와 웹서버를 공개하면서 오늘날 인터넷 그 자체를 의미하게 된 웹이 시작되었다. 이후 1993년 미국 슈퍼컴퓨팅센터의 Marc Andreessen이 유닉스 시스템에서 작동되는 그래픽 브라우저인 Mosaic을 발표하면서 인터넷은 폭발적으로 확장되기 시작했다.


이와 비슷한 시기에 현재 검색엔진의 기반이 되는 기술들이 나오기 시작했다. Matthew Gray는 웹의 크기와 성장을 측정하기 위해 웹을 돌아다니면서 정보를 수집하는 ‘the World Wide Web Wanderer’를 고안했다. 이어서 archie와 같은 형태로 웹페이지를 모으고 색인화시킨 ‘ALIWEB’이 등장했다.


1990년대 중반은 웹의 폭발적인 성장기였던 만큼 수많은 검색엔진들이 등장했다. 한때 인터넷의 대명사였던 ‘yahoo’는 1994년, 스탠포드의 대학원생이었던 David Filo와 Jerry Yang이 자신들이 가지고 있던 웹주소들을 검색 가능한 디렉터리 형태로 정리하여 만들어 냈다. 현재 야후는 다른 검색엔진들을 사들여 검색서비스를 제공하고 있으나, 사람이 직접 분류하는 디렉터리 서비스는 여전히 이어지고 있다.


‘Lycos’ 역시 1994년 중반에 등장했다. Lycos는 Carnegie Mellon 대학의 Michale Mauldin이 개발했고 지금도 Lycos라는 상표는 Carnegie Mellon 대학의 소유로 되어 있다. Lycos는 그때까지 나온 검색엔진들과는 많은 차별성을 지녔다. 먼저 검색결과를 관련도에 따라 등급을 부여하여 제시했고 부분적인 단어만 가지고도 검색을 가능하게 했다. 게다가 1995년 Lycos는 이미 150만 페이지 이상을 색인화하여 당시로서는 대단히 큰 정보량을 자랑했다.


그러나 이러한 Lycos의 아성은 오래 지속되지 않았다. 1995년 후반 ‘altavista’가 등장한 것이다. 당시 세계에서 가장 빠른 CPU라 불렸던 alpha 프로세서를 개발하고 IBM과 중대형 컴퓨터 시장에서 자웅을 겨루던 Digital Equipment사(DEC)의 과학자들이 웹에 대한 최초의 전문(全文, full-text) 검색엔진인 altavista를 발표한 것이다.


DEC는 당시 세계컴퓨터 시장을 이끄는 강대한 기업 중의 하나였고 인터넷에 대한 거의 무제한적인 접근과 하드웨어 기반을 갖추고 있었다. 모든 단어를 색인하는 포괄적인 검색엔진은 Lycos가 앞섰지만, 색인화 범위가 한정적이어서 최초라는 단어는 altavista에게 넘어간다.


당시 인터넷 회선은 느리고 비쌌기 때문에 일개 대학의 연구실에서는 검색엔진의 덩치를 불릴 만큼 포괄적인 접근을 할 수 없었다. 그래서 기존의 검색엔진들은 네트워크의 대역을 최소로 사용할 수 있는 알고리즘을 사용하는데 집중했으나, DEC의 과학자들은 이런 제약이 없었으므로 세상의 모든 웹페이지와 단어들을 하나하나 색인화한다는 거대한 규모의 작업으로 검색엔진을 만들 수 있었다.


뿐만 아니라 강력한 하드웨어의 지원에 힘입어 자연어 검색, 다국어 지원, 실시간 번역, 사용자에 의한 실시간 주소등록, 복합검색기능이 제공되었다. altavista에서 검색되지 않는 웹페이지란 존재하지 않았고 이후 1998년까지 altavista는 검색엔진의 최강자로 군림했다.


1997년 이후 검색엔진의 지평은 조금씩 변하기 시작했다. 인터넷의 정보량이 폭발적으로 증가하면서 altavista는 그 한계를 드러내기 시작했다. 하나의 질의어에 대해서 너무나 많은 수의 결과를 보여주기 때문에 사용자 입장에서는 오히려 검색결과로 제공된 수백 수천의 페이지들을 일일이 확인해야 하는 괴로운 작업을 해야만 했다.


이러한 altavista의 약점을 틈타 HotBot, Ask Jeeves, Northern light와 같은 새로운 세대의 검색엔진들이 등장했다. altavista가 ‘모든’ 정보를 제공하려 했다면 이들은 사용자가 필요한 정보를 빠르게 찾을 수 있는데 역점을 두었다.


‘Ask Jeeves’의 경우 질문형태의 검색어에 대한 해답을 제공하는 방식을 택했고 ‘Northern light’는 collection이라는 이름 하에 4,500 여종의 저널, 리뷰지, 매거진, 책, 방송, 팜플렛, 광고 문안의 내용을 제공했다. 메타검색엔진들도 등장했다. 메타검색엔진은 여러 검색엔진의 결과를 종합하여 중요도가 높다고 생각되는 결과들만 추려서 보여주었다.


1998년, 혼란스럽던 검색엔진 분야에 새로운 강자가 등장했다. 스탠포드 대학의 전산학 전공 대학원생이었던 Larry Page와 Sergey Brin은 검색엔진이 보다 효율적으로 작동하기 위해서는 새로운 개념이 필요하다고 생각했다.


‘yahoo’와 같이 사람이 직접 유지·관리하는 목록은 보편적인 주제를 효과적으로 커버할 수 있다는 장점이 있지만, 주관적이기 쉽고 구축·유지비용이 매우 높은데다가, 개정이 느려 정보의 증가량을 따라갈 수 없으며 모든 특이한 주제를 수용할 수 없다는 단점이 있다. 한편 키워드 매칭(keyword matching)을 기반으로 하는 altavista와 같은 자동화된 검색엔진은 대개 검색결과가 너무 많고 정확도가 낮은 문제가 있었다.


이러한 문제점을 파악한 둘은 검색결과가 아주 높은 정확도를 가지게 하기 위해서 웹에 민주주의적인 방식을 도입했다. 해당 페이지의 중요도를 파악하기 위해 다른 웹페이지에서 해당 페이지를 가리키는 인바운드 링크(inbound link)의 수를 세고 이를 바탕으로 설정된 페이지 랭크라는 개념을 도입한 것이다. 생물학에 관한 중요한 정보가 있는 페이지라면 생물학에 관련된 다른 웹페이지에서 그 웹페이지를 링크로 연결하는 확률이 높을 것이라고 본 것이다. 마치 과학연구에서 중요한 논문일수록 인용하는 횟수가 높은 것처럼 말이다.


이 둘은 이 아이디어를 야후의 창업자 중 한명인 Filio에게 제안했으나, 구체적이지 않다는 이유로 거절당했다. 그러나 독자적인 회사를 설립하여 서비스를 시작한 이들의 아이디어는 적중했고 기존의 검색엔진들이 만들어낸 수백 페이지의 ‘쓰레기 검색 결과(Junk results)’에 시달리던 사람들은 ‘구글(google)’에서 불과 1-2페이지 안에 자신이 원하는 정보를 찾게 되자 환호성을 질렀다. 이후 7년이 지난 지금까지 구글은 검색엔진의 절대강자로 군림하고 있다.

저작권자 2005-04-14 ⓒ ScienceTimes

태그(Tag)

관련기사

목록으로
연재 보러가기 사이언스 타임즈에서만 볼 수 있는
특별한 주제의 이야기들을 확인해보세요!

인기 뉴스 TOP 10

속보 뉴스

ADD : 06130 서울특별시 강남구 테헤란로7길 22, 4~5층(역삼동, 과학기술회관 2관) 한국과학창의재단
TEL : (02)555 - 0701 / 시스템 문의 : (02) 6671 - 9304 / FAX : (02)555 - 2355
정기간행물 등록번호 : 서울아00340 / 등록일 : 2007년 3월 26일 / 발행인 : 정우성 / 편집인 : 윤승재 / 청소년보호책임자 : 윤승재
한국과학창의재단에서 운영하는 모든 사이트의 콘텐츠는 저작권의 보호를 받는 바 무단전재, 복사, 배포 등을 금합니다.

사이언스타임즈는 과학기술진흥기금 및 복권기금의 지원으로 우리나라의 과학기술 발전과 사회적 가치 증진에 기여하고 있습니다.