본문 바로가기

IT기반지식/디지털신기술

Semantic WEB

1. 정의

Semantic Web이란, World-wide-web을 창시한 팀 버너스리가 창안한 차세대 웹 기술로, 현재의 웹 처럼 사람이 눈으로 보고 이해하는 웹이 아닌, 컴퓨터가 이해할 수 있는 웹을 의미한다. 팀 버너스리가 정의한 Semantic Web의 정의는 다음과 같다.

"The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation." -- Tim Berners-Lee, James Hendler, Ora Lassila, The Semantic Web, Scientific American, May 2001

2. 필요성

월드와이드웹(WWW)에서의 정보검색은 사람의 해석과 판단을 요구한다. 만약 검색엔진에 `술'을 입력했다면 이 단어가 포함된 수없이 많은 웹문서가 나온다. 이의 대부분은 필요치 않은 문서인 경우가 많다. 검색자는 문서 하나 하나를 열어 확인하면서 원하는 정보를 재차 확인하는 번거로움을 감내해야 한다. 사람이 눈으로 보고 이해해야 하는 웹인 셈이다. 여기서 한발 더 나아가 컴퓨터가 이해할 수 있는 웹을 만들려는 시도가 활발히 이뤄지고 있다. `시맨틱 웹'(Semantic Web)은 생각하는 웹이다. 텍스트 위주에서 벗어나 단어의 유사성과 상관관계 등을 파악해서 결과물을 보여주려는 것이다.
웹 상에서의 그림, 문서 등의 모든 객체를 대상으로 에이전트라는 소프트웨어를 이용해 목적에 맞는 정보를 수집ㆍ가공ㆍ응용까지 시도한다. 인간의 언어를 이해하고 어떤 측면에서는 인간과 의사소통을 하는 똑똑한 웹기술이다.

3. 특징

  ? 정보를 검색할 때 더욱 정확한 결과를 가져온다.

  ? 서로 다른 이형질 소스의 정보를 통합하고 비교한다.

  ? 어떤 리소스에 대해서도 의미적이고 기술적인 정보를 연관시킨다.

  ? 웹 서비스의 자동화를 위해 웹에 세부 정보를 첨가시킨다.

 

4. 구성


현재 Semantic Web에 대한 기술 연구는 크게 웹의 표준을 담당하고 있는 W3C를 중심으로 한 RDF(Resource Description Framework) 기반의 온톨로지(Ontology) 기술과 ISO를 중심으로 한 Topic Maps 기술로 나눌 수 있다.


RDF와 온톨로지 언어

W3C를 중심으로 하고 있는 Semantic Web 기술은 크게 RDF, RDF-S(RDF Schema)와 DAML+OIL, OWL 등의 온톨로지 언어들을 꼽을 수 있다. 가장 기초가 되는 것은 RDF로, 이는 특정 자원에 대한 메타 데이터를 기술하는 XML 기반의 프레임워크이다. RDF는 레코드(record)를 하나의 기술 단위로 취급해온 기존의 방식과는 달리 자원, 속성, 속성 값을 하나의 단위로 취급하는 이른바 “Triple" 개념이 그 핵심이다. 자원 속성 표현의 세분화로 인해 자원에 대한 좀 더 정교한 기술이 가능해지고, 자원들 간의 관계 설정이 속성(Predicate)를 통해 무한으로 가능하게 되어진다. 각각의 자원들은 URI를 통해 고유 식별자를 가지게 된다. 그리고 자원을 기술하는 속성 명 또한 고유한 URl를 통해 XML Namespace에 정의되어진 속성을 사용함으로써 상호간 의미 충돌을 막는다. 속성의 값으로는 다른 URI가 지정될 수 있으며, 속성 값으로 지정된 자원 역시 다시 기술의 대상이 되기 때문에 그 자원에 대한 속성과 속성 값을 다시 부과할 수 있다.


Fig 1. RDF의 Triple 구조

RDF에서 자원을 기술하는 Triple을 다시 한번 살펴보면, 자원을 나타내는 주어(Subject), 속성을 나타내는 술어(Predicate), 속성의 값을 나타내는 목적어(Object)로 나눌 수 있다. Fig 1.의 예제는 http://www.w3.org/Home/Lassila 라는 웹의 작성자가 Ora Lassila라는 것을 표현하는 RDF의 구조이다. 그리고 [그림 3]은 이러한 구조를 RDF 문법으로 표현한 문서이다.


Fig 2. RDF 문서의 예

RDF를 기반으로 하여, 기술 대상이 되는 자원이 어떠한 클래스에 속하며, 그 자원을 기술하는데 필요한 속성에 대한 정의를 가능케 하는 스키마 언어가 등장하게 되었는데 이것이 바로 RDF-Schema이다. 이는 클래스와 클래스 간의 관계, 속성과 속성간의 관계 등을 정의할 수 있으며, 사람이 이해하는 동시에 기계 처리가 가능한 형태로 메타데이터의 속성과 클래스 간의 관계의 표현이 가능하게 되었다. 그리고 이러한 RDF-Schema에서도 충분하지 못했던 모델링 요소들을 좀 더 확장하여 강화한 것이 온톨로지 언어이다. 온톨로지 언어는 RDF-Schema에 좀더 다양한 표현력을 부가해 논리적인 추론이 가능하게 하여 비로소 웹의 의미를 기계가 이해할 수 있는 단계까지 발전시켜 Semantic Web을 완성하게 된다. 대표적인 RDF 기반의 온톨로지 언어로는 DAML+OIL, OWL(Web Ontology Language) 등이 있다.

Topic Maps

RDF와 온톨로지 언어들이 W3C를 중심으로 한 Semantic Web 기술이라면, 본 절에서 설명하는 Topic Maps는 ISO를 중심으로 한 Semantic Web 기술이다. Topic Maps는 ISO/IEC 13250 표준으로 지식 표현 기술(Knowledge Representation)의 표준이다. RDF와 마찬가지로 XML 기반의 표준 기술 언어인 XTM(XML Topic Maps)라는 언어를 사용하여 정보와 지식의 분산 관리를 지원한다. 이는 정보 자원의 구성, 추출, 네비게이션에 관계하는 새로운 패러다임으로, 정보와 지식 관리를 위해 최적화된 표현 양식을 제공하고 있다. Topic Maps는 지식층과 정보층의 이중 구조를 나타내는데, 지식층은 상위 계층으로 토픽(topic)과 토픽간의 연계(Association)로 구성된다. 토픽은 특정 주제를 나타내는 표현이고, 연계는 주제들 간의 관계를 나타내는 표현이다. 정보층은 디지털 컨텐츠를 나타내며, 이들 지식층과 정보층은 어커런스(Occurrence)를 통해 상호 연결이 이루어진다. 다음 Fig 3.은 Topic Maps의 이러한 이중 구조를 표현하고 있다.


Fig 3. Topic Maps의 이중 구조

 

8. 전망

시맨틱 웹에 대한 연구는 현재 크게 언어(language), 기반구조(infrastructure), 온톨로지(ontology), 휴먼 인터페이스(human interface) 등의 세부 주제로 나누어서 얘기할 수 있다. [12]

시맨틱 웹 언어는 온톨로지 언어와 같은 의미로서 시맨틱 웹의 내용을 표현하는데 반드시 필요한 도구이기 때문에 시맨틱 웹의 초기 단계에서는 이러한 언어의 개발이 가장 활발한 연구분야일 수밖에 없다. 잘 정의된 언어가 존재해야 시맨틱 웹의 주요 이슈인 상호운용성이 성취될 수 있으므로 언어에 대한 연구결과는 시맨틱 웹의 다른 분야에 대해서도 많은 영향을 끼친다. 이미 RDF, RDF 스키마, DAML+OIL, OWL 등의 시맨틱 웹 언어에 대한 제안서와 표준들이 많이 도출되었지만 시맨틱 웹 언어에 대한 표준이 주로 구문구조(syntax) 위주로 정의되어 왔으며 앞으로 각 구문구조에 대한 의미(semantics)를 부여하는 방향으로 연구가 이루어져야 한다. [13]

기반구조는 프로토콜이나 전송방법 등을 의미한다. 이러한 기반구조는 온톨로지나 변환, 추론 엔진 등의 repository를 제공할 필요는 없지만 이러한 repository에 접근하기 위한 표준 방법을 가지고 있어야 한다. 기반구조는 웹 자원의 식별과 탐색, 상호운용성 지원 방법, 지식 보호 방법, 신뢰성 있는 지식 소스 선택 방법 등에 대한 방향으로 연구가 진행되고 있다.

온톨로지는 시맨틱 웹에서 가장 중심에 있는 개념으로서 응용 프로그램 사이에 통신을 할 때 단어에 대한 동의를 이끌어내는데 중요하다. 현재 온톨로지에 대한 연구는 온톨로지 개발 방법, 이론적 이슈, 전략적 온톨로지 필요성 인식 및 개발, 향상된 툴의 개발 등에 방향이 맞추어져 있다.

휴먼 인터페이스는 응용 프로그램에 대한 사용자 인터페이스(user interface)와 좀 더 넓은 의미의 조직 인터페이스(organizational interface)를 모두 지칭한다. 사용자 인터페이스는 사람들이 시맨틱 웹 기술을 이용해서 서로 통신하기 위한 소프트웨어와 하드웨어를 의미하고, 조직 인터페이스는 그룹 사이의 상호작용에 필요한 인터페이스를 말한다.

시맨틱 웹에 대해서 가장 활발한 연구를 하는 기관은 웹 표준화 단체인 W3C라고 할 수 있다. 원래 W3C는 웹과 관련된 언어나 프로토콜, 소프트웨어, 툴과 같은 상호운용적인 기술(interoperable technologies)을 개발하는 기관이며 주로 표준화 작업에 중점을 두고 있다. 시맨틱 웹에 대한 노력은 주로 RDF와 온톨로지에 대한 표준을 정의하는 방향으로 이루어지고 있으며 RDF Interest Group, RDF Core Working Group, Web Ontology Working Group 등 소위원회를 통해 세부적인 사항을 결정하고 있다.

국내에서의 시맨틱 웹 연구는 주로 인공지능 연구 그룹과 데이터베이스/전자상거래 연구 그룹을 중심으로 진행되고 있지만 아직 초기 단계라고 할 수 있다. 인공지능 연구 그룹에서는 시맨틱 웹의 온톨로지나 Logic의 개념이 인공지능에서 다루는 지식표현과 추론, 학습 등의 주제와 크게 다르지 않기 때문에 웹을 도메인으로 하여 기존의 지식을 응용하는데 주력하고 있다. 인공지능 워크샵이나 지능형 에이전트 워크샵과 같은 인공지능 연구그룹의 학술활동이 최근 이 부분에 대한 비중을 높이고 있으며 추후의 국내 인공지능 그룹의 연구방향이 시맨틱 웹을 중심으로 이루어질 것으로 예상하고 있다. 데이터베이스/전자상거래 연구 그룹에서는 이전부터 관심을 가져온 XML의 표현 방법을 바탕으로 XML과 RDF의 데이터베이스와의 연계성에 중점을 두고 시맨틱 웹 연구를 해오고 있다. 또한 전자상거래 분야에서 상거래 문서들의 상호운용성을 위한 XML 기반 언어 개발이나 시맨틱 웹 정보의 보안 처리 문제 등도 다루고 있다.

아직까지 국내에서 시맨틱 웹의 연구가 많이 활성화되지 않은 것은 새롭게 부상하기 때문에 잘 알려지지 않은 분야라는 점도 있고, 시맨틱 웹의 필요성을 절감할 수 있는 killer application의 개발이 아직 이루어지지 않는 것도 하나의 이유라고 할 수 있다. 시맨틱 웹 관련 워크샵이나 프로젝트 모임 등에서 연구소나 업체에서 시맨틱 웹의 응용 사례를 발표하기도 하였지만 아직은 연구 수준의 응용이고 시맨틱 웹의 개념을 테스트하기 위한 시도 정도라고 볼 수 있다. 따라서 시맨틱 웹의 발전에 있어서 가장 중요한 것은 적절한 규모의 응용을 찾아 구현하고 그 효용성을 보여주는 것이다.

2003년 들어서 정부차원에서 시맨틱 웹의 중요성을 인식한 보도 자료들이 일부 나오고 있으며 이제는 대학뿐 아니라 연구소나 기업들 중에도 그 효용성을 긍정적으로 받아들이는 곳이 다수 나타나고 있다. 정보통신부는 앞으로 3년간 142억원을 들여 시맨틱 웹과 지식처리엔진 등 지능형 e-비즈니스 플랫폼 기술을 개발한다고 밝혔고, 이 지능형 e-비즈니스 플랫폼 기술이 지금의 전자거래처리시스템을 지능화, 자동화한 차세대 기술로 ERP, e-Marketplace, SCM 등 기존 e-비즈니스 시스템에 적용할 경우 생산성을 향상시키고 거래비용을 획기적으로 절감해줄 수 있을 것으로 기대한다.

출처 : Naver 지식iN