02 J4_200800098_R.hwp ISO 14721 OAIS 참조모형을 활용한 웹 아카이빙의 메타데이터 구조 요소 정의 651 ISO 14721 OAIS 참조모형을 활용한 웹 아카이빙의 메타데이터 구조 요소 정의 오 상 훈 † ․최 선 †† 요 약 본 연구에서는 웹 아카이빙에서 가치 있는 웹 자원의 수집, 리 보존을 해 요구되는 메타데이터의 구조를 설계하고 요소를 정의하 다. 본 연구를 해 국립 앙도서 ‘OASIS’등의 웹 아카이빙에서 수집 자원의 장기 보존을 해 활용되는 메타데이터를 조사하고, 웹 아카이 빙의 각 로세스 단계별 요구사항 웹 자원의 특성을 분석하 으며, 특히 장기 보존을 한 아카이빙의 개념 틀을 제공하는 ISO 14721 OAIS 참조모형을 기반으로 제안하 다. 한 웹 아카이빙 간의 자원 공유를 한 메타데이터의 상호운용성을 고려하 다. 그 결과 본 연구에 서는 웹 아카이빙에서 자원의 체계 이고 효율 인 수집, 리, 운 보존을 한 설명 , 구조 , 리 그리고 보존 유형의 4개 메타데 이터 구조를 설계하고 28개의 필수 메타데이터 요소를 정의하 다. 키워드 : 디지털 자원, 온라인 디지털 자원, 웹아카이빙, 메타데이터, 보존 메타데이터, OAIS 참조모형 A study on Designing Metadata Structure and Element on Web Archiving based on the ISO 14721 OAIS Reference Model Oh Sang Hoon † ․Choi Young Sun †† ABSTRACT This study is to develope the structures and the elements of the metadata for harvesting, management and preservation of a valuable web resources in the web archiving. For this study, we investigated the available metadata in the web archiving and surveyed the requirements of web archiving process. And we analyzed the characteristics of web resources. Also, this study was used a based on the ISO 14721 OAIS Reference Model. Finally, to share the metadata elements among the web archiving system, this study considered the interoperability for the exchange of the metadata. Based on the result, this study designed four structures of the metadata and defined the 28 core metadata elements for the web archiving. Keywords : Digital Resources, Online Digital Resources, Web Arhiving, Metadata, Preservation Metadata, OAIS Reference Model 1. 서 론 1) 1.1 연구배경 오늘날 정보통신기술의 속한 발달은 통 인 지식정보 자원의 생산․수집․ 리․축 방식에 변화를 가져왔다. 가치 있는 지 자원들이 다양한 형태의 디지털 자원으로 생산되 고 있으며, 기존 자원들도 디지털로 재생산 되고 있다. 그러 ※ 본 논문은 2007년도 국립 앙도서 「OASIS 표 화연구」의 지원으로 수행됨. †정 회 원:(사)한국디지털콘텐츠산업 회 사무국장 ††정 회 원:(사)한국디지털콘텐츠산업 회 연구원 논문 수:2008년 10월 16일 수 정 일:1차 2009년 6월 5일, 2차 2009년 7월 29일 심사완료:2009년 8월 10일 나 디지털 자원들은 태생 으로 물리 인 형태가 없으며, 가변 인 성질을 갖고 있어 빠르게 소멸될 수도 있다는 문 제 이 있다. 이에 2003년 10월 유네스코에서는 이러한 디 지털 자원의 수집과 보존을 해 인터넷 지식자원의 보존 이용에 한 내용을“디지털 유산 보존 헌장”에서 천명하 으며[1], 세계 각국에서는 웹 아카이빙을 운 하며 온라인 자원을 수집하고, 보존하기 한 노력을 하고 있다. 국립 앙도서 에서도 가치 있는 인터넷 자료(디지털 자원)를 국 가 인 차원에서 수집․보존하고자 OASIS(Online Archiving & Searching Internet Sources, 이하 OASIS) 로젝트를 2001년부터 추진해 오고 있다[2]. 웹 아카이빙은 쉽게 사라지는 인터넷 상의 진본의 자원을 DOI: 10.3745/KIPSTD.2009.16D.5.65 1 652 정보처리학회논문지 D 제16-D권 제5호(2009.10) 효과 으로 수집․ 리하고 장기간 보존하여 미래 세 에 달하는 목 을 갖고 있다. 이에 디지털 자원을 기술 (Description)하고, 체계 으로 리하며 이용자들에게 효율 인 검색을 제공해 주기 해서는 자정보, 네트워크 정 보를 한 메타데이터가 필요하게 되었다. 특히 웹 자원은 표 하는 수단과 종류가 다양하여 이들을 체계 이고 효율 으로 리하기 해서는 각 매체별․유형별 특성화된 리요소가 있어야 한다. 더불어 웹 아카이빙에서 는 자원을 수집․ 리 할 뿐만이 아니라 미래의 이용자들에게 재의 가치 있는 자원을 달해 주기 한 보존단계별 기 능을 포함한 체 인 메타데이터 구조와 요소가 제시되어 야 한다. 따라서 본 논문에서는 OASIS 웹 아카이빙의 주요 수집 자원인 웹사이트, 웹 문서, 웹 자원(개별 일)을 상으로 리하고 보존하기 한 단계별․기능별 요구사항을 충족 할 수 있는 메타데이터 구조와 요소를 개발하 다. 1.2 연구목 수행 방법 본 연구는 향후 디지털 자원의 웹 아카이빙을 해 내․외 부에 있는 디지털 자원을 보존하기 한 주체와 상 자원 의 체계 인 수집, 리, 장 서비스를 한 체계 인 리방안을 제시하고자 하 다. 따라서 OASIS 로젝트의 황 분석과 웹 아카이빙 련 해외 표사례를 조사 분석하 다. 그 결과를 기반으 로 OASIS 웹 아카이빙에 용 가능한 메타데이터를 개 발하기 해 ISO 14721 OAIS 참조모형에서 제시하는 웹 아 카이빙 업무단계별, 기능별 로세스에 따른 구조와 요소를 용하고자 하 다. 2. 웹 아카이빙 메타데이터 사례연구 2.1 메타데이터 개요 메타데이터는 데이터에 한 데이터로서, 실제 콘텐츠는 아니면서 그에 한 각종 정보를 갖고 있는 데이터를 의미 하며, 일반 으로 다음의 2가지 기능을 갖는다. 첫째는 정보 검색을 지원하는 기능으로 정제된 정보를 제공하여 자원의 식별과 이용에 도움을 뿐만 아니라 자원에 가치를 부가 하여 자원의 검색에 유용하게 한다. 둘째는 자원을 체계 으로 리하고 효과 인 이용을 지원하기 해 자원을 기술 하고, 범주화하며 자원의 연 (history) 정보를 기록하는 것 이다[3]. 웹 아카이빙을 한 메타데이터는 추가 으로 보존 정보 를 지원하기 한 기능이 요구된다. 보존정보는 자원의 생 명주기 과정에 한 모든 정보를 포함하고 있어야 한다. 이는 데이터 객체에 한 정보 뿐 아니라 그 자원을 리하 기 해 요구되는 소 트웨어와 하드웨어 등의 정보 그리고 자원 리에 련된 리자에 한 정보 등 자원 보존 활동 에 련된 모든 정보를 구체 으로 표 해야한다. 이러한 역할을 하는 메타데이터를 보존 메타데이터라고 한다[4]. 웹 아카이빙에서 보존메타데이터란 “장기 으로 자 기록들이 환경이 변하여도 계속 활용될 수 있게 하는 생존 능력 (Viability), 이용자 는 리자의 요구에 따라 처리 표 기될 수 있는 능력(Renderability), 리자에 의하여 기록된 정보들을 식별할 수 있게 해주는 능력(Understandability)을 유지하기 해 필요한 지식 정보”로 정의된다[5]. 2.2 웹 아카이빙 메타데이터 사례분석 2.2.1 Dublin Core [6] 더블린 코어(Dublin Core) 메타데이터는 데이터의 호환성 을 유지하고 네트워크 자원의 기술에 필요한 일련의 데이터 요소를 규정하여 이들 자원의 신속한 검색을 목 으로 1995 년 OCLC와 NCSA(National Center for Supercomputer Application)가 더블린에서 개최된 워크 에서 합의되었다. Dublin Core Metadata Element Set, Version 1.1이 발표되 었으며, ISO Standard 15836-2003 (February 2003)과 ISO Standard Z39.85-2007 (May 2007)로 채택되었다. 더블린 코 어 메타데이터는 메타데이터 표 개발에 폭넓게 이용되는 국제 표 메타데이터로 보편 이고 단순한 메타데이터 요 소를 구성하여 문가와 비 문가 모두에게 이용 된다. 한 고유성, 확장성, 구문독립성, 선택성, 반복성, 수정가능성 원칙을 근거로 15개 메타데이터 요소를 제안하 다. 특히 자도서 기 웹 아카이빙에서 자원을 수집 리 하기 해 메타데이터 개발 시 기 이 되었다. 2.2.2 OASIS [2] OASIS는 2001년 11월 '온라인 작물 수집․보존 시스템 구축 ISP 시범시스템 개발'을 시작으로 2005년 웹기반 OASIS 시스템 확장 개선 사업을 완료 하 으며, 2006년 OASIS 홈페이지를 통해 국민 서비스를 실시하고 있는 우 리나라를 표하는 웹 아카이빙이다. OASIS는 수집된 자원 의 메타데이터를 기술하기 하여 디지털 정보자원에 한 국제 데이터 기술 표 화 형식인 더블린 코어 메타데이터 요소와 OASIS 수집 자원 리를 한 요소를 추가 으로 선정하여 사용하고 있다. 특히 OASIS 로젝트의 정책, 시 스템 변화 업무 변동 상황에 따라 메타데이터의 확장 변경․수정이 가능하도록 구성하 다. OASIS 메타데이터는 더블린 코어의 15개 요소(Elements)를 토 로 내부 리 메 타데이터 요소를 추가하여 총 32개의 메타데이터 요소(하 요소 포함)로 구성되어 있다. 2.2.3 OCLC Digital Archive Metadata [7] 디지털 아카이 련 연구를 지속 으로 진행하고 있는 OCLC(Online Computer Library Center)는 디지털 아카이 시스템 가이드에서 디지털 아카이 에서의 메타데이터 요소 를 정의하 다. 여기에는 더블린 코어에 기반을 둔 요소와 자원의 리 기술(技術)을 한 메타데이터 요소를 포함 하고 있으며 웹 아카이빙 운 을 해 필요한 리 요소들 이 자세히 표 되었고, 특히 이용자에게 서비스하기 한 ISO 14721 OAIS 참조모형을 활용한 웹 아카이빙의 메타데이터 구조 요소 정의 653 (그림 1) OAIS Reference Model 부분까지 고려하 다. 2002년 이후 2003년 4월 자원의 생성과 입수 과정에 한 요소가 삭제되고 자원의 생명 주기에 한 이벤트와 자원의 계정보가 추가되었으며, 2004년 5월 아카이 운 에 한 요소를 반 하여 34개의 메타데이터 요소를 제안하고 있다. 2.2.4 WARP [8] WARP(Web Archiving Project)은 2002년 11월 시작한 온라인 자 출 물의 수집을 한 웹 아카이빙 로젝트 로 NDL(National Diet Library)에서 지원한 3년간의 시범 인 로젝트이다. WARP은 일본 도메인 상의 인터넷 정 보를 수집․보존하여 미래세 에게 달하는데 그 목 이 있 다. WARP는 2001년 3월 더블린 코어를 기반으로 메타데 이터 생성을 한 NDL 표 안인 "NDL Metadata ELement Set"을 공표하 다. WARP의 메타데이터는 자원의 설명 메타데이터, 구조 메타데이터, 리 메타데이터로 구 성되어 있으며, 보존 메타데이터 요소는 포함되어 있지 않다. 2.2.5 NLA (National Library of Australia) [9] 호주국립도서 은 웹 아카이빙을 해 15개의 기본 인 요소를 개발하 으나 아카이 리 시스템이 다양한 디지 털 정보 자원의 보존을 지원하는 메타데이터 요소를 도출하 지 못하자 독자 으로 보존 메타데이터를 개발하 다. 2.2.6 EVA Project [10] EVA 로젝트는 핀란드의 국립도서 인 헬싱키 학도 서 의 사서와 출 사업자 그리고 문가그룹 등과 함께 진 행한 핀란드 교육부의 정보사회 략 로그램(Information Society Strategy Program)에 포함된다. EVA는 핀란드의 인터넷에서 공인 는 자유롭게 출 된 온라인 문서를 캡처, 등록 보존하고 근을 지원하기 한 방법을 실험하는 로젝트이다. EVA는 수집된 자원을 기술하기 해 더블린 코어 기반의 Nrodic 더블린 코어 15개 요소를 사용하 다. 2.3 웹 아카이빙을 한 표 화 사례 연구 2.3.1 ISO 14721 OAIS 참조 모형 2002년 ISO 14721로 제정된 국제표 으로서 장기간에 걸 쳐 디지털 정보를 보존하여 이에 한 지속 근을 제공 하고자 하는 디지털객체보존 시스템, 즉 아카이 를 한 개념 구조 틀이다. 재는 진행되고 있는 거의 모든 디지 털 정보 보존기 과 로젝트의 기반이 되는 디지털 보존 시스템을 한 개념틀 이기도 하다. OAIS에서 정의하고 있 는 디지털 아카이 의 기능들은 입수, 디지털객체물 장, 데이터 리, 행정 리, 보존계획, 이용 이 게 6가지이며 OAIS 참조모형은 (그림 1)과 같다[11]. 2.3.2 NEDLIB 보존 메타데이터 NEDLIB(Networked European Deposit Library) 로젝 트는 1998년부터 2001년까지 유럽 7개국의 국립도서 (네 덜란드, 핀란드, 랑스, 이탈리아, 노르웨이, 포르투갈, 스 스)과 3곳의 온라인 자출 물 출 사( Elsevier, Kluwers, Springer Verlag) 그리고 네덜란드 국립기록보존소가 참여 한 자출 물의 장기 보존을 한 로젝트이다. NEDLIB 보존 메타데이터 한 OAIS 참조 모형에 기 하여 개발되 었으며, 그 결과는 다시 OAIS 참조모형이 완성되는데 향 을 주었다. CEDARS, NLA, OCLC/RLG의 보존 메타데이터 가 디지털 정보의 장기 보존과 근이라는 두 가지 목 을 두고 개발 된 것과 달리, NEDLIB는 디지털 정보자원의 보 존 메타데이터는 엄격하게 보존에만 을 맞춰서 개발이 진행되었다[12]. 2.3.3 OCLC/RLG 보존 메타데이터 2002년 6월 OCLC/RLG에서는 디지털 객체(object)를 보 존하기 한 메타데이터 임 워크를 개발하 다. OAIS 참조 모형을 기 로 하는 보존 메타데이터 임워크는 보 존 메타데이터를 구성하는 정보 유형의 포 이고, 상 수 의 설명을 제시하 다. 한 보존 메타데이터 요소의 " 로토타입(Prototype) "을 구성하여, 공식 인 보존 메타데 이터 명세서를 개발 한 합의에 기 하 다[13]. 2.3.4 PREMIS Data Dictionary [14] 2003년 6월 OCLC/RLG는 PREMIS 보존메타데이터 구 략을 해 6개국의 학도서 , 국가도서 , 박물 아카 이 , 정부기 기업에서 참여한 30명의 문가로 구성된 PREMIS 실무반을 구성하 다. REMIS 실무반의 목 은 첫 째, 보존 메타데이터 입력, 장, 리 교환을 한 안 인 략들은 식별하고 평가하는 것이고, 둘째, 구 가능 한 필수 보존 메타데이터의 리 이용을 한 가이드라 인과 권고안을 정의 하는 것이다. 그 결과로 PREMIS 데이 터 모형과 의미단 (Semantic unit)를 정리한 PREMIS Data Dictionary 를 완성하 다. PREMIS 데이터 모델에는 엔티티 (entity), 엔티티 속성 (property), 엔티티 간의 계들이 묘사된다. 5개의 엔티티 (Intellectual Entities, Objects, Events, Rights 그리고 Agents)는 보존 메타데이터로 설명되는 디지털 보존에 654 정보처리학회논문지 D 제16-D권 제5호(2009.10) <표 1> 웹 아카이빙 메타데이터 비교 (그림 2) PREMIS 데이터 모델 한 개체들이고, 엔티티의 속성은 의미단 로 표 된다. PREMIS 메타데이터 요소들의 논리 인 조직을 용이하게 하기 해서 (그림 2)와 5가지 유형의 속성들로 구성된 단 순한 모델을 개발하 다. 2.4 메타데이터 사례 분석 이슈 앞서 살펴본 표 인 웹 아카이빙 메타데이터 해외 사례 들의 경우 웹 크롤러, 로 이 자원을 수집하는 방법을 채택 하고 있다. 한 자동 으로 수집된 메타데이터 는 자 자원의 리와 검색을 한 더블린코어를 근거로 메타데이 터 요소를 개발해 왔다. <표 1>은 로젝트 사례별 메타데 이터에서 분야별 ․요소별 메타데이터의 콘텐츠정보, 구조정 보, 권리정보, 리정보 기술정보로 구분하여 각 사례들 에 한 구조와 요소를 비교․분석하 다. WARP은 서명정보 와 식별자 정보를 상세하게 구분하 고, OCLC는 웹 아카이 빙 시스템에서 자원을 리하기 한 정보를 세분화하고, 자원 리를 해 필수 인 기술 정보를 추가하 다. 이처럼 기의 웹 아카이빙 메타데이터가 기존의 다양하 고 방 한 자원 수집에 을 맞췄었다면, 최근에는 수집, 리 디지털 자원의 장기 인 보존을 한 요소까지 메 타데이터 항목에 추가하여 개발을 진행하고 있다. 한 해외 보존메타데이터 개발 로젝트의 결과인 ISO 14721 OAIS 참조모형은 아카이빙이 갖춰야 할 개념 틀에 서 출발하여 이상 인 모형을 제공하기는 하 으나 실제 활 용하기에는 실 인 상황과 차이가 있다. 최상 범 , 모 든 것을 포 하는 구조 는 간단하거나 최소의 필수 인 요소만을 제공하다 보니 상세하고, 구체 인 자원의 정보 ISO 14721 OAIS 참조모형을 활용한 웹 아카이빙의 메타데이터 구조 요소 정의 655 리가 요구되는 웹 아카이빙에서는 계속해서 새로운 메타데 이터, 실제 사용하는데 합한 메타데이터가 요구되어야 한 다는 것이다. OASIS는 웹 아카이빙을 한 단계별․기능별 요구사항이 반 되지 않았고, 멀티미디어 자원에 한 기술 표 방 법에 한 제한이 있다. 한 장기보존을 한 웹 아카이빙 임에도 보존보다는 우선 자원 수집을 으로 하고 있어 디지털 자원 보존 기능을 한 요소 개발에 한 요구가 있다. 따라서 향후 OASIS 등의 웹 아카이빙에서는 웹 사이트, 웹 자원의 장기 인 보존을 한 방향과 필요한 업무 로 세스에 따른 리 방안에 한 메타데이터 요소가 개발되어 활용되어야하는 이슈를 제시 한다. 3. 웹 아카이빙을 한 메타데이터 구조 요소 개발 3.1 웹 아카이빙 자원 정의 특징 3.1.1 웹 아카이빙 자원 정의 디지털 자원은 컴퓨터에서 생산되어진 자원(Born Digital) 는 재생산 된 자원(Digitizing)을 말하며, 인터넷을 통해 근 가능한 자원(Online)과 디지털 매체에 장된 자원 (Offline)을 포함한다. 웹 크롤러에 의한 자원 수집 방법을 택하고 있는 OASIS는 「온라인 디지털 자원 선정지침」에 따라 다음과 같이 정의하고 있다[2]. • 인터넷을 통해 자화된 디지털 자원의 내용을 내려 받 아 개인용 휴 용 컴퓨터 등의 정보통신 단말기에서 볼 수 있는 디지털 버 의 출 물 • 인터넷 등을 통해 내려 받아 개인용 컴퓨터, 노트북 컴 퓨터, PDA 등의 정보통신 단말기에서 읽을 수 있는 자 으로 유통되는 텍스트, 소리, 동 상정보 등을 담고 있는 컴퓨터 일 • 웹 사이트, 웹 페이지, 문서 일 (pdf, hwp, doc, txt 등), 이미지, 동 상, 음악, 압축 일 3.1.2 웹 아카이빙 자원 특성 본 논문에서는 웹 자원 특성에 한 3가지 을 통해 웹 아카이빙을 한 메타데이터 요구사항을 기술하고자 하 다. 첫째, 자원의 내용 측면 특성이다. 디지털 자원, 특히 처음부터 디지털 자원으로 생산된 경우는 구나 손쉽고, 자유롭게 작물을 창작하고 바로 온라인상에 유통시킬 수 있어 공식 인 검증 과정이 생략되는 경우가 많아 자원의 신뢰도나 공신력에 제한이 있다. 둘째, 자원의 리 측면 특성이다. 디지털 자원은 동일 자원에 한 복수의 포맷으로 생산이 가능하고, 다양한 유 형의 포맷으로 구성된 디지털 자원의 구성도 존재한다. 한, 디지털 자원은 인쇄자료에 비해 자원의 장 다운로 드가 용이하여 복제본의 생성이 쉬우며, 손쉽게 이동이 가 능하다. 그리고 기존 인쇄 자원들은 물리 인 형태의 변경 이나 소멸되는 경우가 지만, 디지털 자원은 응용 기기의 순간 인 오작동이나 오류발생 는 버 업그 이드 등을 통해서 자원이 유실되거나 훼손될 가능성이 있어 리 시 주의가 필요하다[15]. 셋째 자원의 이용 측면 특성이다. 디지털 자원은 온라 인으로 연결된 곳이라면 장소와 시간에 구애받지 않고 근 이 가능하다. 한 디지털 자원을 이용하기 해서는 반드 시 정보가 수록된 매체의 응용 로그램과 이를 활성화하기 한 하드웨어가 요구된다. 뿐만 아니라, 네트워크를 통해 손쉽게 복제와 이동이 가능한 까닭에 작물에 한 불법 인 복제와 유통 등 작권자의 권리를 침해하는 사례가 비 일비재하게 발생하고 있다. 3.2 웹 아카이빙 메타데이터 개발 본 논문에서 디지털 자원 웹 아카이빙을 한 메타데이터 를 개발하기 해서 지속 으로 연구되어 온 더블린코어 메 타데이터, OCLC/RLG 보존메타데이터, NEDLIB 보존메타데 이터, NLA 보존 메타데이터, OCLC 웹 아카이빙 메타데이 터 그리고 최근 완료된 보존 메타데이터의 결정 이라 할 수 있는 PREMIS Data Dictionary (1.1)를 비롯하여 그동안 의 웹 아카이빙 련 메타데이터 사례들을 분석하여 메타데 이터 개발 목표와 원칙을 제시하 다. 3.2.1 메타데이터 개발 목표 첫째, 다양한 디지털 자원에 용 가능하도록 디지털 자 원의 매체별․유형별 메타데이터 요소를 구조화 상세화 둘째, 웹 자원의 특성을 고려한 연계정보를 구성 셋째, 웹 아카이빙에서 보존 략 계획을 추진 할 때 지원이 가능한 보존 요소 개발 넷째, 향후 아카이빙 기 들 간의 메타데이터 호환과 자 원 공유를 해 상호운 성 확보가 가능한 메타데이터 구조 를 제시 3.2.2 메타데이터 개발 원칙 검증 첫째, ISO 14721 OAIS 참조모형을 수한다. OAIS 참조 모형은 웹 아카이빙에서 발생하는 모든 과정에서 최상 의 개념 임워크를 제공한다. 재 운 는 비 인 세계의 웹 아카이빙 로젝트나 기 한 OAIS 참조모형 의 기 을 용하고 수하기 해 노력하고 있다[3]. 따라 서 ISO 14721 OAIS 참조모형에서 제시하고 있는 아카이빙 의 차에 따른 단계별 요구정보를 통한 메타데이터의 구조 와 요소를 개발하고자 한다. 둘째, 표 는 권 있는 메타데이터를 용한다. 이러 한 메타데이터는 미국과 유럽을 심으로 각국의 문가와 앞선 사례들이 심이 되어 오랜 기간 논의와 조사를 통해 개발되었다. 이에 재 웹 아카이빙을 비․계획 이거나, 운 하고 있는 많은 로젝트와 기 에서는 이들이 제시한 메타데이터 구조와 요소를 참고하여 메타데이터 요소를 추 656 정보처리학회논문지 D 제16-D권 제5호(2009.10) 기능 단계 요구 정보 입수 -입수 설명정보, 구조정보, 기술정보, 리 정보, 권리 정보 장 기술정보, 인증정보 데이터 리 리 정보, 이력정보 보존 출처 정보, 인증정보, 고정정보, 참조 정보 근 식별정보. 리정보 운 리자 정보, 아카이빙 고유정보, 정책 정보 <표 2> 기능 단계별 요구 정보 (그림 3) 아카이빙 단계별 메타데이터 유형 출하고 있다[16]. 따라서 본 논문에서는 국제 인 아카이빙 로젝트 각 국가별 아카이빙에서 활용되는 메타데이터 의 다양한 요구사항과 특성들을 고려한 구조와 요소에 한 확보방안을 마련한다. 3.2.3 웹 아카이빙 메타데이터 구조 설계 웹 아카이빙에서 비트스트림과 일 등의 형태로 존재하 는 자원을 식별, 리 보존을 하기 해서는 자원에 한 다양한 정보를 기록한 메타데이터가 필요하다. 이때 어 떤 정보를 갖고 있느냐에 따라 설명 메타데이터, 구조 메타데이터, 리 메타데이터 등으로 구분 지을 수 있다 [17]. 이를 해 본 논문에서는 OAIS 참조모형에서 제시한 아카이빙의 기능 단계별(입수 -입수, 장, 데이터 리, 보 존, 근/서비스, 아카이빙 운 )로 요구되는 정보를 활용할 수 있는 구조 인 특징을 반 한 메타데이터 구조를 제시하 고자 한다. 첫째, 입수 -입수단계 : 아카이빙에서 수집 할 자원을 선별하여 입수하는 과정으로 무엇보다도 디지털 자원 객체 자체에 한 정보와 자원의 진본성과 무결성 확인을 한 정보들이 제공된다. 자원에 한 정보로는 제목, 주제, 표 언어 등 자원의 서지 사항을 설명하는 정보가 있다. 한 자원의 진본성과 무결성 검증을 해 작자, 권리 계 등 의 권리 정보 그리고 수집 자원의 일 정보를 다루는 기술 정보 뿐만 아니라 고유 식별자(URL,ISBN 등) 자원의 구 조와 구성에 한 정보 등이 요구된다. 둘째, 장단계 : 장은 수집 된 자원에 한 장기 보존 을 해 장소(서버)에 추가하는 과정으로 데이터가 실제 아카이빙에 제공되는 단계다. 이때는 자원에 한 마지막 확인 과정(에러 검)과 장된 공간의 치 정보, 장소에 한 리정보 등이 요구된다. 셋째, 데이터 리 단계 : 데이터 리는 최 입수된 자 원이 아카이빙에서 리되고 있는 단계에 한 정보가 제공 된다. 즉 데이터가 재 어떤 상태( : 포맷 변경, 장 매체 변경 등)에 있는지에 한 정보가 요구된다. 넷째, 보존 단계 : 보존을 해서는 우선 아카이빙에 보존 략이 있어야 하며, 데이터 그 자체 뿐 아니라 그 보다 더 많은 정보를 수집해야 한다. 그 자원의 출처가 어디 는지, 자원의 진본성 확인은 언제, 어떻게 받았는지, 다른 아카이 빙 자원과도 연결이 되는지, 생성부터 보존까지 어떤 과정 을 거쳤는지 등에 한 자세한 정보가 필요하다. 따라서 이 단계에서는 보존 략 보존 계획에 한 정보, 기술정보 변화에 따라 환경 정보를 지속 으로 리해야 한다. 다섯째, 근/서비스 단계 : 근은 리자가 근 을 제 공해 주는 경우와 OAIS 참조모형의 DIP(Dessemination Information Package:분배정보패키지)를 제공하는 경우처럼 이용자가 원하는 정보를 아카이빙에 요청하는 경우가 있다. 자는 재 검색 정보를 제공하는 것과 마찬가지로 해당 자원의 고유 식별 정보나 리 정보 몇 개의 요소를 선 정하면 된다. 후자의 경우는 아카이빙이 제공 가능한 정보 에 해서 이용자에게 공지를 하면 된다. 여섯째, 아카이빙 운 단계 : 운 은 아카이빙 반에 걸 쳐 처리해야 하는 정보들이 포함 된다. 디지털 자원을 체계 으로 리하기 한 정보, 아카이빙 정책과 련된 정보 ( 를 들면 자원의 서비스 여부, 내부 정책 수립, 이용자 정보 제공자 련 정책 지원 정보) 그리고 아카이빙 자원을 리하는 업무를 하는 담당자에 한 정보, 시스템 의 하드웨어와 소 트웨어 등의 환경 설정 정보 등이 해당 된다. 본 논문에서 메타데이터를 구조화하기 해 아카이빙의 각 기능 단계별(6단계)에서 요구되는 정보로 구분하여 정리 하면 <표 2>와 같다. 각각의 메타데이터 정보들은 특정 단 계( : 운 의 리자 정보, 데이터 리의 이력정보 등)에서 만 나타나기도 하고, 아카이빙의 분야에 걸쳐 공통 으로 요구( : 입수 , 입수, 장 단계의 기술정보)될 수 있다. (그림 3)은 <표 2>에 나타난 각 기능단계별 주요 메타데 이터 정보가 표 하는 내용에 따라 메타데이터를 구조화한 것이다. 일반 으로 리 메타데이터로 분류되던 보존 정 보가 웹 아카이빙에서는 출처정보, 인증정보, 고정정보, 참조 정보를 포함하며 구조화 상세화 되고 있다. 따라서 본 논문에서는 아카이빙 단계별 요구되는 정보에 따라 설명 메타데이터(설명정보, 식별정보), 구조 메타데이터(구조정 ISO 14721 OAIS 참조모형을 활용한 웹 아카이빙의 메타데이터 구조 요소 정의 657 구분 내용 시 설명 메타데이터 설명 정보 디지털 자원에 한 설명으로 주로 서지정보 일부를 포함하는 자원을 유일하게 식별할 수 있는 기본 정보를 제공 디지털 자원의 제목, 주제, 표 언어 구조 메타데이터 구조 정보 디지털 자원을 표 하기 한 수단 방법에 따라 자원의 구조와 구성에 한 정보를 제공 문서, 이미지, 텍스트, 비디오/ 웹사이트, 연속 간행물, 자 도서 리 메타데이터 리 정보 웹 아카이빙에서 입수된 자원을 리하고 아카이빙을 운 하기 해 요구되는 정보를 제공 아카이빙 등록번호, 그룹 번호, 날짜, 리자, 사건 정보 권리 정보 디지털 자원의 지 재산권에 련된 개인, 단체, 기 에 한 정보를 제공 작자, 출 사, 지 재산권정보,COI정보 기술 정보 디지털 자원을 사용하기 해 요구되는 운 시스템, 소 트웨어, 하드웨어 정보 등 기술 인 환경에 한 정보를 제공 Operating System 정보, 일 크기, 일포맷, (Window XP 등), 각종 소 트웨어 정보 보존 메타데이터 출처 정보 자원의 출처에 한 정보를 제공 서지정보, 메타데이터 정보 참조 정보 디지털 자원의 내용 정보에 한 히스토리, 즉 이력에 한 정보를 제공 입수 -입수 정보, 자원의 기원 정보 문맥 정보 디지털 자원 내용 정보의 생산 이유와 다른 내용 정보와의 련에 한 정보를 제공 자원의 계정보 인증 정보 해당 디지털 자원이 진본의 자원인지 분명한가를 확인하고 보장하는 정보를 제공 진본성 확인 <표 3> 메타데이터의 내용과 사례 범주 요소 하 요소 기원 정의 의무 설명 정보 Title DC 디지털 자원을 표하는 이름 필수 반복 Subject Collection DC 디지털 자원 내용의 주제를 아카이빙 컬 션과 분류번호로 표 필수 Classification number Description - DC 디지털 자원을 설명할 수 있는 요약정보 부연 설명 정보 선택 반복 Source - DC 디지털 자원의 원래 출처 선택 반복 Language - DC 디지털 자원을 기술하고 있는 표 언어 선택 반복 Coverage - DC 디지털 자원이 용되는 기간과 장소 선택 반복 <표 4> 설명 메타데이터 요소 (그림 4) OASIS 메타데이터 구조 보), 리 메타데이터( 리정보, 리자 정보, 기술정보, 정 책정보, 권리정보), 그리고 보존 메타데이터 (참조정보, 인 증정보, 문맥정보, 출처 정보)로 구분하 다. 보존 메타데이터를 리 메타데이터와 구분한 것은 재 OASIS와 같이 보존 정책과 계획이 수립되지 않은 웹 아카이빙 상황에서 보존과 련된 정보들 - 문맥정보, 참조 정보, 출처정보, 인증 정보 - 등에 해 별도로 리해야 할 필요가 있음을 고려하 기 때문이다. 결과 으로 재 OASIS 메타데이터와 앞서 사례 분석한 연구내용을 토 로 4개의 섹션(Section)과 9가지 메타정보로 구성된 구조를 제 안하고 그에 따른 구성을 (그림 4)와 같이 표 하 다. <표 3>은 웹 아카이빙 메타데이터 구조에서 제시된 4개 의 섹션의 9가지 메타데이터 정보에 한 내용과 그에 한 설명 시를 기술하 다. 3.2.4 웹 아카이빙 메타데이터 요소정의 본 논문에서는 앞서 제안한 OASIS 메타데이터 구조와 개발 원칙을 기 으로 총 29개의 메타데이터 요소를 추출하 고 구조화, 상세화를 통해 하 요소를 선정하 다. <표 4> 부터 <표 7>까지는 각 단 섹션별 메타데이터 요소에 658 정보처리학회논문지 D 제16-D권 제5호(2009.10) 범주 요소 하 요소 기원 정의 의무 구조 정보 Object Type Text - Format & version - compression NLA 디지털 자원을 표 하는 수단의 유형 - 텍스트 - 이미지 - 비디오 - 오디오 - 멀티미디어 필수 반복 Image - Format & version - image resolution - image dementions - image color - image orientation - compression Video - Format & version - frame dimensions - duration - frame rate - compression - video encoding structure - video sound Audio - format & version - audio resolution - duration - bitrate - compression - track & type Multimedia Object Genre Web Site - 디지털 자원의 유형별 종류에 따라 웹사이트와 웹자원에 한 정보 필수 반복Web Resource - Individual - Group Object Identifier Original URL OCLC 디지털 자원의 유일한 식별자 필수 반복 Source URL Harvest URL <표 5> 구조 메타데이터 요소 범주 요소 하 요소 기원 정의 의무 권리 정보 Creator Name DC 디지털 자원의 창작한 자 는 기 의 명과 연락처 필수 반복 Contact - Telephone Number - Address - e-mail OASIS 선택 반복 Publisher Name DC 디지털 자원을 발행한 사람 는 기 , 발행한 장소 필수 Locator - 선택 Right Agent - Personal - Agencies DC 디지털 자원에 한 권리정보를 갖는 사람 는 기 , 권리의 기간, 작권 동의서에 한 정보 필수 반복 Right Period - Start date - End date - 필수 반복 Copyright Agreement Number OASIS 필수 COI COI Identifier number OASIS 해당 디지털 자원과 연계된 COI 식별자 번호 필수 리 정보 Date Created DC 디지털 자원의 생애 주기에서 일어나는 사건에 한 날짜 필수 Issued 필수 Harvested 필수 Ingested 필수 Modified 필수 반복 Digital Archiving save file number Object Number OCLC 디지털 자원이 아카 이빙에 입수된 번호 - 디지털 객체의 입수번호와 그 객체가 포함된 자원의 번호 필수 Group Number 필수 Service level - OCLC 디지털 자원의 내부 /외부 서비스 여부 필수 Manageme nt person Registration person OASIS 아카이빙 내부에서 디지털 자원의 리와 목록작업에 련된 사람 필수 반복 Modification person 필수 반복 Event Harvest OCLC 디지털 자원의 아카이빙 되는 단계별 상황 필수 반복 Ingest Archive Modification 기술 정보 File Name OASIS OCLC 디지털 자원이 장된 일의 정보 필수 Size Object Format Name NEDLIB 디지털 자원의 일 포맷 정보 필수 Value Operating System Name NEDLIB 디지털 자원을 이용하기 해 요구되는 권장되는 운 체계 정보 필수 반복 Value Applicat- ion Name NEDLIB 디지털 자원 이용하기 해 요구되는 응용 로그램 필수 반복 Value <표 6> 리 메타데이터 요소 하여 메타데이터의 범주(Category), 요소(Element), 하 요 소(Sub Element), 기원(Origin), 정의(Definition) 의무사 항(Cardinality)에 한 설명이다. 4. 결론 제언 본 논문에서는 ISO 14721 OAIS 참조모형을 용한 국내 웹 아카이빙 메타데이터의 구조와 활용요소를 개발하 다. 그 결과 첫째, 웹 아카이빙을 한 디지털 자원으로 표 되 는 수단인 문서, 이미지, 동 상, 사운드의 매체별 자원에 ISO 14721 OAIS 참조모형을 활용한 웹 아카이빙의 메타데이터 구조 요소 정의 659 범주 요소 하 요소 기원 정의 의무 출처 정보 Resource Description CEDA RS 디지털 자원의 출처에 한 설명 필수 반복 참조 정보 Origin -Designation -Procedure -Date -Responsible agency -Outcome -Note -Next occurrence OCLC/ RLG 디지털 자원의 생성과 련된 정보 필수 Pre- ingest OCLC/ RLG 디지털 자원의 입수 정보 필수 Ingest OCLC/ RLG 디지털 자원의 수집 시 정보 필수 Archival retention OCLC/ RLG 디지털 자원의 아카이빙 시 정보 필수 문맥 정보 Relation- ships - OCLC/ RLG 디지털 자원과 연 되는 정보 필수 반복 인증 정보 Object Authenti- cation Type OCLC/ RLG 디지털 자원의 진본성 확인에 한 정보 필수 반복 procedure date result <표 7> 보존 메타데이터 요소 한 정보는 자원의 구조정보를 기술하는 구조 메타데이터 요소로 구조화, 상세화 하 다. 둘째, 웹 자원의 특성을 고려 하여 웹사이트, 웹 자원의 연계 정보를 구체화하 다. 셋째, 디지털 자원의 장기 보존을 지원하기 한 필수 보존 메타 데이터 요소를 추가하 다. 그 결과 메타데이터 개발 원칙 과 기 에 의해 4개의 메타데이터 섹션 구조 - 설명 , 구 조 , 리 , 보존 - 와 9개의 범주정보(Category)를 담 을 수 있는 메타데이터 구조를 제안하고, 각 섹션구조에 따 른 단 정보를 제공할 수 있는 29개의 메타데이터 요소와 각 요소별 필수하 요소를 개발하 다. 향후 연구에서 보존 메타데이터 개발은 국립 앙도서 의 OASIS 각 웹 아카이빙의 정책 인 방향에 따라 보존 략과 계획을 비해야 할 것이다. 재의 보존 메타데이터 요소는 자원의 장기 보존을 지원하기 해 요구되는 기본 인 요소만을 추출한 것이다. 향후 보존 정보가 강화된다면 보존 메타데이터 섹션에 구조 정보, 기술 정보, 리 정보의 일부 정보를 포함하는 의의 보존 메타데이터로도 변경도 가능하다. 따라서 디지털 자원의 단계별 보존 략과 계획 에 의한 구체 인 메타데이터 요소에 한 연구가 필요할 것이다. 참 고 문 헌 [1] 서혜란, "디지털 납본제도 방안".디지털 유산 보존을 한 포럼, 2004. [2] OASIS homepage : http://www.OASIS.go.kr [3] 국립 앙도서 ,“OASIS 표 화과제연구”, 2003. [4] Deborah Woodvard, "Preservation Metadata" OCLC/SCURL NEW Directions in Metadata, Edinburght, 15-16 August 2002. [5] 김희정, " 자 아카이빙을 한 OAIS 참조모형의 용방 안에 한 연구", 박사학 논문, 연세 학교 문헌정보학과, 2003. [6] DCMI : http://dublincore.org/ [7] OCLC. "Digital Archiving Metadata Elements", Dublin, Ohio, 2004. [8] WARP : http://warp,ndl.go.jp [9] NLA : http://www.nla.gov.au/ [10] Kristi Lounamaa, "EVA-The Acquisition and Archiving of Electironic Network Publications In Finland", Tietolinja News. 1999. [11] 이소연, "디지털 아카이빙의 표 화와 OAIS 참조모형", 정보 리연구 33(3), pp.45-68, 2002. [12] NEDLIB : http://nedlib.kb.nl/ [13] OCLC.RLG, A Metadata Framework to Support the Preservation of Digital Objects,2002. [14] PREMIS Working Group, " Data Dictionary for Preservation Metadata: Final Report of the PREMIS Working Group", 2005. [15] 김태수, 목록의 이해,서울,한국도서 회, 2000. [16] OCLC/RLG, "Implementing Preservation Repositories for Digital Materials: Current Practice and Emerging Trends in the Cultural Heritage Community", 2004. [17] NISO, "Understanding Metadata", 2004. 오 상 훈 e-mail : oshosh24@gmail.com 1988년 한국외국어 학교 자계산학과 (학사) 1990년 한국외국어 학교 경 정보 학원 응용 산학과(석사) 2006년 충남 학교 정보통신공학부 정보검 색 자연어처리(박사) 1994년~2000년 한국과학기술정보연구원 연구원 2000년~2001년 (재)한국데이터베이스진흥센터 장 2001년~ 재 (사)한국디지털콘텐츠산업 회 사무국장 심분야:디지털아카이빙, 디지털콘텐츠 유통보호, 메타데이터, 정보검색 660 정보처리학회논문지 D 제16-D권 제5호(2009.10) 최 선 e-mail :ming279@gmail.com 2003년 숙명여자 학교 정법학부(학사) 2007년~ 재 (사)한국디지털콘텐츠산업 회 연구원 심분야:디지털아카이빙, 메타데이터 << /ASCII85EncodePages false /AllowTransparency false /AutoPositionEPSFiles true /AutoRotatePages /All /Binding /Left /CalGrayProfile (Gray Gamma 2.2) /CalRGBProfile (sRGB IEC61966-2.1) /CalCMYKProfile (U.S. Web Coated \050SWOP\051 v2) /sRGBProfile (sRGB IEC61966-2.1) /CannotEmbedFontPolicy /Warning /CompatibilityLevel 1.4 /CompressObjects /Tags /CompressPages true /ConvertImagesToIndexed true /PassThroughJPEGImages true /CreateJDFFile false /CreateJobTicket false /DefaultRenderingIntent /Default /DetectBlends true /DetectCurves 0.0000 /ColorConversionStrategy /LeaveColorUnchanged /DoThumbnails false /EmbedAllFonts true /EmbedOpenType false /ParseICCProfilesInComments true /EmbedJobOptions true /DSCReportingLevel 0 /EmitDSCWarnings false /EndPage -1 /ImageMemory 1048576 /LockDistillerParams false /MaxSubsetPct 100 /Optimize true /OPM 1 /ParseDSCComments true /ParseDSCCommentsForDocInfo true /PreserveCopyPage true /PreserveDICMYKValues true /PreserveEPSInfo true /PreserveFlatness true /PreserveHalftoneInfo false /PreserveOPIComments false /PreserveOverprintSettings true /StartPage 1 /SubsetFonts true /TransferFunctionInfo /Apply /UCRandBGInfo /Preserve /UsePrologue false /ColorSettingsFile () /AlwaysEmbed [ true ] /NeverEmbed [ true /Arial-Black /Arial-BlackItalic /Arial-BoldItalicMT /Arial-BoldMT /Arial-ItalicMT /ArialMT /ArialNarrow /ArialNarrow-Bold /ArialNarrow-BoldItalic /ArialNarrow-Italic /ArialUnicodeMS /CenturyGothic /CenturyGothic-Bold /CenturyGothic-BoldItalic /CenturyGothic-Italic /CourierNewPS-BoldItalicMT /CourierNewPS-BoldMT /CourierNewPS-ItalicMT /CourierNewPSMT /Georgia /Georgia-Bold /Georgia-BoldItalic /Georgia-Italic /Impact /LucidaConsole /Tahoma /Tahoma-Bold /TimesNewRomanMT-ExtraBold /TimesNewRomanPS-BoldItalicMT /TimesNewRomanPS-BoldMT /TimesNewRomanPS-ItalicMT /TimesNewRomanPSMT /Trebuchet-BoldItalic /TrebuchetMS /TrebuchetMS-Bold /TrebuchetMS-Italic /Verdana /Verdana-Bold /Verdana-BoldItalic /Verdana-Italic ] /AntiAliasColorImages false /CropColorImages true /ColorImageMinResolution 150 /ColorImageMinResolutionPolicy /OK /DownsampleColorImages true /ColorImageDownsampleType /Bicubic /ColorImageResolution 1200 /ColorImageDepth -1 /ColorImageMinDownsampleDepth 1 /ColorImageDownsampleThreshold 1.50000 /EncodeColorImages true /ColorImageFilter /DCTEncode /AutoFilterColorImages true /ColorImageAutoFilterStrategy /JPEG /ColorACSImageDict << /QFactor 0.15 /HSamples [1 1 1 1] /VSamples [1 1 1 1] >> /ColorImageDict << /QFactor 0.76 /HSamples [2 1 1 2] /VSamples [2 1 1 2] >> /JPEG2000ColorACSImageDict << /TileWidth 256 /TileHeight 256 /Quality 15 >> /JPEG2000ColorImageDict << /TileWidth 256 /TileHeight 256 /Quality 15 >> /AntiAliasGrayImages false /CropGrayImages true /GrayImageMinResolution 150 /GrayImageMinResolutionPolicy /OK /DownsampleGrayImages true /GrayImageDownsampleType /Bicubic /GrayImageResolution 1200 /GrayImageDepth -1 /GrayImageMinDownsampleDepth 2 /GrayImageDownsampleThreshold 1.50000 /EncodeGrayImages true /GrayImageFilter /DCTEncode /AutoFilterGrayImages true /GrayImageAutoFilterStrategy /JPEG /GrayACSImageDict << /QFactor 0.15 /HSamples [1 1 1 1] /VSamples [1 1 1 1] >> /GrayImageDict << /QFactor 0.76 /HSamples [2 1 1 2] /VSamples [2 1 1 2] >> /JPEG2000GrayACSImageDict << /TileWidth 256 /TileHeight 256 /Quality 15 >> /JPEG2000GrayImageDict << /TileWidth 256 /TileHeight 256 /Quality 15 >> /AntiAliasMonoImages false /CropMonoImages true /MonoImageMinResolution 1200 /MonoImageMinResolutionPolicy /OK /DownsampleMonoImages true /MonoImageDownsampleType /Bicubic /MonoImageResolution 1200 /MonoImageDepth -1 /MonoImageDownsampleThreshold 1.50000 /EncodeMonoImages true /MonoImageFilter /CCITTFaxEncode /MonoImageDict << /K -1 >> /AllowPSXObjects false /CheckCompliance [ /None ] /PDFX1aCheck false /PDFX3Check false /PDFXCompliantPDFOnly false /PDFXNoTrimBoxError true /PDFXTrimBoxToMediaBoxOffset [ 0.00000 0.00000 0.00000 0.00000 ] /PDFXSetBleedBoxToMediaBox true /PDFXBleedBoxToTrimBoxOffset [ 0.00000 0.00000 0.00000 0.00000 ] /PDFXOutputIntentProfile () /PDFXOutputConditionIdentifier () /PDFXOutputCondition () /PDFXRegistryName () /PDFXTrapped /False /Description << /CHS /CHT /DAN /DEU /ESP /FRA /ITA (Utilizzare queste impostazioni per creare documenti Adobe PDF adatti per visualizzare e stampare documenti aziendali in modo affidabile. I documenti PDF creati possono essere aperti con Acrobat e Adobe Reader 5.0 e versioni successive.) /JPN /NLD (Gebruik deze instellingen om Adobe PDF-documenten te maken waarmee zakelijke documenten betrouwbaar kunnen worden weergegeven en afgedrukt. De gemaakte PDF-documenten kunnen worden geopend met Acrobat en Adobe Reader 5.0 en hoger.) /NOR /PTB /SUO /SVE /ENU (Use these settings to create Adobe PDF documents suitable for reliable viewing and printing of business documents. Created PDF documents can be opened with Acrobat and Adobe Reader 5.0 and later.) /KOR >> >> setdistillerparams << /HWResolution [2400 2400] /PageSize [612.000 792.000] >> setpagedevice