윈도우 서버구축/보안
robots.txt 소개와 작성법
서버이야기
2017. 3. 7. 17:08
robots.txt 소개와 사용법
robots.txt
robots.txt란? 인터넷 검색엔진 배제 표준(Robots Exclusion Protocol)이란 보안이 필요한 내용이 검색엔진에 유출되지 못하도록 웹 페이지를 작성하는 방법을 기술한 국제기술 표준 입니다
모든 검색로봇이 이 표준을 따르지는 않지만 일반 웹 사이트 개발자들이 손쉽게 적용할 수 있어 이용이 확산되고 있습니다.
서버관리자가 웹페이지 HTML 작성시 맨 위에 검색로봇을 배제한다는 의미의 'File:robots.txt', 'User-agent: * /' 등을 적어놓으면 검색로봇의 검색 대상에서 제외됩니다.
일반 웹 페이지에서도 와 같은 메타태그를 입력하면 검색을 피할 수 있습니다
robot.txt 작성법
robots.txt 위치
robots.txt를 적용할 웹사이트의 최상위 디렉토리에 적용하시면됩니다
ex) www.test.com/robots.txt
robots.txt 형식
User-agent: <= 검색봇 이름 Disallow: <= 접근 설정 Crawl-delay: 다음방문까지의 디레이(초)
모든 검색봇 차단
User-agent: * Disallow: /
'*'(와일드카드)는 모든 로봇을 뜻하며, '/'슬래시는 모든 디렉토리를 뜻합니다
구글봇(Googlebot)만 허용하고 나머지는 모두 차단
User-agent: Googlebot Disallow: User-agent: * Disallow: /
구글봇(Googlebot)과 다음봇(Daumoa)만 허용후 다른 봇은 모두 차단
User-agent: Googlebot Disallow: User-agent: Daumoa Disallow: User-agent: * Disallow: /
모든 봇을 허용
User-agent: * Disallow:
홈페이지 디렉토리의 일부만 검색엔진에 노출
User-agent: * Disallow: /conection/ Disallow: /my_conection/