윈도우 서버구축/보안

robots.txt 소개와 작성법

서버이야기 2017. 3. 7. 17:08

robots.txt 소개와 사용법





robots.txt

robots.txt란? 인터넷 검색엔진 배제 표준(Robots Exclusion Protocol)이란 보안이 필요한 내용이 검색엔진에 유출되지 못하도록 웹 페이지를 작성하는 방법을 기술한 국제기술 표준 입니다

모든 검색로봇이 이 표준을 따르지는 않지만 일반 웹 사이트 개발자들이 손쉽게 적용할 수 있어 이용이 확산되고 있습니다.



서버관리자가 웹페이지 HTML 작성시 맨 위에 검색로봇을 배제한다는 의미의 'File:robots.txt', 'User-agent: * /' 등을 적어놓으면 검색로봇의 검색 대상에서 제외됩니다.

일반 웹 페이지에서도 와 같은 메타태그를 입력하면 검색을 피할 수 있습니다


robot.txt 작성법



robots.txt 위치

robots.txt를 적용할 웹사이트의 최상위 디렉토리에 적용하시면됩니다

ex) www.test.com/robots.txt


robots.txt 형식

User-agent: <= 검색봇 이름
Disallow: <= 접근 설정
Crawl-delay: 다음방문까지의 디레이(초)


모든 검색봇 차단

User-agent: *
Disallow: /

'*'(와일드카드)는 모든 로봇을 뜻하며, '/'슬래시는 모든 디렉토리를 뜻합니다



구글봇(Googlebot)만 허용하고 나머지는 모두 차단

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /



구글봇(Googlebot)과 다음봇(Daumoa)만 허용후 다른 봇은 모두 차단

User-agent: Googlebot
Disallow:

User-agent: Daumoa
Disallow:

User-agent: *
Disallow: /



모든 봇을 허용

User-agent: *
Disallow: 



홈페이지 디렉토리의 일부만 검색엔진에 노출

 User-agent: * 
 Disallow: /conection/ 
 Disallow: /my_conection/