robots.txt 소개와 사용법




    robots.txt

    robots.txt란? 인터넷 검색엔진 배제 표준(Robots Exclusion Protocol)이란 보안이 필요한 내용이 검색엔진에 유출되지 못하도록 웹 페이지를 작성하는 방법을 기술한 국제기술 표준 입니다

    모든 검색로봇이 이 표준을 따르지는 않지만 일반 웹 사이트 개발자들이 손쉽게 적용할 수 있어 이용이 확산되고 있습니다.





    서버관리자가 웹페이지 HTML 작성시 맨 위에 검색로봇을 배제한다는 의미의 'File:robots.txt', 'User-agent: * /' 등을 적어놓으면 검색로봇의 검색 대상에서 제외됩니다.

    일반 웹 페이지에서도 와 같은 메타태그를 입력하면 검색을 피할 수 있습니다





     

     robots.txt 사용법




    robots.txt 위치

    robots.txt를 적용할 웹사이트의 최상위 디렉토리에 적용하시면됩니다

    ex) www.test.com/robots.txt
    


    robots.txt 형식

    User-agent: <= 검색봇 이름
    Disallow: <= 접근 설정
    Crawl-delay: 다음방문까지의 디레이(초)
    


    모든 검색봇 차단

    User-agent: *
    Disallow: /
    

    '*'(와일드카드)는 모든 로봇을 뜻하며, '/'슬래시는 모든 디렉토리를 뜻합니다



    구글봇(Googlebot)만 허용하고 나머지는 모두 차단

    User-agent: Googlebot
    Disallow:
    
    User-agent: *
    Disallow: /
    



    구글봇(Googlebot)과 다음봇(Daumoa)만 허용후 다른 봇은 모두 차단

    User-agent: Googlebot
    Disallow:
    
    User-agent: Daumoa
    Disallow:
    
    User-agent: *
    Disallow: /
    



    모든 봇을 허용

    User-agent: *
    Disallow: 
    



    홈페이지의 디렉토리의 일부만 검색엔진에 노출

     User-agent: * 
     Disallow: /conection/ 
     Disallow: /my_conection/ 


    홈페이지의 디렉토리의 일부반 검색엔진에 노출차단

    User-agent: *
    Disallow: /my_page/
    



    Posted by 서버이야기