그냥 개발자 블로그

검색 로봇 설정 방법, robots.txt 설정 본문

IT소식&팁

검색 로봇 설정 방법, robots.txt 설정

마음이파파 2015. 10. 10. 20:21

robots.txt 저장 방법 안내
1. 홈페이지 전체가 모든 검색엔진에 노출되는 것을 원하지 않을 때  
 코드:
 User-agent: * 
 Disallow: /

2. 홈페이지 전체가 모든 검색엔진에 노출되기를 원할 때  
 코드:
 User-agent: * 
 Disallow: 
 
(Ex1과 비교했을 때 “/”가 빠져 있습니다. robots.txt를 작성하지 않으면 모두 검색허용으로 간주됩니다.)  
 
3. 홈페이지 디렉토리의 일부만 검색엔진에 노출하고 싶을 때  
 코드:
 User-agent: * 
 Disallow: /my_photo/ 
 Disallow: /my_diary/ 
(이렇게 작성하면 로봇은 my_photo, my_diary라는 폴더에 속한 웹문서에 접근할 수 없습니다.)  
 
4. 홈페이지 전체가 검색되길 원하지만 특정 검색엔진을 거부하고 싶을 때  
 코드:
 User-agent: EvilRobot 
 Disallow: /

위의 예에서는 “EvilRobot”이라는 이름을 가진 로봇만을 배제하게 됩니다. 
('네이버'에 대해서 막고 싶다면 NaverBot을 User-agent로 설정해주시면 됩니다. Naverbot은 네이버 로봇의 이름입니다.)  
 
5. 홈페이지 전체가 검색되길 원하지만 특정 검색엔진에게만 노출되기를 원할 때  
 코드:
 User-agent: NaverBot 
 Disallow: 
 User-agent: * 
 Disallow: / 
(이 경우 NaverBot만이 웹문서를 수집해갈 수 있습니다.) 

“robots.txt”를 작성하는 것과 유사한 방법으로 HTML문서의 (HEAD)와 (/HEAD)태그 사이에 
(META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW")라는 메타태그를 추가하면 로봇은 웹 문서를 가져갈 수 없습니다. 이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에 가장 확실하게 로봇의 접근을 막을 수 있는 방법입니다.

로봇 배제에 대한 보다 자세한 내용은 http://www.robotstxt.org 에서 확인할 수 있습니다. 
robots.txt를 서버에 저장하고 로봇이 직접 방문하지 않는 경우라고 하더라도 본인의 홈페이지 중 일부 내용 혹은 링크 값이 NAVER 웹 문서 검색 결과에 나타나는 경우가 있을 수 있습니다. 이는 다른 웹 문서들이나 사이트들이 해당 웹 문서를 링크한 경우, 그 링크에 제시된 설명에 의해서 자동적으로 생성되는 것으로, 해당 웹 사이트의 robots.txt의 존재유무나 로봇의 동작과는 무관할 수 있습니다. 

* User-agent : 수집하는 주체의 범위를 정합니다. *으로 설정할 경우 모든 봇의 접근이 격리됩니다. 
  naver의 경우 봇 이름은 Naverbot입니다. 
  User-agent : * '와 같은 꼴로 사용합니다. 
* Allow : 뜻 그대로 허락할 디렉토리를 설정합니다. 
* Disallow : 뜻 그대로 불허할 디렉토리를 설정합니다. 
  Disallow: 뒤에 아무것도 표시하지 않을 경우에도, 모든 접근을 허락한다는 뜻이 되므로 유의하세요. 
  만약 모든 디렉토리의 접근을 막고 싶다면 'Disallow: /'와 같이 쓰면 됩니다. 

 

 

출처 : http://gipsi.tistory.com/



[ 예시 ]


User-Agent : *

Disallow : /phpschool/

Disallow : /admin/

Disallow : /data/

Disallow : /home/

Disallow : /img/

Disallow : /captcha/

Disallow : /memo

Disallow : /portfoilo/