Cara Membuat Robots.txt di Website dengan
blog itu berbeda. Contoh saja blogger dengan wordpress sudah jauh
berbeda. Codeignitier, Joomla, Drupal, Nginx dan lainnya merupakan
contoh framework website yang berbeda.
Web
Robots (juga dikenal dengan Web Wanderer, Crawler, atau Spider)
merupakan program yang melintasi Web secara otomatis. Mesin Pencari
seperti Google menggunakannya untuk mngindeks konten web, spammer
menggunakan mereka untuk mencari alamat email, dan masih banyak kegunaan
Web Robots yang lain.Pemilik
situs Web memakai file robots.txt untuk memberikan petunjuk mengenai
mereka ke situs web robot. Protokol yang dipakai disebut Robots Exclusion Protocol.Contoh isi file robots.txt adalah : User-agent: * Disallow: /
- User-agent: * artinya bagian ini berlaku ke semua robot.
- Disallow: / artinya robot tidak boleh mengunjungi semua bagian dari website.
2 Informasi Penting yang berkaitan dengan robots.txt :
- Robot dapat mengabaikan file robots.txt , terutama robot yang memang
berniat jahat dengan memindai malware di web atau para spammer.
- File robots.txt adalah fil yang tersedia untuk umum (bisa dibuka
oleh siapapun). Siapapun dapat melihat bagian dari server anda dan anda
tidak dapat menghalanginya meskipun telah menambahkan perintah disallow.
Skema mengenai crawler di search engine :
File robots.txt biasanya diletakkan di level teratas dari direktori web
server Anda. Anda dapat meletakkannya di directory lain yang diinginkan.
Jadi robot akan melihat apakah ada file robots.txt untuk tiap directory server.
Sebagai contoh, untuk file http://impoint.blogspot.com/seo-google-tips-blogging-and-website.html
Webserver yang sering dipakai adalah direktori root, yaitu tempat yang
sama dimana Anda meletakkan situs web utama / homepage "index.html".
File robots.txt adalah file teks dengan satu atau lebih record didalamnya. Tiap satu record adalah satu baris.
Contohnya seperti berikut :
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~user/
Untuk perintah disallow, anda harus memisahkan tiap directory baris.
Misalnya anda ingin menolak robots beroperasi di /cgi-bin/ dan /tmp/
maka penulisannya tidak boleh digabung dalam satu baris menjadi :
Disallow: /cgi-bin/ /tmp/
Tanda bintang pada user-agent artinya semua robot.
Untuk mengizinkan semua robot mengakses semua bagian website dapat menggunakan perintah berikut.
User-agent: *
Disallow:
Untuk melarang robot tertentu dapat mengganti tanda bintang di user agent dengan nama robot yang ingin dilarang, contoh :
User-agent: BadBot
Disallow:
Mengetahui Aktivitas Kunjungan Robot
Cara untuk mengetahui bahwa situs anda dikunjungi robot adalah dengan
mengecek log server di situs untuk melihat apakah ada yang mengakses
dokumen dalam jumlah banyak namun waktunya singkat.
Ada banyak nama robot di Internet diantaranya sebagai berikut :
Acme.Spider
Alkaline
Anthill
Google bot
Yahoo bot
Bay Spider
BBot
BackRub
Arale
ASpider
AskJeeves
Aretha
Walhello apple
ArchitextSpider
Untuk melihat keseluruhan robot yang ada di Internet dapat melihat
Botsbrowser .
Anda dapat membuat file robots.txt dngan menggunakan :
1. Notepad / Wordpad ( Operating System Windows )
2. Textedit (Format > Buat Plains Teks > Simpan sebagai Barat) ( OS Macintosh )
3. Vi atau Emacs ( Linux )
Terkadang beberapa robot crawler tidak menghiraukan file robots.txt yang
anda tulis, biasanya disebabkan oleh menggunakan aplikasi penulis
perangkat lunak yang kurang berpengalaman.
Jadi, dalam menulis robots.txt harus sangat berhati-hati dan lakukan pengecekkan file tersebut secara berkala.
Itulah Artikel tentang Memaksimalkan Sistem Robot.txt Pada Blog yang dapat kamu coba tentunya dan semoga bermanfaat, Terimakasih sudah membaca Artikel ini