Apakah itu robots.txt
robots.txt adalah file yang sangat penting jika suatu web ingin mudah di index oleh search engine, ketika search engine crawler datang di web kita, maka dia akan mencari file kusus yaitu file yang bernama robots.txt dan memberitahukan search engine spider bahwa halaman web tersebut harus di indek atau di abaikan
file robots.txt adalah file text yang sederhana (bukan HTML), yang harus di tempatkan di root web misalnya
http://www.kadung.com/robots.txt
gemana membuat file robots.txt
seperti di sebutkan di atas bahwa robot.txt adalah file text sederhana, maka isi sebuah file robots.txt hanyalah terdiri dari sebuah catatan, sebuah catatan yang memberikan informasi khusus untuk search engine, setiap catatannya terdiri dari dua bidang yaitu user agent untuk baris pertama dan catatan larangan atau disallow untuk baris ke dua
contoh:
User-agent: googlebot
Disallow: /cgi-bin/
yang di maksut user agen googlebot, hanya bot search engine google ajah yang di perbolehkan untuk mengambil setiap halaman dari web kecuali direktori /cgi-bin/ karena Disallow: /cgi-bin/ maka semua file yang berada di cgi-bin akan di abaikan oleh googlebot.
Disallow atau larangan yang mewakili semua direktori
contoh:
User-agent: googlebot
Disallow: /software
maka semua direktori yang menggunakan awalan sofware tidak akan di indek oleh google misalnya /software-hp/index.html atau /software-linux/index.php bahkan /software/default.asp tidak akan di indek oleh google bot.
jika Disallow di kosongkan maka search engine dapat mengindek semua halaman yang ada di web anda
User-agent: googlebot
Disallow:
bila anda menginginkan semua search engine dapat mengindek web anda maka isilah user-agen:*
contoh:
User-agent: *
Disallow: /cgi-bin/
jika file robots.txt anda penulisannya salah maka web anda tidak akan diindex oleh search engine maka ada beberapa yang harus di hindari misalnya
1. jangan menggunakan command di robots.txt misalnya
#awal perintah
User-agent: *
Disallow: /cgi-bin/
#akir perintah
meskipun command diperbolehkan di robots.txt, kemungkinan akan dapat kerancuan pembacaan search engine spiders
2.jangan mengunakan spasi diawal baris
contoh:
User-agent: *
Disallow: /cgi-bin/
3.jangan mengubah urutan perintah
contoh:
Disallow: /cgi-bin/
User-agent: *
4.jangan mengunakan lebih dari satu direktori di Disallow
contoh:
User-agent: *
Disallow: /cgi-bin/ /sofware/ /picture/
karena spider bot tidak dapat memahami format, jika ingin melarang banyak direktori yang benar seperti ini
contoh:
User-agent: *
Disallow: /cgi-bin/
Disallow: /sofware/
Disallow: /picture/
5.pastikan penulisan direktori anda benar karena Case sensitive jika anda mempunyai direktory “software” tapi penulisan anda “SoftWare” maka direktori “software” akan tetap di index search engine
6.jangan mendaftar semua file dalam satu direktori, jika spider bot ingin mengabaikan file-file di dalam suatu direktori anda tidak perlu mendaftarkan semua file-filenya
contoh:
User-agent: *
Disallow: /sofware/handphone.html
Disallow: /sofware/komputer.html
Disallow: /sofware/driver.html
cukup dengan
User-agent: *
Disallow: /software/
7.jangan mengunakan perintah “allow” di dalam robots.txt, cukup di robot.txt hanya menggunakan “Disallow” saja untuk sebuah direktori atau halaman yang tidak ingin di index, sisanya semua otomatis akan di indek di web anda
Tips penggunaan robots.txt yang benar
1. lebih baik memperbolehkan semua search engine dan semua direktori ataupun halaman untuk mengindek web anda
User-agent: *
Disallow:
2.jika anda tidak ingin semua search engine mengindek web anda laranganlah root web anda Disallow: /
User-agent: *
Disallow: /
3.contohlah robots.txt web-web yang sudah besar jika anda ingin melihat contoh yang lebih komplek seperti
http://www.billinghotspot.com/robots.txt
http://www.microsoft.com/robots.txt
http://youtube.com/robots.txt
http://www.ebay.com/robots.txt
web anda haruslah memiliki sebuah file robot.txt yang tepat jika anda ingin web anda memiliki peringkat yang baik di search engine, jika search engine tahu apa yang ingin dilakukan dengan web anda, maka mereka akan memberikan peringkat di search engine lebih baik.
















































October 11th, 2008 at 1:09 pm
alhamdulillah
1. yeah .. pertamax
2. ketemu artikel tentang robots.txt soale dari dulu bingung cara penerapannya
thx ya
[Reply]
October 13th, 2008 at 10:17 pm
bingung oe.. rumit banget!
lihat aja bingung gimana mau belajar:D
[Reply]
October 15th, 2008 at 10:54 am
hoo… sama gak ma’ robot gede??? *kabuuuuuuuurr*
Ly´s last blog post..Saat Rindu Mengurai
[Reply]
October 16th, 2008 at 3:46 pm
harus hati2 naok di hosting yang bayar..kadang kala pihak hosyingnya mengharamkan ada robot di hostingnya
[Reply]
October 17th, 2008 at 1:24 am
ukuran robotnya kecil bnget ya mas
[Reply]
October 17th, 2008 at 10:27 am
wah om erwin belom nambah postingan lagi..
gi kenama yak ??
therunk´s last blog post..bisnis internet tergampang
[Reply]
October 17th, 2008 at 4:40 pm
klu pake blogspot, robot.txt nya ada dimana ya mas, help me mas kadung ada yang error nih page blogku waktu di cek di Google Webmaster Tool
project´s last blog post..Tips Mencari Jawaban Google (2)
[Reply]
October 18th, 2008 at 10:07 am
baru ngerti kalau tuntuk crawler SE khususnya google..siep mas erwin.
Diah´s last blog post..Model Rambut Keriting Kembali
[Reply]
October 19th, 2008 at 2:38 am
tips nya bagus, sangat membantu, salam kenal ya by GoMe Computer
[Reply]
October 21st, 2008 at 6:55 pm
wah,, robot ini berguna juga loh
supaya googlebot ga mencrawl artikel paid review..
jadi PR kita tetap aman walopun maen paid review..hehe
ruben bukan onsu´s last blog post..Dampak Krisis Keuangan Global
[Reply]
October 31st, 2008 at 4:25 pm
Dpt ilmu lg
tks
waw´s last blog post..Tips Buat Menghadapi Masa-Masa Sulit
[Reply]
November 21st, 2008 at 3:48 pm
Sedikit saya mau nanya mas, mungkin bisa diterangkan alasan “sebaiknya tidak menggunakan perintah allow” trims
Busby SEO Test´s last blog post..Busby SEO Test
[Reply]
November 23rd, 2008 at 8:01 pm
nice info bro! cocok banget buat nubie macem gw.
Thanks ya
[Reply]
November 30th, 2008 at 7:09 am
thanks banget neh
[Reply]