Robots.txt adalah sebuah file teks sederhana yang berfungsi memberikan instruksi kepada web crawler (seperti Googlebot, Bingbot, dan bot lainnya) tentang halaman atau direktori mana yang boleh dan tidak boleh diakses.
Meskipun robots.txt dapat memengaruhi proses crawling, file ini tidak dapat sepenuhnya mencegah pengindeksan. Mesin pencari masih bisa mengindeks URL yang diblokir jika menemukan tautan ke halaman tersebut dari sumber lain.
Sejarah Robots.txt
Robots Exclusion Protocol (REP) pertama kali diperkenalkan oleh Martijn Koster pada tahun 1994 dan kini distandardisasi sebagai RFC 9309. REP menjadi standar de-facto dalam mengatur komunikasi antara webmaster dan crawler.
Sintaks Dasar Robots.txt

File robots.txt menggunakan format field:value. Beberapa elemen penting adalah:
- User-Agent → menentukan bot target (misalnya: Googlebot, Bingbot, atau *)
- Allow → menentukan URL path yang boleh di-crawl
- Disallow → menentukan URL path yang tidak boleh di-crawl
- Sitemap → menunjukkan lokasi sitemap XML website
- Crawl-Delay → menentukan jeda waktu antar crawl (tidak diikuti oleh Google)
- # → digunakan untuk menambahkan komentar
Fungsi Robots.txt
1. Mengontrol Akses Crawler
Robots.txt membantu menentukan bagian mana dari website yang boleh dan tidak boleh diakses oleh bot.
- Contoh: mencegah crawler masuk ke folder /admin/ atau /cart/ yang tidak perlu tampil di hasil pencarian.
2. Menghemat Crawl Budget
Google dan mesin pencari punya batas jumlah halaman yang bisa di-crawl dalam periode tertentu (crawl budget).
Dengan robots.txt, Anda bisa:
- Fokuskan crawler hanya ke halaman penting.
- Hindari buang-buang resource untuk halaman duplikat, parameter URL, atau halaman yang tidak bermanfaat.
3. Meningkatkan SEO Teknis
- Membantu mesin pencari memahami struktur website.
- Memastikan halaman penting tetap diprioritaskan.
- Mengurangi risiko halaman sensitif atau duplikat muncul di hasil pencarian.
4. Melindungi Informasi Sensitif (Sebatas Crawling)
Meski bukan solusi keamanan, robots.txt bisa dipakai untuk mencegah crawler mengakses direktori tertentu (misalnya file testing, staging, atau konfigurasi internal).
5. Praktik Standar dalam SEO
Robots.txt sudah menjadi standar internasional (Robots Exclusion Protocol, RFC 9309) sehingga hampir semua mesin pencari besar mematuhinya.
Aturan Penting Robots.txt
Beberapa hal yang wajib diperhatikan dalam pembuatan robots.txt:
- Harus berada di root domain →
https://domain.com/robots.txt - Nama file lowercase →
robots.txt(bukanRobots.txt) - Ukuran maksimal 500 KiB → konten lebih dari ini akan diabaikan
- Harus berupa file UTF-8 dengan MIME type text/plain
- Setiap host/subdomain butuh robots.txt sendiri
- Status code 200 OK wajib (4xx dianggap semua diizinkan, 5xx dianggap semua diblokir)
- User-Agent tidak case-sensitive
- Aturan Allow/Disallow bersifat case-sensitive
- Gunakan path relatif (misalnya /seo/), kecuali untuk Sitemap yang harus berupa absolute URL
- Hanya karakter wildcard
*dan$yang valid (regex tidak didukung)
Best Practices Robots.txt
Agar robots.txt bekerja optimal, berikut beberapa praktik terbaik:
- Pastikan status code 200 OK
- Tambahkan komentar deskriptif di awal file
- Jangan memblokir file penting seperti JavaScript dan CSS
- Hindari mencantumkan folder atau URL yang terlalu sensitif
- Selalu sertakan sitemap untuk mempermudah bot dalam menemukan halaman
- Gabungkan aturan bila memungkinkan agar file tetap ringkas
- Validasi robots.txt sebelum dipublikasikan
Tools untuk Mengecek Robots.txt
Beberapa tool online yang bisa digunakan untuk memvalidasi robots.txt:
Robots.txt merupakan salah satu elemen penting dalam technical SEO yang sering diabaikan. Dengan mengonfigurasi robots.txt dengan benar, Anda dapat:
- Mengontrol proses crawling mesin pencari
- Menghemat crawl budget
- Mencegah akses ke halaman yang tidak relevan
Namun, ingatlah bahwa robots.txt bukan alat untuk menghapus halaman dari indeks. Jika ingin benar-benar menghindari pengindeksan, gunakan meta robots noindex atau HTTP header x-robots-tag.