Robots.txt adalah sebuah file teks sederhana yang berfungsi memberikan instruksi kepada web crawler (seperti Googlebot, Bingbot, dan bot lainnya) tentang halaman atau direktori mana yang boleh dan tidak boleh diakses. Meskipun robots.txt dapat memengaruhi proses crawling, file ini tidak dapat sepenuhnya mencegah pengindeksan. Mesin pencari masih bisa mengindeks URL yang diblokir jika menemukan tautan ke halaman tersebut dari sumber lain. Sejarah Robots.txt Robots Exclusion Protocol (REP) pertama kali diperkenalkan oleh Martijn Koster pada tahun 1994 dan kini distandardisasi sebagai RFC 9309. REP menjadi standar de-facto dalam mengatur komunikasi antara webmaster dan crawler. Sintaks Dasar Robots.txt File robots.txt menggunakan format field:value. Beberapa elemen penting adalah: User-Agent → menentukan bot target (misalnya: Googlebot, Bingbot, atau *) Allow → menentukan URL path yang boleh di-crawl Disallow → menentukan URL path yang tidak boleh di-crawl Sitemap → menunjukkan lokasi sitemap XML website Crawl-Delay → menentukan jeda waktu antar crawl (tidak diikuti oleh Google) # → digunakan untuk menambahkan komentar Aturan Penting Robots.txt Beberapa hal yang wajib diperhatikan dalam pembuatan robots.txt: Harus berada di root domain → https://domain.com/robots.txt Nama file lowercase → robots.txt (bukan Robots.txt) Ukuran maksimal 500 KiB → konten lebih dari ini akan diabaikan Harus berupa file UTF-8 dengan MIME type text/plain Setiap host/subdomain butuh robots.txt sendiri Status code 200 OK wajib (4xx dianggap semua diizinkan, 5xx dianggap semua diblokir) User-Agent tidak case-sensitive Aturan Allow/Disallow bersifat case-sensitive Gunakan path relatif (misalnya /seo/), kecuali untuk Sitemap yang harus berupa absolute URL Hanya karakter wildcard * dan $ yang valid (regex tidak didukung) Best Practices Robots.txt Agar robots.txt bekerja optimal, berikut beberapa praktik terbaik: Pastikan status code 200 OK Tambahkan komentar deskriptif di awal file Jangan memblokir file penting seperti JavaScript dan CSS Hindari mencantumkan folder atau URL yang terlalu sensitif Selalu sertakan sitemap untuk mempermudah bot dalam menemukan halaman Gabungkan aturan bila memungkinkan agar file tetap ringkas Validasi robots.txt sebelum dipublikasikan Tools untuk Mengecek Robots.txt Beberapa tool online yang bisa digunakan untuk memvalidasi robots.txt: Tame the Bots Robots.txt Checker Real Robots.txt Validator Kesimpulan Robots.txt merupakan salah satu elemen penting dalam technical SEO yang sering diabaikan. Dengan mengonfigurasi robots.txt dengan benar, Anda dapat: Mengontrol proses crawling mesin pencari Menghemat crawl budget Mencegah akses ke halaman yang tidak relevan Namun, ingatlah bahwa robots.txt bukan alat untuk menghapus halaman dari indeks. Jika ingin benar-benar menghindari pengindeksan, gunakan meta robots noindex atau HTTP header x-robots-tag.

Panduan Lengkap Robots.txt untuk SEO: Fungsi, Aturan, dan Best Practices

Photo of author

By Muhammad Khadafi

Robots.txt adalah sebuah file teks sederhana yang berfungsi memberikan instruksi kepada web crawler (seperti Googlebot, Bingbot, dan bot lainnya) tentang halaman atau direktori mana yang boleh dan tidak boleh diakses.

Meskipun robots.txt dapat memengaruhi proses crawling, file ini tidak dapat sepenuhnya mencegah pengindeksan. Mesin pencari masih bisa mengindeks URL yang diblokir jika menemukan tautan ke halaman tersebut dari sumber lain.

Sejarah Robots.txt

Robots Exclusion Protocol (REP) pertama kali diperkenalkan oleh Martijn Koster pada tahun 1994 dan kini distandardisasi sebagai RFC 9309. REP menjadi standar de-facto dalam mengatur komunikasi antara webmaster dan crawler.

Sintaks Dasar Robots.txt

Robots.txt adalah sebuah file teks sederhana yang berfungsi memberikan instruksi kepada web crawler (seperti Googlebot, Bingbot, dan bot lainnya) tentang halaman atau direktori mana yang boleh dan tidak boleh diakses. Meskipun robots.txt dapat memengaruhi proses crawling, file ini tidak dapat sepenuhnya mencegah pengindeksan. Mesin pencari masih bisa mengindeks URL yang diblokir jika menemukan tautan ke halaman tersebut dari sumber lain. Sejarah Robots.txt Robots Exclusion Protocol (REP) pertama kali diperkenalkan oleh Martijn Koster pada tahun 1994 dan kini distandardisasi sebagai RFC 9309. REP menjadi standar de-facto dalam mengatur komunikasi antara webmaster dan crawler. Sintaks Dasar Robots.txt File robots.txt menggunakan format field:value. Beberapa elemen penting adalah: User-Agent → menentukan bot target (misalnya: Googlebot, Bingbot, atau *) Allow → menentukan URL path yang boleh di-crawl Disallow → menentukan URL path yang tidak boleh di-crawl Sitemap → menunjukkan lokasi sitemap XML website Crawl-Delay → menentukan jeda waktu antar crawl (tidak diikuti oleh Google) # → digunakan untuk menambahkan komentar Aturan Penting Robots.txt Beberapa hal yang wajib diperhatikan dalam pembuatan robots.txt: Harus berada di root domain → https://domain.com/robots.txt Nama file lowercase → robots.txt (bukan Robots.txt) Ukuran maksimal 500 KiB → konten lebih dari ini akan diabaikan Harus berupa file UTF-8 dengan MIME type text/plain Setiap host/subdomain butuh robots.txt sendiri Status code 200 OK wajib (4xx dianggap semua diizinkan, 5xx dianggap semua diblokir) User-Agent tidak case-sensitive Aturan Allow/Disallow bersifat case-sensitive Gunakan path relatif (misalnya /seo/), kecuali untuk Sitemap yang harus berupa absolute URL Hanya karakter wildcard * dan $ yang valid (regex tidak didukung) Best Practices Robots.txt Agar robots.txt bekerja optimal, berikut beberapa praktik terbaik: Pastikan status code 200 OK Tambahkan komentar deskriptif di awal file Jangan memblokir file penting seperti JavaScript dan CSS Hindari mencantumkan folder atau URL yang terlalu sensitif Selalu sertakan sitemap untuk mempermudah bot dalam menemukan halaman Gabungkan aturan bila memungkinkan agar file tetap ringkas Validasi robots.txt sebelum dipublikasikan Tools untuk Mengecek Robots.txt Beberapa tool online yang bisa digunakan untuk memvalidasi robots.txt: Tame the Bots Robots.txt Checker Real Robots.txt Validator Kesimpulan Robots.txt merupakan salah satu elemen penting dalam technical SEO yang sering diabaikan. Dengan mengonfigurasi robots.txt dengan benar, Anda dapat: Mengontrol proses crawling mesin pencari Menghemat crawl budget Mencegah akses ke halaman yang tidak relevan Namun, ingatlah bahwa robots.txt bukan alat untuk menghapus halaman dari indeks. Jika ingin benar-benar menghindari pengindeksan, gunakan meta robots noindex atau HTTP header x-robots-tag.

File robots.txt menggunakan format field:value. Beberapa elemen penting adalah:

  • User-Agent → menentukan bot target (misalnya: Googlebot, Bingbot, atau *)
  • Allow → menentukan URL path yang boleh di-crawl
  • Disallow → menentukan URL path yang tidak boleh di-crawl
  • Sitemap → menunjukkan lokasi sitemap XML website
  • Crawl-Delay → menentukan jeda waktu antar crawl (tidak diikuti oleh Google)
  • # → digunakan untuk menambahkan komentar

Fungsi Robots.txt

1. Mengontrol Akses Crawler

Robots.txt membantu menentukan bagian mana dari website yang boleh dan tidak boleh diakses oleh bot.

  • Contoh: mencegah crawler masuk ke folder /admin/ atau /cart/ yang tidak perlu tampil di hasil pencarian.

2. Menghemat Crawl Budget

Google dan mesin pencari punya batas jumlah halaman yang bisa di-crawl dalam periode tertentu (crawl budget).
Dengan robots.txt, Anda bisa:

  • Fokuskan crawler hanya ke halaman penting.
  • Hindari buang-buang resource untuk halaman duplikat, parameter URL, atau halaman yang tidak bermanfaat.

3. Meningkatkan SEO Teknis

  • Membantu mesin pencari memahami struktur website.
  • Memastikan halaman penting tetap diprioritaskan.
  • Mengurangi risiko halaman sensitif atau duplikat muncul di hasil pencarian.

4. Melindungi Informasi Sensitif (Sebatas Crawling)

Meski bukan solusi keamanan, robots.txt bisa dipakai untuk mencegah crawler mengakses direktori tertentu (misalnya file testing, staging, atau konfigurasi internal).

5. Praktik Standar dalam SEO

Robots.txt sudah menjadi standar internasional (Robots Exclusion Protocol, RFC 9309) sehingga hampir semua mesin pencari besar mematuhinya.

Aturan Penting Robots.txt

Beberapa hal yang wajib diperhatikan dalam pembuatan robots.txt:

  1. Harus berada di root domainhttps://domain.com/robots.txt
  2. Nama file lowercaserobots.txt (bukan Robots.txt)
  3. Ukuran maksimal 500 KiB → konten lebih dari ini akan diabaikan
  4. Harus berupa file UTF-8 dengan MIME type text/plain
  5. Setiap host/subdomain butuh robots.txt sendiri
  6. Status code 200 OK wajib (4xx dianggap semua diizinkan, 5xx dianggap semua diblokir)
  7. User-Agent tidak case-sensitive
  8. Aturan Allow/Disallow bersifat case-sensitive
  9. Gunakan path relatif (misalnya /seo/), kecuali untuk Sitemap yang harus berupa absolute URL
  10. Hanya karakter wildcard * dan $ yang valid (regex tidak didukung)

Best Practices Robots.txt

Agar robots.txt bekerja optimal, berikut beberapa praktik terbaik:

  • Pastikan status code 200 OK
  • Tambahkan komentar deskriptif di awal file
  • Jangan memblokir file penting seperti JavaScript dan CSS
  • Hindari mencantumkan folder atau URL yang terlalu sensitif
  • Selalu sertakan sitemap untuk mempermudah bot dalam menemukan halaman
  • Gabungkan aturan bila memungkinkan agar file tetap ringkas
  • Validasi robots.txt sebelum dipublikasikan

Tools untuk Mengecek Robots.txt

Beberapa tool online yang bisa digunakan untuk memvalidasi robots.txt:

Robots.txt merupakan salah satu elemen penting dalam technical SEO yang sering diabaikan. Dengan mengonfigurasi robots.txt dengan benar, Anda dapat:

  • Mengontrol proses crawling mesin pencari
  • Menghemat crawl budget
  • Mencegah akses ke halaman yang tidak relevan

Namun, ingatlah bahwa robots.txt bukan alat untuk menghapus halaman dari indeks. Jika ingin benar-benar menghindari pengindeksan, gunakan meta robots noindex atau HTTP header x-robots-tag.