Detail Aturan Robots.txt
Panduan Lengkap User-agent pada robots.txt
robots.txt adalah file teks sederhana yang digunakan untuk memberi tahu crawler mesin pencari halaman mana yang boleh atau tidak boleh diakses. Aturannya ditulis dalam bentuk blok User-agent
beserta direktifnya.
1️⃣ Struktur Dasar
File robots.txt
bekerja berdasarkan blok per User-agent
. Struktur umum robots.txt
adalah sebagai berikut:
User-agent: [nama crawler atau *] Disallow: [path] Allow: [path] Crawl-delay: [detik] [directive] [directive] ...
User-agent: *
berarti aturan berlaku untuk semua crawler yang tidak disebutkan secara spesifik.
2️⃣ Cara Kerja Blok User-agent
Semua direktif (Disallow
, Allow
, Crawl-delay
) hanya berlaku untuk User-agent yang disebut di atasnya. Begitu muncul User-agent
baru, maka direktif berikutnya berlaku untuk blok yang baru.
3️⃣ Contoh Penggunaan Beberapa Blok
Berikut contoh file robots.txt
dengan beberapa aturan:
User-agent: Googlebot Disallow: /private/ Allow: /public/ User-agent: * Disallow: /cart/ Disallow: /checkout/ Crawl-delay: 1
- Googlebot hanya dilarang mengakses
/private/
, sisanya diperbolehkan termasuk/public/
. - Semua bot lain dilarang mengakses
/cart/
dan/checkout/
, dan diberiCrawl-delay
agar tidak membebani server. - Semua
Disallow
,Allow
,Crawl-delay
, dan perintah lain hanya berlaku untukUser-agent
yang disebut di atasnya, sampaiUser-agent
berikutnya muncul.
# Blokir semua crawler untuk path tertentu User-agent: * Disallow: /admin/ Disallow: /temp/ # Izinkan semuanya untuk Bingbot User-agent: Bingbot Disallow:
4️⃣ Tabel Contoh per User-agent
Contoh 1 | Contoh 2 | Contoh 3 |
---|---|---|
|
User-Agent:* Crawl-delay:1 Disallow: /cart/ Disallow: /checkout/ Disallow: /buyer/login/otp Disallow: /user/ Disallow: /me/ Disallow: /order/ Disallow: /daily_discover/ Disallow: /mall/just-for-you/ Disallow: /mall/*-cat. Disallow: /from_same_shop/ Disallow: /you_may_also_like/ Disallow: *-i.*/similar Disallow: /find_similar_products/ Disallow: /top_products Disallow: /search*searchPrefill Disallow: /index.html |
User-agent: Googlebot Disallow: */komentar$ Disallow: */main$ Disallow: */main/* Disallow: /ajax/ Disallow: /api/ Disallow: /search/* Disallow: /tag/news/* Disallow: /tag/foto/* Disallow: *&sortby Disallow: *&device=desktop Disallow: */? Disallow: *edu/pov/d-* Disallow: */indeks/* Disallow: /*? Disallow: /video/ User-agent: * Allow: / Sitemap: https://www.det!k.com/sitemap.xml |
5️⃣ Hal Teknis Penting Tentang robots.txt
- File robots.txt harus diletakkan di root domain. Contoh:
https://www.example.com/robots.txt
. - Disallow: Membatasi URL atau path agar tidak di-crawl.
- Allow: Memperbolehkan URL atau path meskipun ada
Disallow
yang lebih umum. - Crawl-delay: Tidak didukung semua crawler. Googlebot mengabaikan
Crawl-delay
. - Gunakan
Disallow: /
untuk memblokir seluruh situs. - Gunakan
Disallow:
(tanpa path) untuk memperbolehkan semua halaman.
robots.txt
hanya pedoman. Beberapa crawler bisa mengabaikannya.
Dengan struktur seperti ini, kamu bisa mengatur akses crawler dengan jelas dan aman.
6️⃣ Tabel URL Pattern yang Diblokir (SEO & Robots.txt)
Pola Disallow
ini ditujukan untuk memblokir URL pencarian yang mengandung domain, karakter asing, atau kata kunci dalam Unicode (seperti istilah Mandarin atau Jepang misalnya 少妇 = ‘wanita muda’, 信 = ‘surat’, 酒店 = ‘hotel/bar’). Tujuannya adalah mencegah query spam, kata kunci dewasa, konten ilegal, atau iklan yang tidak diinginkan muncul di indeks mesin pencari. Semua istilah asing di atas telah didekode dari UTF-8/Unicode dan umumnya digunakan dalam spam, penipuan, konten dewasa, atau aktivitas judi — yang sering dimanfaatkan dalam praktik SEO blackhat.
Aturan Path (A-Z) | Keterangan | Alasan |
---|---|---|
Disallow: *-cat.*?category= | Dicegah akses URL kategori dengan parameter category | Parameter ini memicu duplikasi konten kategori |
Disallow: *-i.*/similar?from=flash_sale | Dicegah akses URL produk serupa dari flash sale | URL dinamis, tidak relevan untuk diindeks |
Disallow: *?sp_atk= | Dicegah akses URL dengan parameter sp_atk | Parameter tracking, tidak relevan untuk indeks |
Disallow: *__classic__=1 | Dicegah akses tampilan klasik | Tampilan lama, duplikasi halaman |
Disallow: /*?*srsltid | Dicegah akses URL dengan parameter srsltid | Parameter redirect dari hasil pencarian, tidak relevan |
Disallow: *utm_source | Dicegah akses URL dengan parameter utm_source | Tag tracking kampanye, tidak relevan untuk indeks |
Allow: /inspirasi-Merek/ | Diizinkan akses Inspirasi Merek | Konten publik, relevan untuk indeks |
Disallow: /inspirasi-Merek/?s= | Dicegah akses URL pencarian di Inspirasi Merek | Query pencarian internal, tidak relevan untuk indeks |
Crawl-delay:0.1 | Perintah jeda crawl 0.1 detik | Membatasi kecepatan crawl bot agar tidak membebani server |
Disallow: /addon-deal-selection/ | Blokir halaman Addon Deal Selection | Konten promosi dinamis, tidak relevan untuk indeks |
Disallow: /bundle-deal/ | Blokir halaman Bundle Deal | Konten bundling promo, memicu duplikasi URL |
Disallow: /buyer/*/rating/ | Blokir halaman rating pembeli | Data dinamis bersifat pribadi, tidak perlu diindeks |
Disallow: /buyer/login/otp | Dicegah Akses Login OTP Pembeli | Data sensitif, tidak relevan untuk mesin pencari |
Disallow: /cart/ | Dicegah (larangan akses) Akses Halaman Keranjang | Halaman bersifat pribadi & dinamis, tidak perlu diindeks |
Disallow: /checkout/ | Dicegah Akses Halaman Checkout | Melindungi proses transaksi agar tidak di-crawl |
Disallow: /daily_discover/ | Dicegah akses halaman Daily Discover | Konten dinamis, tidak relevan untuk indeks |
Disallow: /find_similar_products/ | Dicegah akses halaman Find Similar Products | Halaman rekomendasi otomatis, tidak relevan |
Disallow: /from_same_shop/ | Dicegah akses halaman produk dari toko yang sama | Hasil dinamis, potensi duplikasi konten |
Disallow: /index.html | Dicegah akses halaman Index duplikat | Mencegah duplikat konten home page |
Disallow: /mall/*-cat. | Dicegah akses kategori mall | Duplikasi kategori di mall, tidak relevan untuk indeks |
Disallow: /mall/just-for-you/ | Dicegah akses halaman Just For You | Halaman rekomendasi personal, tidak perlu diindeks |
Disallow: /me/ | Dicegah akses halaman profil user | Halaman bersifat pribadi, tidak untuk publik |
Disallow: /order/ | Dicegah Akses Pesanan | Informasi transaksi internal, bukan konten publik |
Disallow: /search* | Dicegah Akses Pencarian Umum | Menghindari duplikat konten & query parameter dinamis |
Disallow: /search*.com | Dicegah akses hasil pencarian domain .com | Mencegah duplikasi atau spam query |
Disallow: /search*.tv | Dicegah akses hasil pencarian domain .tv | Mencegah duplikasi atau spam query |
Disallow: /search*.xyz | Dicegah akses hasil pencarian domain .xyz | Mencegah duplikasi atau spam query |
Disallow: /search*·asia | Dicegah akses hasil pencarian domain .asia | Mencegah duplikasi atau spam query |
Disallow: /search*hashtag= | Dicegah akses hasil pencarian hashtag | Parameter hashtag, tidak relevan untuk indeks |
Disallow: /search*searchPrefill | Dicegah akses hasil pencarian prefill | Query prefill bersifat dinamis, tidak perlu diindeks |
Disallow: /search*utm_source | Dicegah akses hasil pencarian dengan utm_source | Tag tracking kampanye, tidak relevan |
Disallow: /search?brands= | Dicegah akses pencarian dengan parameter brands | Parameter filter, potensi duplikasi konten |
Disallow: /search?originalCategoryId= | Dicegah akses pencarian dengan originalCategoryId | Filter kategori, memicu duplikasi halaman |
Disallow: /search?shop= | Dicegah akses pencarian dengan parameter shop | Filter toko, memicu duplikasi hasil pencarian |
Disallow: /search/? | Dicegah akses URL pencarian dengan parameter apa pun | Hasil dinamis, tidak perlu diindeks |
Disallow: /search_user | Dicegah akses halaman pencarian user | Data personal & hasil dinamis, tidak untuk indeks |
Disallow: /search*.com | Blokir hasil pencarian domain .com | Mencegah query spam domain .com |
Disallow: /search*·asia | Blokir hasil pencarian domain .asia | Mencegah query spam domain .asia |
Disallow: /search*.tv | Blokir hasil pencarian domain .tv | Mencegah query spam domain .tv |
Disallow: /search*.xyz | Blokir hasil pencarian domain .xyz | Mencegah query spam domain .xyz |
Disallow: /search*。Com | Blokir hasil pencarian varian unicode .com | Mencegah spam atau penyalahgunaan unicode .com |
Disallow: /search*·COM | Blokir hasil pencarian domain .COM kapital | Duplikasi pola domain .com dengan kapitalisasi berbeda |
Disallow: /search*少妇 | Blokir hasil pencarian istilah asing (少妇) | Konten dewasa atau spam asing |
Disallow: /search*ä¿¡ | Blokir hasil pencarian istilah asing (信) | Mencegah spam keyword asing |
Disallow: /search*妹 | Blokir hasil pencarian istilah asing (妈) | Mencegah spam keyword asing |
Disallow: /search*酒店 | Blokir hasil pencarian istilah asing (酒店) | Mencegah spam keyword hotel/bar |
Disallow: /search*æœ | Blokir hasil pencarian istilah asing (服) | Mencegah spam keyword pakaian/servis |
Disallow: /search*åŒåŸŽ | Blokir hasil pencarian istilah asing (同城) | Mencegah spam keyword area lokal |
Disallow: /search*约 | Blokir kata kunci "约" (janji temu) | Umum dipakai untuk spam dewasa |
Disallow: /search*å§ | Blokir kata kunci "姐" (kakak perempuan) | Spam dewasa/escort keyword |
Disallow: /search*上门 | Blokir kata kunci "上门" (layanan ke rumah) | Spam layanan dewasa |
Disallow: /search*邀请 | Blokir kata kunci "邀请" (undangan) | Potensi spam iklan/event dewasa |
Disallow: /search*å¹³å° | Blokir kata kunci "平台" (platform) | Mencegah spam keyword platform iklan ilegal |
Disallow: /search*投 | Blokir kata kunci "投" (investasi/iklankan) | Umum untuk spam penipuan/iklan liar |
Disallow: /search*网 | Blokir kata kunci "网" (jaringan/web) | Mencegah spam web/jaringan ilegal |
Disallow: /search*怎 | Blokir kata kunci "怎" (bagaimana) | Digunakan dalam query spam saran/iklan |
Disallow: /search*套 | Blokir kata kunci "套" (paket/kontrasepsi) | Sering muncul di query dewasa/iklan ilegal |
Disallow: /search*商 | Blokir kata kunci "商" (bisnis/pedagang) | Mencegah spam iklan bisnis ilegal |
Disallow: /search*多少 | Blokir kata kunci "多少" (berapa banyak) | Spam query "berapa harga"/iklan ilegal |
Disallow: /search*é’± | Blokir kata kunci "钱" (uang) | Spam finansial/penipuan |
Disallow: /search*åš | Blokir kata kunci "博" (judi/taruhan) | Spam judi online |
Disallow: /search*彩 | Blokir kata kunci "彩" (lotre/warna) | Sering muncul di keyword lotre/judi |
Disallow: /search*è´ | Blokir kata kunci "购" (beli/belanja) | Spam iklan pembelian ilegal |
Disallow: /search*开户 | Blokir kata kunci "开户" (buka akun) | Umum untuk spam judi/investasi ilegal |
Disallow: /search*体育 | Blokir kata kunci "体育" (olahraga) | Sering dipakai untuk spam taruhan olahraga |
Disallow: /search*找 | Blokir kata kunci "找" (cari) | Query spam cari layanan ilegal |
Disallow: /search*妞 | Blokir kata kunci "妳" (kamu perempuan) | Spam adult/escort keyword |
Disallow: /search*ç”µè¯ | Blokir kata kunci "电话" (telepon) | Spam iklan/telemarketing ilegal |
Disallow: /search*æ–‡å‡ | Blokir kata kunci "文凭" (ijazah) | Spam penipuan jual ijazah palsu |
Disallow: /search*è¯ | Blokir kata kunci "证" (sertifikat) | Spam penjualan sertifikat ilegal |
Disallow: /search*å¦ | Blokir kata kunci "学" (belajar/sekolah) | Spam terkait pendidikan palsu |
Disallow: /search*夜 | Blokir kata kunci "夜" (malam) | Spam adult/night service |
Disallow: /search*é±¼ | Blokir kata kunci "鱼" (ikan) | Istilah slang untuk spam/escort (bahasa gaul Tiongkok) |
Disallow: /search*哪 | Blokir kata kunci "哪" (mana/di mana) | Query spam cari layanan/penipuan |
Disallow: /search*ç§ | Blokir kata kunci "私" (pribadi) | Spam layanan privat/escort |
Disallow: /search*注册 | Blokir kata kunci "注册" (daftar/registrasi) | Spam pendaftaran akun ilegal |
Disallow: /search*怎 | Blokir kata kunci "怎" (bagaimana) | Query spam saran/iklan |
Disallow: /search*选 | Blokir kata kunci "选" (pilih/pemilihan) | Spam layanan/pemilihan ilegal |
Disallow: /search*晚 | Blokir kata kunci "晚" (malam/larut) | Spam adult layanan malam |
Disallow: /search*官 | Blokir kata kunci "官" (resmi/official) | Spam klaim palsu akun resmi |
Disallow: /search*å› | Blokir kata kunci "因" (karena/alasan) | Umum di query spam copy-paste iklan |
Disallow: /search*附近 | Blokir kata kunci "附近" (dekat/sekitar) | Spam adult layanan lokal |
Disallow: /search*æ¸¸æˆ | Blokir kata kunci "游戏" (game/permainan) | Spam game ilegal atau judi online |
Disallow: /search*下载 | Blokir kata kunci "下载" (unduh/download) | Spam link download ilegal |
Disallow: /search*网红 | Blokir kata kunci "网红" (seleb internet) | Spam jasa influencer tidak resmi |
Disallow: /search*ä»£å• | Blokir kata kunci "代孕" (ibu pengganti) | Spam layanan ilegal surrogacy |
Disallow: /search*ä¸ä»‹ | Blokir kata kunci "中介" (agen/perantara) | Spam jasa calo ilegal |
Disallow: /search*房 | Blokir kata kunci "房" (rumah/properti) | Spam properti/calo rumah ilegal |
Disallow: /search*è¯ | Blokir kata kunci "药" (obat) | Spam penjualan obat ilegal |
Disallow: /search*在线 | Blokir kata kunci "在线" (online) | Spam layanan daring ilegal |
Disallow: /search*登录 | Blokir kata kunci "登录" (login) | Spam akun/login phishing |
Disallow: /search*å…è´¹ | Blokir kata kunci "免费" (gratis) | Spam penawaran palsu/free trial ilegal |
Disallow: /search*é±¼ | Blokir kata kunci "鱼" (ikan) | Istilah slang escort/spam adult |
Disallow: /search*版 | Blokir kata kunci "版" (versi) | Spam software versi crack/bajakan |
Disallow: /search*åœ°å€ | Blokir kata kunci "地址" (alamat) | Spam iklan jasa/escort dengan alamat |
Disallow: /search*ç‚® | Blokir kata kunci "炮" (meriam/slang adult) | Slang Tiongkok untuk prostitusi |
Disallow: /search*出轨 | Blokir kata kunci "出轨" (selingkuh) | Spam adult affair service |
Disallow: /shop/*/details | Blokir halaman detail toko | Halaman detail dinamis, bukan konten utama untuk indeks |
Disallow: /shop/*/search | Dicegah Akses Pencarian di Toko | Menghindari crawl halaman hasil pencarian internal toko |
Disallow: /top_products | Blokir halaman Top Products | Konten rekomendasi dinamis, mencegah duplikasi URL |
Disallow: /user/ | Dicegah Akses Profil Pengguna | Melindungi privasi pengguna |
Disallow: /you_may_also_like/ | Blokir halaman *You May Also Like* | Konten rekomendasi otomatis, tidak relevan untuk indeks |
User-Agent: Bingbot | Bot Bing | Instruksi berlaku untuk Bingbot |
User-Agent: Googlebot | Bot Google Desktop | Instruksi berlaku untuk Googlebot |
User-Agent: Googlebot-Mobile | Bot Google Mobile | Instruksi berlaku untuk Googlebot Mobile |
Comments
Post a Comment