Kami nyaris membiarkan CDN sendiri memblokir bot yang kami undang
Kami menulis JSON-LD, llms.txt, dan sitasi dengan satu alasan: agar ChatGPT, Claude, dan
Perplexity membaca situs ini dan mengutipnya. Lalu kami menemukan satu setelan yang bisa
diam-diam menggagalkan semuanya — tepat di pintu depan kami sendiri.
Hal yang tak pernah diperingatkan ke siapa pun
robots.txt Anda bisa membuka pintu lebar-lebar untuk setiap crawler AI, dan itu tak berarti
apa-apa kalau CDN memutuskan sebaliknya. Sejak pertengahan 2025, Cloudflare memblokir crawler
AI secara default di zona baru, dan tombol "Block AI bots" menegakkannya di level jaringan
— 403, apa pun isi file Anda.
robots.txt itu permintaan; edge itu gate-nya
Perbedaan ini butuh waktu sampai benar-benar kami pahami.
Yang dilakukan robots.txt
- Permintaan sopan, sukarela
- Crawler yang baik membacanya lalu menurut
- Bebas diedit — ia menyiratkan niat
Yang dilakukan edge
- Menegakkan izin atau blokir di level jaringan
- Mengembalikan 403 tanpa peduli robots.txt
- Inilah yang benar-benar menentukan keterjangkauan
Alur yang benar-benar dilalui crawler
Yang ingin kami katakan ke diri sendiri
Do
- Pilih "izinkan crawler AI" saat onboarding Cloudflare
- Set managed robots.txt ke "disable" agar file Anda sendiri yang disajikan
- Verifikasi dengan
curl -A GPTBot -I, harapkan 200
Don't
- Mengira robots.txt ramah sudah cukup dengan sendirinya
- Menyalakan "Block AI bots" atau managed robots.txt "jangan scrape"
- Percaya pada user-agent saja — Perplexity pun dicoret karena crawling siluman
Kami nyaris merilis situs yang susah payah meminta untuk dikutip, lalu menolak pengunjung yang justru akan mengutipnya. Perbaikannya cuma satu tombol dan satu perintah curl — menemukannya itulah seluruh pelajarannya.
Sources