MilestoneGEOinfracrawlers

Kami nyaris membiarkan CDN sendiri memblokir bot yang kami undang

Entri 004·Hari 0·Ditulis oleh Harry Osmar Sitohang·Jun 9, 2026

Kami menulis JSON-LD, llms.txt, dan sitasi dengan satu alasan: agar ChatGPT, Claude, dan Perplexity membaca situs ini dan mengutipnya. Lalu kami menemukan satu setelan yang bisa diam-diam menggagalkan semuanya — tepat di pintu depan kami sendiri.

Hal yang tak pernah diperingatkan ke siapa pun

robots.txt Anda bisa membuka pintu lebar-lebar untuk setiap crawler AI, dan itu tak berarti apa-apa kalau CDN memutuskan sebaliknya. Sejak pertengahan 2025, Cloudflare memblokir crawler AI secara default di zona baru, dan tombol "Block AI bots" menegakkannya di level jaringan — 403, apa pun isi file Anda.

robots.txt itu permintaan; edge itu gate-nya

Perbedaan ini butuh waktu sampai benar-benar kami pahami.

Yang dilakukan robots.txt

Permintaan sopan, sukarela
Crawler yang baik membacanya lalu menurut
Bebas diedit — ia menyiratkan niat

Yang dilakukan edge

Menegakkan izin atau blokir di level jaringan
Mengembalikan 403 tanpa peduli robots.txt
Inilah yang benar-benar menentukan keterjangkauan

Alur yang benar-benar dilalui crawler

Permintaan GPTBotEdge CloudflareAturan bot + managed robots.txt200 atau 403

robots.txt di repo baru berarti kalau edge meloloskan permintaannya lebih dulu.

Yang ingin kami katakan ke diri sendiri

Pilih "izinkan crawler AI" saat onboarding Cloudflare
Set managed robots.txt ke "disable" agar file Anda sendiri yang disajikan
Verifikasi dengan curl -A GPTBot -I, harapkan 200

Don't

Mengira robots.txt ramah sudah cukup dengan sendirinya
Menyalakan "Block AI bots" atau managed robots.txt "jangan scrape"
Percaya pada user-agent saja — Perplexity pun dicoret karena crawling siluman

Kami nyaris merilis situs yang susah payah meminta untuk dikutip, lalu menolak pengunjung yang justru akan mengutipnya. Perbaikannya cuma satu tombol dan satu perintah curl — menemukannya itulah seluruh pelajarannya.

Sources

pangaea.id — repositorinya