Penjelasan serta Fungsi Robots.txt dan Cara Mengaturnya Pada Blog

Senin, 08 Oktober 2012

Mungkin di antara kamu belum tahu apa itu robot.txt! Robots.txt adalah file teks yang dibuat oleh pembuat web untuk menginstruksikan robot web (biasanya robot mesin telusur) cara merayapi laman di situs web mereka. File robots.txt adalah bagian dari protokol pengecualian robot (REP), sekelompok standar web yang mengatur bagaimana robot merayapi konten web, akses, dan indeks, dan menyajikan konten tersebut kepada pengguna. REP juga mencakup arahan seperti robot meta , serta petunjuk halaman, subdirektori, atau keseluruhan situs untuk bagaimana mesin pencari harus memperlakukan tautan (seperti "ikuti" atau "nofollow").

Dalam prakteknya, file robots.txt menunjukkan apakah agen pengguna tertentu (perangkat lunak perayapan web) dapat atau tidak dapat merayapi bagian dari sebuah situs web. Instruksi perayapan ini ditentukan oleh "melarang" atau "membiarkan" perilaku agen pengguna tertentu (atau semua).

Contoh robots.txt:
Berikut adalah beberapa contoh tindakan robots.txt untuk situs www.example.com :
URL file robots.txt: www.example.com/robots.txt
Memblokir semua perayap web dari semua konten

Agen pengguna: * 
Larang: /

Menggunakan sintaks ini dalam file robots.txt akan memberi tahu semua perayap web untuk tidak merayapi laman apa pun di www.example.com , termasuk beranda.

Mengizinkan semua perayap web mengakses semua konten

Agen pengguna: * 
Melarang:

Menggunakan sintaks ini dalam file robots.txt memberitahu perayap web untuk merayapi semua laman di www.example.com , termasuk beranda.

Memblokir perayap web tertentu dari folder tertentu

Agen pengguna: Googlebot 
Larang: / contoh-subfolder /

Sintaks ini hanya memberitahukan perayap Google (nama agen pengguna Googlebot) untuk tidak merayapi laman yang berisi string URL www.example.com/example-subfolder/.

Memblokir perayap web tertentu dari laman web tertentu

User-agent: Bingbot
Larang: /example-subfolder/blocked-page.html

Sintaks ini hanya memberi tahu perayap Bing (nama agen pengguna Bing) untuk menghindari perayapan laman tertentu di www.example.com/example-subfolder/blocked-page.

Bagaimana cara kerja robots.txt?
Mesin pencari memiliki dua pekerjaan utama:

Merayapi web untuk menemukan konten;
Pengindeksan konten itu sehingga bisa disajikan kepada pencari yang sedang mencari informasi.

Untuk merayapi situs, mesin telusur mengikuti tautan untuk berpindah dari satu situs ke situs lainnya, pada akhirnya, merayapi banyak miliaran tautan dan situs web. Perilaku merangkak ini terkadang dikenal sebagai "spidering".

Setelah sampai di website tapi sebelum menjelajahinya, crawler pencarian akan mencari file robots.txt. Jika menemukannya, perayap akan membaca file itu terlebih dahulu sebelum melanjutkan melalui halaman. Karena file robots.txt berisi informasi tentang bagaimana mesin pencari harus merangkak, informasi yang ditemukan di sana akan menginstruksikan tindakan crawler lebih lanjut di situs ini. Jika file robots.txt tidak berisi perintah yang melarang aktivitas agen pengguna (atau jika situs tersebut tidak memiliki file robots.txt), file tersebut akan melanjutkan untuk merayapi informasi lainnya di situs.

Sintaks robots.txt teknis
Sintaks Robots.txt dapat dianggap sebagai "bahasa" dari file robots.txt. Ada lima istilah umum yang mungkin kamu temukan dalam file robot. Mereka termasuk:

Agen pengguna: Perayap web khusus yang kamu gunakan untuk memberikan instruksi merangkak (biasanya mesin telusur). Daftar agen pengguna yang paling banyak dapat ditemukan di sini.
Disallow: Perintah yang digunakan untuk memberi tahu agen pengguna untuk tidak merayapi URL tertentu. Hanya satu baris "Larang:" yang diizinkan untuk setiap URL.
Izinkan (Hanya berlaku untuk Googlebot): Perintah untuk memberi tahu Googlebot dapat mengakses halaman atau subfolder meskipun halaman induk atau subfoldernya mungkin tidak diizinkan.
Crawl-delay: Berapa milidetik perayap harus menunggu sebelum memuat dan merayapi konten halaman. Perhatikan bahwa Googlebot tidak mengetahui perintah ini, namun tingkat perayapan dapat ditetapkan di Google Search Console .
Peta Situs: Digunakan untuk memanggil lokasi peta situs XML yang terkait dengan URL ini. Perhatikan perintah ini hanya didukung oleh Google, Ask, Bing, dan Yahoo.

Kenapa kamu butuh robots.txt?

File robots.txt mengendalikan akses perayap ke area tertentu di situs kamiu. Meskipun ini bisa sangat berbahaya jika kamu secara tidak sengaja membiarkan Googlebot merayapi keseluruhan situs kamu (!!), ada beberapa situasi di mana file robots.txt bisa sangat berguna.

Beberapa kasus penggunaan umum meliputi:

Mencegah duplikat konten muncul di SERPs (perhatikan bahwa meta robots seringkali merupakan pilihan yang lebih baik)
Menjaga seluruh bagian situs web pribadi (misalnya, situs pementasan tim teknik kamu)
Menjaga halaman hasil pencarian internal tidak muncul di SERP publik
Menentukan lokasi sitemap (s)
Mencegah mesin pencari mengindeks file tertentu di situs kamu (gambar, PDF, dll.)
Menentukan penundaan perayapan untuk mencegah server kamu kelebihan beban saat perayap memuat beberapa konten sekaligus

Jika tidak ada area di situs kamu yang ingin kamu kontrol akses agen pengguna, kamu mungkin tidak memerlukan file robots.txt sama sekali.

Memeriksa apakah kamu memiliki file robots.txt

Tidak yakin apakah kamu memiliki file robots.txt? Cukup ketik di root domain kamu, lalu tambahkan /robots.txt ke akhir URL. Misalnya, file robot contoh terletak di contoh.com/robots.txt.

Jika tidak ada .txt halaman muncul, saat ini kamu tidak memiliki halaman (live) robots.txt.

Praktik terbaik SEO

Pastikan kamu tidak memblokir konten atau bagian dari situs web yang ingin dirayapi.
Tautan di halaman yang diblokir oleh robots.txt tidak akan diikuti. Ini berarti 1.) Kecuali mereka juga terhubung dari halaman yang dapat diakses oleh mesin pencari lainnya (yaitu halaman yang tidak diblokir melalui robot robots.txt, meta, atau lainnya), sumber terkait tidak akan dijelajahi dan mungkin tidak diindeks. 2.) Tidak ada ekuitas link yang bisa dilewatkan dari halaman yang diblokir ke tujuan link. Jika kamu memiliki halaman yang kamu inginkan untuk dilewati, gunakan mekanisme pemblokiran yang berbeda selain robots.txt.
Jangan gunakan robots.txt untuk mencegah data sensitif (seperti informasi pengguna pribadi) agar tidak muncul dalam hasil SERP. Karena halaman lain mungkin menautkan langsung ke halaman yang berisi informasi pribadi (sehingga melewati perintah robots.txt di domain akar), mungkin masih diindeks. Jika kamu ingin memblokir halaman kamu dari hasil pencarian, gunakan metode yang berbeda seperti proteksi kata sandi atau arahan meta noindex .
Beberapa mesin pencari memiliki beberapa agen pengguna. Misalnya, Google menggunakan Googlebot untuk penelusuran organik dan Googlebot-Image untuk pencarian gambar. Sebagian besar agen pengguna dari mesin telusur yang sama mengikuti peraturan yang sama sehingga tidak perlu menentukan arahan untuk setiap perayap beberapa mesin telusur, namun kemampuan melakukannya memungkinkan kamu menyempurnakan bagaimana konten situs kamu dirayapi.
Mesin telusur akan menyimpan konten robots.txt, namun biasanya memperbarui konten dalam cache paling sedikit sekali sehari. Jika kamu mengubah file dan ingin memperbaruinya lebih cepat daripada yang terjadi, kamu bisa mengirimkan url robots.txt kamu ke Google .

Cara Setting Robot.txt di Blogger

Semua plaform Blogger sudah memiliki robot.txt didalamnya. Secara default robot.txt di blogspot seperti dibawah ini:

User-agent: Mediapartners-Google

Disallow:

User-agent: *

Disallow: /search

Allow: /

Sitemap: http://namablogkamu.blogspot.com/feeds/posts/default?orderby=UPDATED

Berikut adalah penjelasan Kode di atas:

User-agent: Mediapartners-Google: User agent milik google menandakan bahwa blog ini partner dari google. Kode ini juga difungsikan untuk robot Google Adsense yang membantu mereka untuk menampilkan iklan yang relevan di blog kamu sesuai niche blog kamu.
Disallow: Yang tidak di perbolehkan tidak ada.
User-agent: Semua robot search engine/mesin pencari.
Disallow: /search: Tidak di perbolehkan merayapi folder seach dll, seperti search/label dan seterusnya. Itu berarti link memiliki kata kunci pencarian setelah nama domain akan diabaikan. seperti yang saya katakan search/label/seo tidak akan di index.
Allow: /: Mengizinkan semua halaman untuk di rayapi, kecuali yang di larang di atas. Tanda “/” mengacu pada homepage dan berarti robot dapat merayapi homepage blog kita.
Sitemap: http://namablogkamu.blogspot.com/feeds/posts/default?orderby=UPDATED: Sitemap atau alamat feeds blog. Kode ini mengacu pada setimap blog, yang akan mempermudah robot untuk merayapi dan mengindex setiap artikel di terbitkan.

Sitemap di atas hanya dapat memberi tahu web crawler sekitar 25 artikel yang baru di terbitkan dan jika kamu ingin mengoptimalkan agar lebih dari itu, kamu bisa merubahnya menjadi sitemap sebagai berikut:

Sitemap di atas untuk memberi tahu bahwa artikel kamu di kisaran 500
Sitemap: http://namablogkamublogspot.com/atom.xml?redirect=false&start-index=1&max-results=500

Lebih dari 500 artikel
Sitemap: http://namablogkamu.blogspot.com/atom.xml?redirect=false&start-index=500&max-results=1000

kode di bawah ini adalah untuk mencegah duplikat konten yang terdapat di blog kamu, itu bisa disebabkan karena di akses dari mobile phone. Anda bisa mencegahnnya dengan setting robot.txt di blogger kamu dengan kode berikut:

User-agent: Mediapartners-Google

Disallow:

User-agent: Googlebot

Disallow: /search

Disallow: /?m=1

Disallow: /?m=0

Disallow: /*?m=1

Disallow: /*?m=0

User-agent: *

Disallow: /search

Sitemap: http://namablogkamu.blogspot.com/feeds/posts/default?orderby=UPDATED

Menambahkan Custom Robot.txt di Blogger kamu
Setting >> Preferensi Penulusran >> Robots.txt

Cowaska

Penjelasan serta Fungsi Robots.txt dan Cara Mengaturnya Pada Blog

Blogpost Senin, 08 Oktober 2012 edit Tags: BLOGGER, SEO