-->

iklan banner

Apa Itu Robots.Txt?


Kata-kata 'aneh' yang bakal mimin pake pada postingan ini ialah :

Index / diindex = dirayapi
Meng-index = merayapi
Bot crawler = robot perayap
Search engine = mesin pencari / penelusur (seperti, Google, Yahoo!, Bing)
Page = halaman
Directory / direktori = folder
Public directory = folder publik
Default = bawaan

Sebagai seorang blogger, kalian mungkin sudah pernah mendengar kata "robots.txt". Dan mimin yakin, ketika pertama kali mendengarnya, kalian bingung. Begitu pula dengan mimin ketika pertama kali mendengarnya. Namun, ketika ini insyaAllah mimin sedikit banyak sudah paham apa itu robots.txt dan bagaimana cara kerjanya. Oleh alasannya itu, lewat artikel ini mimin akan menyebarkan ilmu yang mimin tahu mengenai robots.txt.

Apa itu Robots.txt?

Robots.txt ialah sebuah file berformat text (.txt) yang wajib dimiliki setiap situs di internet yang didaftarkan pada search engine ibarat Google, Yahoo!, dan Bing. Makara robots.txt sangat bersahabat hubungannya dengan SEO. Robots.txt berfungsi untuk mengontrol halaman atau direktori website mana yang boleh diindex search engine.

Bagaimana cara kerja Robots.txt?

Singkatnya, ketika bot crawler mengunjungi blog / website kalian, file yang pertama kali mereka index ialah file robots.txt yang terletak pada public directory blog / website kalian. File robots.txt itu sendiri berisi perintah-perintah untuk mengatur bot crawler mengenai halaman mana saja yang boleh diindex di search engine. Hal ini tentu saja untuk melindungi halaman sistem kalian untuk diketahui orang-orang, contohnya halaman Administrator.

Sama halnya dengan website pribadi, blog juga mempunyai file robots.txt, hanya saja di blog biasanya telah ditetapkan sebagai standar oleh penyedia layanan blognya. Untuk blog Blogspot, default robots.txt diatur ibarat ini :
User-agent: Mediapartners-Google disallow: User-agent: * disallow: /search allow: / sitemap: http://blogURL/feed/posts/default?orderby=UPDATED 

Arti dari instruksi di atas :
  1. "User-agent: Mediapartners-Google": itu berarti bahwa kode-kode yang ditempatkan di bawahnya hanya berlaku untuk bot crawler Mediapartners-Google yang merupakan bot crawler untuk Google Adsense.
  2. "disallow:": itu berarti tidak ada batasan bot crawler untuk mengindex konten yang ada di blog tersebut.
  3. "User-agent: *": ini berarti instruksi / perintah yang ditempatkan di bawahnya berlaku untuk semua bot crawler (diwakili dengan tanda bintang '*').
  4. "disallow: /search": melarang bot crawler untuk mengindex URL yang mempunyai awalan "http://domainblogmu.com/search".
  5. "allow: /": membiarkan bot crawler mengindex semua page kecuali yang dicantumkan pada perintah disallow.
  6. "sitemap:": ini ialah sitemap dari blog kalian yang diberitahukan kepada bot crawler biar gampang ketika menjelajahinya lagi. Sitemap ini berisi semua URL yang ada di blog kalian untuk diindex oleh bot crawler.
Kesimpulan dari kode-kode di atas ialah :

  • File robots.txt memperbolehkan bot crawler Google Adsense (User-agent: Mediapartners-Google) untuk mengindex semua page pada blog kalian.
  • Mengizinkan semua bot crawler dari search engine manapun (User-agent: *) mengindex semua page blog kalian kecuali page dengan URL yang mempunyai awalan http://domainblogmu.com/search.

Bagaimana cara mengatur Robots.txt?

Jika kalian ingin memodifikasi atau mengatur robots.txt maka kalian harus berhati-hati alasannya kesalahan sedikit saja pada instruksi robots.txt sanggup menimbulkan blog / website kalian tidak terindex oleh search engine. Oleh alasannya itu, mimin akan menjelaskan bagaimana memodifikasi atau mengatur robots.txt dengan benar.

A. Memblokir URL

Contoh kasus, misal kalian ingin memblokir postingan tertentu biar tidak diindeks oleh semua bot crawler search engine, kalian sanggup melakukannya dengan menempatkan instruksi di bawah ini :
User-agent: * disallow: /2018/04/url-postingan-yang-ingin-diblokir.html 
Kode yang mimin warnai di atas merupakan pola struktur URL permalink blogspot yang diblokir tanpa menuliskan nama domain blog di depannya.

B. Memblokir Folder / Direktori

Untuk memblokir semua bot crawler search engine mengindeks direktori (beserta isinya) pada website / blog kalian, kalian sanggup melakukannya ibarat instruksi yang mimin tuliskan di bawah ini :
User-agent: * disallow: /foldergambar/ disallow: /folderadmin/

C. Memblokir URL yang Mengandung Karakter / Kata Tertentu

Contoh kasus, mimin mau memblokir semua bot crawler search engine mengindex halaman yang pake huruf tanda tanya (?) yang biasanya digunakan pada URL untuk query string atau pencarian pada web tertentu yang menimbulkan duplikat. Maka mimin akan memakai instruksi di bawah ini :
User-agent: * disallow: /*?*

D. Memblokir Akses Pada Ekstensi / Format File Tertentu

Contoh kasus, mimin mau memblokir semua bot crawler search engine supaya tidak mengindex file dengan ekstensi (format) tertentu, maka mimin akan memakai instruksi di bawah ini :
User-agent: * disallow: /*.php$ disallow: /*.js$ disallow: /*.jpg$ disallow: /*.png$ 
Saat kalian memodifikasi robots.txt, kalian sanggup mengatur bot crawler mana saja yang diperbolehkan melaksanakan index pada blog / website kalian. Berikut mimin kasih list beberapa bot crawler paling populer yang sering digunakan orang-orang di luaran sana :

  1. Googlebot - bot crawler dari Google.
  2. Baiduspider - bot crawler dari Baidu.
  3. MSN Bot/Bingbot - bot crawler dari Bing yang dimiliki oleh perusahaan teknologi besar, Microsoft.
  4. Yandex Bot - bot crawler dari Yandex.
  5. Soso Spider - bot crawler dari Soso yang dimiliki oleh perusahaan berjulukan Tencent Holdings Limited (Cina).
  6. Exabot - bot crawler dari ExaLead.
  7. Sogou Spider - bot crawler dari Sogou.com (Cina)
  8. Google Plus Share - bot crawler dari Google.
  9. Facebook External Hit - bot crawler dari Facebook.
  10. Google Feedfetcher - bot crawler dari Google.
  11. Mediapartners-google - bot crawler Google Adsense.
  12. Yahoo Slurp - bot crawler dari Yahoo!.

Oke, mimin rasa cukup itu saja yang sanggup mimin bagi untuk hari ini. Jika kalian masih gundah jangan sungkan-sungkan untuk bertanya pribadi ke mimin, sanggup lewat kolom komentar di bawah atau pribadi kirim lewat Halaman Kontak.

Semoga bermanfaat and.. happy weekend!

Sumber http://bee-id.blogspot.com

Berlangganan update artikel terbaru via email:

0 Response to "Apa Itu Robots.Txt?"

Posting Komentar

Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel