Kebanyakan yang disearch ,cara menetapkan robot txt yang betul

: 3:50:00 AM

Cara menetapkan robot txt yg betul

Bagaimana untuk mengoptimumkan carian anda di google adalah untuk meletakkan sebuah kod URrobot.txt.
Untuk mengetahui apakah txt robot, glimpses of URrobot.txt yang apabila anda lokasi berdomain situsanda.com didaftarkan pada enjin carian (cth: google), maka secara automatik anda membenarkan atau untuk mempunyai robot-robot yang mencari crawler enjin untuk melawat
dan merangkak namadomain.com lokasi. Kemudian, pada masa
robot perangkak (crawler bot) bahawa enjin carian melawat laman web anda, fail pertama masa mereka
boleh berjaya merangkak terletak di URrobots.txt. Jadi, fail URrobots.txt perlu diletakkan dalam direktori akar atau folder public_html. URrobots.txt fail yang mengandungi yang
crawler bot arahan di dalam tentang laman yang boleh dipaparkan pada mesin atau diindex
pencari. Ini sudah tentu adalah untuk melindungi sistem anda Laman yang dikenali oleh rakyat. Sebagai contoh halaman pentadbir laman web adalah halaman yang tidak pernah untuk dikenali oleh orang ramai atau diindeks oleh enjin carian. Ada URrobots.txt
melakukan kerjanya. Dengan laman web, Blog juga mempunyai fail URrobots.txt. Sahaja, URrobots.txt di blognya biasanya telah ditetapkan sebagai blog pembekal perkhidmatan lalai. Untuk blog blogspot, lalai URrobots.txt disetkan seperti ini:
Ejen pengguna: Mediapartners-Google
Tidak membenarkan:
Ejen pengguna: *
Tidak membenarkan: carian
membenarkan: /
Peta Laman: http://blogURL/feed/posts/default?
OrderBy = Kemaskini

Maksud kod di atas ialah:
1. "user-agent: Mediapartners-Google": bermakna bahawa kod yang diletakkan di bawah ia hanya terpakai kepada crawler Bot Crawler/robot, Mediapartners-Google. Crawler bot Mediapartners-Google adalah google adsense.
2. "Disallow:": ini bermakna bahawa terdapat merangkak tanpa batas di muka surat oleh crawler itu. Dalam erti kata lain, membenarkan crawler merangkak semua halaman dalam
Laman web ini.
3. "user-agent: *": ini bermakna kod/perintah
diletakkan di bawahnya ia terpakai padasemua robot perangkak (diwakili dengan kod ' * ').
4. "tidak membenarkan: carian": melarang crawler untuk merangkak URL yang mempunyai urlbloganda.com/ awalan
Carian.
5. "membenarkan: /": biarkan crawler merangkak semua laman kecuali yang dinyatakan di dalam perintah
tidak membenarkan.
6. "Peta Laman:": Inilah sitemap Laman web anda akan diberitahu kepada crawler begitu mudah Bilakah
meneroka lagi. Peta Laman yang mengandungi semua pautan sedia ada laman web kami untuk merangkak crawler.
Kesimpulan:
URrobots.txt-fail membolehkan google crawler
AdSense (User-agent: Mediapartner-Google) untuk
Melayari semua halaman Laman web anda
– Membenarkan semua crawler enjin carian
apa-apa (User-agent: *) merangkak semua muka surat
kecuali laman blog anda dengan satu url yang mempunyai
urlblog.com/search awalan. Kerana halaman dengan
URL awalan iaitu halaman Arkib dan
label.
Cara untuk menyediakan URRobots.txt yang
Jika anda ingin mengubahsuai atau menguruskan URrobots.txt anda, anda perlu berhati-hati dan
memahami tatacara betul bersalah boleh membuat laman web anda Cari enjin diindex Bil. Oleh itu, saya kini akan menerangkan cara untuk mengeset URrobots.txt tersebut dengan betul.
A. menghalang URL
Bukan sahaja adalah kod yang saya seperti yang dinyatakan di atas yang
boleh digunakan dalam URrobots.txt. Kes, sebagai contoh, anda mahu untuk menyekat jawatan tertentu dalam perintah
tidak diindekskan oleh enjin-enjin carian, anda boleh
lakukan ini dengan meletakkan kod di bawah.
ejen pengguna: *
disalllow:/2012/11/URL-permalink-posting.html
Blok kod saya di atas adalah contoh
blogspot post permalink url struktur yang terletak di blok
tanpa penulisan web nama domain di hadapan beliau.
B. menyekat Folder/direktori
Untuk menyekat folder atau direktori (termasuk kandungannya)
pada laman web anda, anda boleh lakukan seperti
dalam contoh di bawah. Saya menggunakan direktori
di laman web dengan wordpress sendiri menganjurkan lebih banyak
biasa.
ejen pengguna: *
Tidak membenarkan: / cgi-bin /
Tidak membenarkan: / wp-admin /
Tidak membenarkan: / wp-termasuk /
Tidak membenarkan: / wp-kandungan/plugin /
Tidak membenarkan: / wp-kandungan/cache /
Tidak membenarkan: / wp-kandungan/tema /
Kod di atas bermaksud mengharamkan crawler bot bagi
merangkak semua fail web yang sedia ada dalam folder
cgbin, wp-admin, wp-termasuk folder dan plugin,
cache, dan tema yang direktori sub
wp-kandungan folder.
C. blok URL yang mengandungi huruf/perkataan
Tertentu
Dengan URrobots.txt, kita juga boleh menyekat URL
ada sesetengah perkataan/aksara tidak diindeks di
enjin carian. Sebagai contoh, saya menggunakan watak
tanda soal (?) yang biasanya digunakan dalam url
rentetan pertanyaan atau carian di web tertentu
menyebabkan pendua. ejen pengguna: * tidak membenarkan: / *? * #
untuk menyekat semua URL yang mengandungi "?".
membenarkan: / *? $ #untuk untuk membenarkan akses ke semua URL
yang mempunyai akhiran yang "?"
Blok C. capaian pada khusus format/sambungan fail
Kami juga boleh menguruskan URrobots.txt untuk menyekat
fail dalam laman web anda dengan format tertentu. Sebagai contoh,
Kami akan menyekat fail itu dengan format php (PPR), css
(css) dan javascript (js).
ejen pengguna: *
Tidak membenarkan: