Breadcrumb
یه بخشی از پیاده سازیش تو کده و در اسکیما هم طراحی میشه / یه نصیب بصری هم داره که مخاطب ببینه. پیروزی‌کرامب به شما و مخاطب مسیر رو نشون میده که الان کجای سایته تا گم نشه و بتونه برگرده به سمت پیشین که ازش اومده / developer می بایست ایفا بده هم کد و هم سئو در مشهد  بصیریش بایستی باشد.
 
قسمت ۳ گردهمایی ۵
 
یه چیز دیگه که یاری میکنه به ما به گوگل ساختار تارنما رو بفهمونیم وب سایت مپ ماست. وبسایت خدمات سئو در مشهد  مپ چیه؟ منبع :داکیومنت گوگل
 
A sitemap is a file where you provide information about the pages , videos , and other files on your site, and the relationships between them. Search engines like Google read this file on your
 
to crawl your site more efficiently. A sitemap tells Google which pages and files
 
you think are important in your site , and also provides valuable information about these files. For example, when the
 
page was last updated and any alternate language versions of the page.
 
ما یه فایلی داریم که تو این فولدر نشانی صفحاتی که برامون مهمه و می خواهیم ایندکس بشه رو برای گوگل گذاشتیم – کلیپ و … و میتونیم توش بذاریم و ارتباط ها دربین انها رو هم معین می کنیم در سود ساختار وبسایت رو هم از این گوگل متوجه میشه. پیش فرض اینه که هر ورقه ای رو تو تارنما مپ گذاشتیم برای ما شیت مهمیه و میخواهیم که گوگل ایندکس کنه. پس صفحه های غیر اصلی رو ندارید تو وب سایت مپ. یه خصوصی دیتا هم میده از جمله واپسین تایمی که اون کاغذ آپ تو دیت گردیده …. تو وبسایت مپ وجود داره.
 
محدودیت‌های وبسایت مپ
All formats limit a single sitemap to 50 MB (uncompressed) or 50,000 urls. If you have a larger file or more URLs, you must break your sitemap into multiple sitemaps. You can
 
optionally create a sitemap index file and submit that single index file to Google. You can submit multiple sitemaps and sitemap index file to Google. This may be useful it you want to track the search performance of each individual sitemap in Search Console.
 
You can submit up to 500 sitemap index Files for each site in your Search Console account.
 
برای بیش تر از ۵۰ هزار URL به بیش تر از یدونه وبسایت مپ نیاز دارید. برای بیش تر از یک تارنما مپ به وب سایت مپ ایندکس نیاز داری که فهرست و لیست وبسایت مپ‌هاست. به اون فال میگین وب سایت مپ انیدکس حتی میتونید چندتا وبسایت مپ انیدکس داشته باشید تا غایت ۵۰۰ تا احتمالاً به‌این محدودیت نرسید جز ۵۰ هزار url در یک وبسایت مپ به سایر محدودیت‌ها نمیرسید.
 
نموندی وبسایت مپ 
 
خط نخستین در تمامی وبسایت میش میتونه تکرار بشه و خودتون میتونید بنویسی به حتی یا این که از ابزار‌هاش استعمال نمائید. از خط سوم قابل فهمیدنه. تگ url و نشانی گذارده. معرفی url های مهمی که تو تارنما قرار داده و واپسین تایم آپ دیت اون شیت رو هم به گوگل میگه. دستی وجود ندارد! خود کار با کد دولوپر یا این که ورد پرس.
 
< ? xml version = ” 1.0 ” encoding = ” UTF – 8 ” ? > < urlset xmlns = ”  ” > < url > < loc >  Foo.html < / Loc >
 
با این ۴ خط یدونه URL رو معرفی کرده و در زمینه‌ی واپسین تایم تغییرش به گوگل اگاهی داده و این میتونه تا ۵۰ تا url ادامه داشته باشد. و برای هر
 
url تکرار بشه.
 
مثال وب سایت مپ ایندکس
 
 
 
 
خویش تارنما مپ رو لیست می‌کنه
 
و‌ در موردشون داده ها میده
 
URL وبسایت مپ‌ها
 
نکاتی در امر وب سایت مپ
 
If you are using a CMS such as WordPress, Wix, or Blogger, it’s likely that your CMS has already made a sitemap available to search engines and you don’t have to do anything . Google uses the < lastmod> value if it’s consistently and verifiably (for example by comparing to the last modification of the page) accurate.
 
در وردپرس ریلکس‌خیس براتون تارنما پیپ میاره اگه نداره با Yoast می‌تونید این عمل رو بکنید . گوگل از یک تگ < last mod> به کار گیری میکنه به شرطیکه صحیح ازش استعمال نمائید و دورش نزنید. ممکنه شیت رو به روز نکنید و برید این تگ رو آپ تو دیت نمائید گوگل متوجه میشه و دیگه توجهی نمیکنه به‌این تگ اما اگه به ببینه نمیزنید دیگه بهتون متکی بودن میکنه و بر پایه ی همین بهتون امداد میکنه
 
• Google ignores < priority > and < change freq > values .
 
گوگل به اینها عنایت نمیده و خودش تحلیل میکنه
 
اما error هم نمیده. 
 
چه طور تارنما مپ بسازیم؟
 
For sitemaps with more than a few dozen URLs, you will need to generate the sitemap. There are various tools that can generate a sitemap. However, the best way is to have your website software generate it for you. For example, you can extract your site’s URL
 
From your website’s dadabove and then export the uths to either the screen or actual file on your web server. Talk to your developers or server manager about this solution If you need inspiration for the code, check at our old, unmaintained collection of third- party site map generators. 
 
در وردپرس خودش می‌بنا در غیر این شکل با یه محرمانه URL ، tools وب سایت رو میدید خودش کروال میکنه و وب سایت مپ رو میده شما فولدر وب سایت مپ رو بعداز محاسبه کردن در (oxml پسوند تارنما مپ) میدین به developer تا بار گذاری نماید در وب سایت.
 
شیوه جستن وب سایت مپ تارنما های متفاوت در سرچ گوگل
 
site :  inurl : sitemap.xml
 
در دیجی فرآورده اون کالایی و برای اینجانب اکران بده که درون  URLاشون sitemap  داره
 
میتونیم نشانی یکی وب سایت مپ‌ها رو اسکن کنیم و ببینیم به گوگل چی نشون میدند
 
دیجی مال وب سایت مپ ایندکس آورد
 
: //
 
میفهمیم که نشانی یه file میباشد
 
پوشه وبسایت مپ
 
Crawl Budget چیه ؟
 
تایم و منابع تخصیص داده گردیده به وسیله گوگل
 
The amount of time and resources that Google devotes to crawling a site is commonly called the site’s crawl budget.
 
بات گوگل میاد ریکوست میده به سرور وب سایت منابع رو میگیرن  و دانلود میکنین و render میکن یعنی ارزیابی میکین و میفهمن اولیه برگه چیه. کراوله هم نیاز به یه سروری برای این فعالیت داده و یه خصوصی منابع داره که با استعمال از این سرورهای توانمند میاد به تارنما/ این سرور‌ها محصور میباشند و زیرا اینترنت بزرگه نمیتونه هر روز همگی وبسایت رو ببینه و منابعش روبین وبسایت ها تقسیم میکنه بدین ترتیب ما می بایست این دارایی رو باصرفه مصرف کنیم و تلف نکنیم.
 
این بیشتر به درد رسایت‌های بلندمرتبه میخوره
 
کراول باجت برای چه وب سایت‌هایی مهمه ؟
 
• Large sites ( 1 million + unique pages ) with content that changes moderately often ( once a week )
 
• Medium or larger sites ( 10,000 + unique pages ) with very rapidly changing content ( daily )
 
Sites with a large portion of their total URLs classified by Search Console as ” Discovered – currently not indexed “
 
این منبع این یا این که داکیومنت گوگله و نمیشه توش البته و در‌صورتی‌که آورد. 
 
تارنما های والا : بیشتر از یک میلیون ورقه یونیک دارا هستند و ترازو change و آپ دیت برگه خیلی زیاد وجود ندارد و میانگین است و هفته‌ای یکبار  بوسیله discover و شناسایی می شوند اما هنوز index نشدند یه علتش می‌تونه بخاطر همین کروال باجت باشه که نرسیده این ورقه رو ایندکس بکنه. در غیر این شکل برای تارنما‌ های خرد و میانگین که دیر به دیر هم تغییر و تحول میکنین به درد نمیخوره ( seo کروال باجت ) باصرفه‌سازی کروال باجت سبب میشه که گوگل تندتر متوجه تغییرات شیت شما بشه و به صورت بی واسطه سکو شما رو بهبود نمیده – برای وب سایت هایی مثل دیوار
 
لازمه که گوگل تند تند بفهمه و براش مهمه.
 
 چی روی معیار کرال با جب اثر میذاره ؟
 
محدودیت گنجایش کروال
 
Crawl capacity limit
 
سرور وب سایت شما سریع response بده هرچی سریعتر عالی 
 
Crawl health site responds quickly (no (server no eriors 
 
 سرور error ( 500 ) نداشته باشد.
 
Limit set by site owner in search Console
 
لیمیتی که شما تو سرچ کنسول در حیث میگیرید پیشنهاد نمیشه. گوگل خودش می‌دونه تا کجا ادامه بده نقص‌ ساخت نمیشه.
 
Google’s crawling limits .قصه محدودیت منابع 
 
Crawl demand I site size , update Prequency , page quality , compared to other sites شما چرا به هیچ عنوان نیاز دارید دارید که کراول بشید؟ ۱۰ شیت دارید و تغییر و تحول هم تولید نمیکنه و وبسایت فعال وجود ندارد اینو گوگل میفهمه و ماهی یه توشه میاد برای مثال
 
URL inventory ( duplicates or unimportant pages wastes crawl budget ) ,
 
Popularity
 
داشتن صفحه ها بی چگونگی ، اسکن – نمونه  نشست پیشین راجع‌به غربال که  بها ندارد،  noindex  فرمایید یا این که از روش robots.txt برید و دسترسی گوگل رو ببندید تا میزان دارایی رو به صفحه های مهمتون تخصیص بده / محبوبیت و معروفیت تارنما اثر داره و میزان دارایی کراول بیشتری میگیره
 
• Staleness ( update frequency )
 
مربوط Freshnes و هم تغییرات زیارو آپ دیت های مداوم و سریع
 
Crawl health و URL inventory : روی این ۲ تا ما میتونیم اثر بگذاریم و سایر  دست  متخصص seo میباشد.
 
چجوری کرال باجت رو با صرفه کنیم؟ 
 
منبع : داکیومنت گوگل
 
داپلیکیت کانتنت رو یا این که از میان ببرید یا این که دسترسی گوگل رو  ببندین. با noindex یا این که robots.txt ببندید. Consolidate duplicate content.
 
url های نادر عنایت رو از روش robots.txt ببندید. 
 
Block crawling of urls using robot.txt
 
Return a 404 or 410 code for permanently removed pages.
 
برای صفحاتی که میخواهید از حاصل سرح حذف بشوند. غربال صفحاتی که تنها برای استفاده کننده مفیده . انها رو respone یا این که 404 یا این که 410 برگردونید.410 منجر میشه گوگل نیاد کراول کنه و کراول باجت شما Save میشه.
 
Eliminate soft 404 errors 
 
Keep your sitemaps up to date 
 
صفحه ها مهمتون رو نظارت نمائید که تو وبسایت مپ باشند مخصوصا پس از تولید شیت نو – کاغذ نو به اینترنال لینک و پیوند هم نیاز داره برای جايگاه
 
• Avoid long redirect chains → پیشگیری از ریدایرکت چین‌ها
 
make your pages efficient to load
 
هرچی صفحه های ما سریعتر بار گذاری بشن کراولر باجت با صرفه میشه زیرا در حین کمتر و با ریسورس کمتری گوگل می‌تونه صفحه های متعددی از وبسایت مارو کروال کنه. 
 
Monitor your site crowling
 
حواستون به سرور باشه محاسبه نمائید که کروالرها به کدوم صفحه ها شما بیشتر رمز می‌زنند.
 
redirect chain
 
A رو به B و B رو به تو رو به D ریدایرکت کردید. چرخه‌ای از ریدایرکت‌ها که منجر  گردیده کراول باجت شما حدر بره. چرا ابدا این شغل رو میکنیم؟ این فعالیت رو عمداً نمی‌کنم – ناخواست و به وسیله اشخاص و یا این که سئوکاران متعدد که میرن و نفر آینده جاشون میاد ، دوران‌ها بعد از آن ناخواسته تولید میشه یا این که developer و…
 
این شغل کراول باجت رو هدر میده زیرا کراوله به تمامی این شیت‌ها رفته تا به D رسد. به عنوان مثالً دارایی زیادش در کاغذ اطلاع رسانی هاست و ما اون تبلیغات رو نمیخواهیم بیشتر از  ۳۰ روز نگه داریم و تو ۳۰ روز نمیتونین مقام بگیرن و این رخداد نیکی وجود ندارد مکنه تصمیم بگیریم این شیت رو noindex کنیم. 
 
 کراول گردیده‌ها گشوده هم کروال شود و اگه نفر قبل نادرست کرده توالان ببند تا کراول نشه. با بدور ریختین یک چهارم شیت‌های وب سایت، آحاد کروال باجت‌ها هم کمتر میشه البته باصرفه‌خیس مصرف میشه و صفحه ها ما‌نده تندتر کراول میشن.
 
نصیب ۵ نشست ۵ فولدر Robots.txt چیه ؟
 
منبع : داکیومنت گوگل
 
A Robots.txt file tells search engine crawlers which URLs the crawler can access on your site. This is used mainly to avoid overloading your site with requests; it is not a mechanism for keeping a web page out of Google. To keep a web page
 
out of Google٫block indexing with noindex or password – protect the page.
 
به کدوم صفحه های اذن دسترسی دارا هستند و خلل کنونیکال
 
 seo کراول باجت با اجتناب از اورلودینگ / از این پوشه برای حذف برخی صفحه های از حاصل پیج به کارگیری نکنید. این کاربرد robots وجود ندارد برای حذف از noindex به کار گیری فرمایید. از status code 410 استعمال فرمائید یا این که پسورد پروتکشن فرمائید. صفحاتی که نیاز به login دارا هستند هیچکدوم تو نتیجه ها سرچ نمیان زیرا که کروال اسکرول نمی‌کنه – کلیک نمی‌کنه. یوزر پسورد وارد نمیکنه اینها شغل های کروال وجود ندارد. کروال تنها وارد برگه میشه، لینک و پیوند رو میخونه وارد لینک و پیوند میشه. html و css و جاوا اسکریت را دانلود می‌نماید.
 
نکته
 
If you use a CMS, such as Wix or Blogger, you might not need to edit your robots.txt 
 
File directly. Instead٫ your CMS might expose a search settings
 
your CMS might expose a search settings page to tell search engines.
 
whether or not to crawl your page
 
گوگل میتونه شیت شما رو ایندکس بکنه فارغ از اینکه اون شیت رو ببینه. درصورتی که از صفحه های دیگه به اون ورقه لینکی یا این که یه انکر تکست تو شیت پیوند داده گردیده باشد گوگل میتونه سوای اینکه اون کاغذ رو ببینه جدید ایندکس نماید. پس robot.txt برای حذف نتیجه ها از serp وجود ندارد. 
 
If other pages point to your page with descriptive text, Google could still inder the URL with f i , visiting the page IP want to block your page from search results, use another method such as password protection or noindex .
 
محدودیت های فولدر Robots.txt
 
robots.txt rules may not be supported by all search engines. 
 
ممکنه برای همگی سرچ اینجین‌ها اصلی نباشد که روبوتس دارید و توش چی نوشتید.
 
Different l crawlers interpret syntax differently
 
کروالرهاب متعدد ممکنه تعریف های مختلفی ازنظر شما در روبوتس داشته باشند که‌این هم برای کروالر‌های گوگل وجود ندارد.
 
A page that’s disallowed in robots.txt can still be indexed if linked to from other sites
 
برای حذف صفحه ها از نتیجه ها سرچ گوگل از robots.txt به کارگیری نکنید.
 
Robots.txt مثال معمولی 
 
درصورتی که کروالر گوگل به تارنما اینجانب ریکوئست میزنه این محدودیت داره. این urlهایی که تو تارنما اینجانب می باشد و تو ساب دایرکتورشون nogooglebot میباشد این‌ها خونده نشدن که کروال  بشن. 
 
نشانی وب سایت مپ رو معرفی کرده
 
User – agent : Google bot
 
راجع‌به user agent سخن کرده. اذن داره چی فعالیت کنه چی شغل نکنه.  
 
Disallow : / nogoglebot/
 
جاش میشه هر چیزی گذاشت.
 
    user- agent
 
درخصوص یه خصوصی user – agent دیگه ضابطه گذارده
 
Allow: 
 
Sitemap : 
 
نشانی تارنما مپ رو معرفی کرده
 
نشانی وبسایت مپ و میتونیم توی پوشه robots.bat بذاریم که گوگل شل پیداش کنه و بتونه URL داخلش رو که کرول کنه . 
 
مضمون‌ request : user agent 
 
respons و ریکوئستی که در بین مرورگر و سرور ررو بدل میشه هر دو هدر دارا‌هستند ( در کدی که ارسال میشه) یوزر ایجنت انگار  خودش معرفی میکند پاسخ سرور هم به یوزر ایجنت میباشد و ممکنه چوب سرور به کروالر گوناگون‌خیس از جوابش به کروم باشد / یوزر ایجنت معلوم می‌کنه کی درخواست داده. در اینجا یوزر ایجنت گوشی می‌باشد/ ممکنه image باشه. مخصوصا smartphone و…
 
ترجمه ی پوشه اسلاید گذشته
 
Here’s what that robots.txt Pile means :
 
1. The user agent named Googlebot is not allowed to crawl any URL that starts with  . 
 
2. All other user agents are allowed to crawl the entire site . This could have been omitted and the result would be the same ; the default behavior is that user agents are allowed to crawl the entire site.
 
3. The site’s sitemap file is located at 
 
Disallow crawling of the entire website
 
در حالتی که نمیخواهید‌ کروالر‌ها وبسایت‌تون رو کروال نمایند.
 
 دستورهای موثر در پوشه‌های Robots.txt
 
Keep in mind that in some situations URLs from the website may still be indexed , even if they haven’t been crawled
 
 
 
 
Append a forward slash to the directory name to disallow
 
Crowling of a whole directory.