Breadcrumb
یه بخشی از پیاده سازیش تو کده و در اسکیما هم طراحی میشه / یه نصیب بصری هم داره که مخاطب ببینه. پیروزیکرامب به شما و مخاطب مسیر رو نشون میده که الان کجای سایته تا گم نشه و بتونه برگرده به سمت پیشین که ازش اومده / developer می بایست ایفا بده هم کد و هم
سئو در مشهد بصیریش بایستی باشد.
قسمت ۳ گردهمایی ۵
یه چیز دیگه که یاری میکنه به ما به گوگل ساختار تارنما رو بفهمونیم وب سایت مپ ماست. وبسایت
خدمات سئو در مشهد مپ چیه؟ منبع :داکیومنت گوگل
A sitemap is a file where you provide information about the pages , videos , and other files on your site, and the relationships between them. Search engines like Google read this file on your
to crawl your site more efficiently. A sitemap tells Google which pages and files
you think are important in your site , and also provides valuable information about these files. For example, when the
page was last updated and any alternate language versions of the page.
ما یه فایلی داریم که تو این فولدر نشانی صفحاتی که برامون مهمه و می خواهیم ایندکس بشه رو برای گوگل گذاشتیم – کلیپ و … و میتونیم توش بذاریم و ارتباط ها دربین انها رو هم معین می کنیم در سود ساختار وبسایت رو هم از این گوگل متوجه میشه. پیش فرض اینه که هر ورقه ای رو تو تارنما مپ گذاشتیم برای ما شیت مهمیه و میخواهیم که گوگل ایندکس کنه. پس صفحه های غیر اصلی رو ندارید تو وب سایت مپ. یه خصوصی دیتا هم میده از جمله واپسین تایمی که اون کاغذ آپ تو دیت گردیده …. تو وبسایت مپ وجود داره.
محدودیتهای وبسایت مپ
All formats limit a single sitemap to 50 MB (uncompressed) or 50,000 urls. If you have a larger file or more URLs, you must break your sitemap into multiple sitemaps. You can
optionally create a sitemap index file and submit that single index file to Google. You can submit multiple sitemaps and sitemap index file to Google. This may be useful it you want to track the search performance of each individual sitemap in Search Console.
You can submit up to 500 sitemap index Files for each site in your Search Console account.
برای بیش تر از ۵۰ هزار URL به بیش تر از یدونه وبسایت مپ نیاز دارید. برای بیش تر از یک تارنما مپ به وب سایت مپ ایندکس نیاز داری که فهرست و لیست وبسایت مپهاست. به اون فال میگین وب سایت مپ انیدکس حتی میتونید چندتا وبسایت مپ انیدکس داشته باشید تا غایت ۵۰۰ تا احتمالاً بهاین محدودیت نرسید جز ۵۰ هزار url در یک وبسایت مپ به سایر محدودیتها نمیرسید.
نموندی وبسایت مپ
خط نخستین در تمامی وبسایت میش میتونه تکرار بشه و خودتون میتونید بنویسی به حتی یا این که از ابزارهاش استعمال نمائید. از خط سوم قابل فهمیدنه. تگ url و نشانی گذارده. معرفی url های مهمی که تو تارنما قرار داده و واپسین تایم آپ دیت اون شیت رو هم به گوگل میگه. دستی وجود ندارد! خود کار با کد دولوپر یا این که ورد پرس.
< ? xml version = ” 1.0 ” encoding = ” UTF – 8 ” ? > < urlset xmlns = ” ” > < url > < loc > Foo.html < / Loc >
با این ۴ خط یدونه URL رو معرفی کرده و در زمینهی واپسین تایم تغییرش به گوگل اگاهی داده و این میتونه تا ۵۰ تا url ادامه داشته باشد. و برای هر
url تکرار بشه.
مثال وب سایت مپ ایندکس
خویش تارنما مپ رو لیست میکنه
و در موردشون داده ها میده
URL وبسایت مپها
نکاتی در امر وب سایت مپ
If you are using a CMS such as WordPress, Wix, or Blogger, it’s likely that your CMS has already made a sitemap available to search engines and you don’t have to do anything . Google uses the < lastmod> value if it’s consistently and verifiably (for example by comparing to the last modification of the page) accurate.
در وردپرس ریلکسخیس براتون تارنما پیپ میاره اگه نداره با Yoast میتونید این عمل رو بکنید . گوگل از یک تگ < last mod> به کار گیری میکنه به شرطیکه صحیح ازش استعمال نمائید و دورش نزنید. ممکنه شیت رو به روز نکنید و برید این تگ رو آپ تو دیت نمائید گوگل متوجه میشه و دیگه توجهی نمیکنه بهاین تگ اما اگه به ببینه نمیزنید دیگه بهتون متکی بودن میکنه و بر پایه ی همین بهتون امداد میکنه
• Google ignores < priority > and < change freq > values .
گوگل به اینها عنایت نمیده و خودش تحلیل میکنه
اما error هم نمیده.
چه طور تارنما مپ بسازیم؟
For sitemaps with more than a few dozen URLs, you will need to generate the sitemap. There are various tools that can generate a sitemap. However, the best way is to have your website software generate it for you. For example, you can extract your site’s URL
From your website’s dadabove and then export the uths to either the screen or actual file on your web server. Talk to your developers or server manager about this solution If you need inspiration for the code, check at our old, unmaintained collection of third- party site map generators.
در وردپرس خودش میبنا در غیر این شکل با یه محرمانه URL ، tools وب سایت رو میدید خودش کروال میکنه و وب سایت مپ رو میده شما فولدر وب سایت مپ رو بعداز محاسبه کردن در (oxml پسوند تارنما مپ) میدین به developer تا بار گذاری نماید در وب سایت.
شیوه جستن وب سایت مپ تارنما های متفاوت در سرچ گوگل
site : inurl : sitemap.xml
در دیجی فرآورده اون کالایی و برای اینجانب اکران بده که درون URLاشون sitemap داره
میتونیم نشانی یکی وب سایت مپها رو اسکن کنیم و ببینیم به گوگل چی نشون میدند
دیجی مال وب سایت مپ ایندکس آورد
: //
میفهمیم که نشانی یه file میباشد
پوشه وبسایت مپ
Crawl Budget چیه ؟
تایم و منابع تخصیص داده گردیده به وسیله گوگل
The amount of time and resources that Google devotes to crawling a site is commonly called the site’s crawl budget.
بات گوگل میاد ریکوست میده به سرور وب سایت منابع رو میگیرن و دانلود میکنین و render میکن یعنی ارزیابی میکین و میفهمن اولیه برگه چیه. کراوله هم نیاز به یه سروری برای این فعالیت داده و یه خصوصی منابع داره که با استعمال از این سرورهای توانمند میاد به تارنما/ این سرورها محصور میباشند و زیرا اینترنت بزرگه نمیتونه هر روز همگی وبسایت رو ببینه و منابعش روبین وبسایت ها تقسیم میکنه بدین ترتیب ما می بایست این دارایی رو باصرفه مصرف کنیم و تلف نکنیم.
این بیشتر به درد رسایتهای بلندمرتبه میخوره
کراول باجت برای چه وب سایتهایی مهمه ؟
• Large sites ( 1 million + unique pages ) with content that changes moderately often ( once a week )
• Medium or larger sites ( 10,000 + unique pages ) with very rapidly changing content ( daily )
Sites with a large portion of their total URLs classified by Search Console as ” Discovered – currently not indexed “
این منبع این یا این که داکیومنت گوگله و نمیشه توش البته و درصورتیکه آورد.
تارنما های والا : بیشتر از یک میلیون ورقه یونیک دارا هستند و ترازو change و آپ دیت برگه خیلی زیاد وجود ندارد و میانگین است و هفتهای یکبار بوسیله discover و شناسایی می شوند اما هنوز index نشدند یه علتش میتونه بخاطر همین کروال باجت باشه که نرسیده این ورقه رو ایندکس بکنه. در غیر این شکل برای تارنما های خرد و میانگین که دیر به دیر هم تغییر و تحول میکنین به درد نمیخوره ( seo کروال باجت ) باصرفهسازی کروال باجت سبب میشه که گوگل تندتر متوجه تغییرات شیت شما بشه و به صورت بی واسطه سکو شما رو بهبود نمیده – برای وب سایت هایی مثل دیوار
لازمه که گوگل تند تند بفهمه و براش مهمه.
چی روی معیار کرال با جب اثر میذاره ؟
محدودیت گنجایش کروال
Crawl capacity limit
سرور وب سایت شما سریع response بده هرچی سریعتر عالی
Crawl health site responds quickly (no (server no eriors
سرور error ( 500 ) نداشته باشد.
Limit set by site owner in search Console
لیمیتی که شما تو سرچ کنسول در حیث میگیرید پیشنهاد نمیشه. گوگل خودش میدونه تا کجا ادامه بده نقص ساخت نمیشه.
Google’s crawling limits .قصه محدودیت منابع
Crawl demand I site size , update Prequency , page quality , compared to other sites شما چرا به هیچ عنوان نیاز دارید دارید که کراول بشید؟ ۱۰ شیت دارید و تغییر و تحول هم تولید نمیکنه و وبسایت فعال وجود ندارد اینو گوگل میفهمه و ماهی یه توشه میاد برای مثال
URL inventory ( duplicates or unimportant pages wastes crawl budget ) ,
Popularity
داشتن صفحه ها بی چگونگی ، اسکن – نمونه نشست پیشین راجعبه غربال که بها ندارد، noindex فرمایید یا این که از روش robots.txt برید و دسترسی گوگل رو ببندید تا میزان دارایی رو به صفحه های مهمتون تخصیص بده / محبوبیت و معروفیت تارنما اثر داره و میزان دارایی کراول بیشتری میگیره
• Staleness ( update frequency )
مربوط Freshnes و هم تغییرات زیارو آپ دیت های مداوم و سریع
Crawl health و URL inventory : روی این ۲ تا ما میتونیم اثر بگذاریم و سایر دست متخصص seo میباشد.
چجوری کرال باجت رو با صرفه کنیم؟
منبع : داکیومنت گوگل
داپلیکیت کانتنت رو یا این که از میان ببرید یا این که دسترسی گوگل رو ببندین. با noindex یا این که robots.txt ببندید. Consolidate duplicate content.
url های نادر عنایت رو از روش robots.txt ببندید.
Block crawling of urls using robot.txt
Return a 404 or 410 code for permanently removed pages.
برای صفحاتی که میخواهید از حاصل سرح حذف بشوند. غربال صفحاتی که تنها برای استفاده کننده مفیده . انها رو respone یا این که 404 یا این که 410 برگردونید.410 منجر میشه گوگل نیاد کراول کنه و کراول باجت شما Save میشه.
Eliminate soft 404 errors
Keep your sitemaps up to date
صفحه ها مهمتون رو نظارت نمائید که تو وبسایت مپ باشند مخصوصا پس از تولید شیت نو – کاغذ نو به اینترنال لینک و پیوند هم نیاز داره برای جايگاه
• Avoid long redirect chains → پیشگیری از ریدایرکت چینها
make your pages efficient to load
هرچی صفحه های ما سریعتر بار گذاری بشن کراولر باجت با صرفه میشه زیرا در حین کمتر و با ریسورس کمتری گوگل میتونه صفحه های متعددی از وبسایت مارو کروال کنه.
Monitor your site crowling
حواستون به سرور باشه محاسبه نمائید که کروالرها به کدوم صفحه ها شما بیشتر رمز میزنند.
redirect chain
A رو به B و B رو به تو رو به D ریدایرکت کردید. چرخهای از ریدایرکتها که منجر گردیده کراول باجت شما حدر بره. چرا ابدا این شغل رو میکنیم؟ این فعالیت رو عمداً نمیکنم – ناخواست و به وسیله اشخاص و یا این که سئوکاران متعدد که میرن و نفر آینده جاشون میاد ، دورانها بعد از آن ناخواسته تولید میشه یا این که developer و…
این شغل کراول باجت رو هدر میده زیرا کراوله به تمامی این شیتها رفته تا به D رسد. به عنوان مثالً دارایی زیادش در کاغذ اطلاع رسانی هاست و ما اون تبلیغات رو نمیخواهیم بیشتر از ۳۰ روز نگه داریم و تو ۳۰ روز نمیتونین مقام بگیرن و این رخداد نیکی وجود ندارد مکنه تصمیم بگیریم این شیت رو noindex کنیم.
کراول گردیدهها گشوده هم کروال شود و اگه نفر قبل نادرست کرده توالان ببند تا کراول نشه. با بدور ریختین یک چهارم شیتهای وب سایت، آحاد کروال باجتها هم کمتر میشه البته باصرفهخیس مصرف میشه و صفحه ها مانده تندتر کراول میشن.
نصیب ۵ نشست ۵ فولدر Robots.txt چیه ؟
منبع : داکیومنت گوگل
A Robots.txt file tells search engine crawlers which URLs the crawler can access on your site. This is used mainly to avoid overloading your site with requests; it is not a mechanism for keeping a web page out of Google. To keep a web page
out of Google٫block indexing with noindex or password – protect the page.
به کدوم صفحه های اذن دسترسی دارا هستند و خلل کنونیکال
seo کراول باجت با اجتناب از اورلودینگ / از این پوشه برای حذف برخی صفحه های از حاصل پیج به کارگیری نکنید. این کاربرد robots وجود ندارد برای حذف از noindex به کار گیری فرمایید. از status code 410 استعمال فرمائید یا این که پسورد پروتکشن فرمائید. صفحاتی که نیاز به login دارا هستند هیچکدوم تو نتیجه ها سرچ نمیان زیرا که کروال اسکرول نمیکنه – کلیک نمیکنه. یوزر پسورد وارد نمیکنه اینها شغل های کروال وجود ندارد. کروال تنها وارد برگه میشه، لینک و پیوند رو میخونه وارد لینک و پیوند میشه. html و css و جاوا اسکریت را دانلود مینماید.
نکته
If you use a CMS, such as Wix or Blogger, you might not need to edit your robots.txt
File directly. Instead٫ your CMS might expose a search settings
your CMS might expose a search settings page to tell search engines.
whether or not to crawl your page
گوگل میتونه شیت شما رو ایندکس بکنه فارغ از اینکه اون شیت رو ببینه. درصورتی که از صفحه های دیگه به اون ورقه لینکی یا این که یه انکر تکست تو شیت پیوند داده گردیده باشد گوگل میتونه سوای اینکه اون کاغذ رو ببینه جدید ایندکس نماید. پس robot.txt برای حذف نتیجه ها از serp وجود ندارد.
If other pages point to your page with descriptive text, Google could still inder the URL with f i , visiting the page IP want to block your page from search results, use another method such as password protection or noindex .
محدودیت های فولدر Robots.txt
robots.txt rules may not be supported by all search engines.
ممکنه برای همگی سرچ اینجینها اصلی نباشد که روبوتس دارید و توش چی نوشتید.
Different l crawlers interpret syntax differently
کروالرهاب متعدد ممکنه تعریف های مختلفی ازنظر شما در روبوتس داشته باشند کهاین هم برای کروالرهای گوگل وجود ندارد.
A page that’s disallowed in robots.txt can still be indexed if linked to from other sites
برای حذف صفحه ها از نتیجه ها سرچ گوگل از robots.txt به کارگیری نکنید.
Robots.txt مثال معمولی
درصورتی که کروالر گوگل به تارنما اینجانب ریکوئست میزنه این محدودیت داره. این urlهایی که تو تارنما اینجانب می باشد و تو ساب دایرکتورشون nogooglebot میباشد اینها خونده نشدن که کروال بشن.
نشانی وب سایت مپ رو معرفی کرده
User – agent : Google bot
راجعبه user agent سخن کرده. اذن داره چی فعالیت کنه چی شغل نکنه.
Disallow : / nogoglebot/
جاش میشه هر چیزی گذاشت.
user- agent
درخصوص یه خصوصی user – agent دیگه ضابطه گذارده
Allow:
Sitemap :
نشانی تارنما مپ رو معرفی کرده
نشانی وبسایت مپ و میتونیم توی پوشه robots.bat بذاریم که گوگل شل پیداش کنه و بتونه URL داخلش رو که کرول کنه .
مضمون request : user agent
respons و ریکوئستی که در بین مرورگر و سرور ررو بدل میشه هر دو هدر داراهستند ( در کدی که ارسال میشه) یوزر ایجنت انگار خودش معرفی میکند پاسخ سرور هم به یوزر ایجنت میباشد و ممکنه چوب سرور به کروالر گوناگونخیس از جوابش به کروم باشد / یوزر ایجنت معلوم میکنه کی درخواست داده. در اینجا یوزر ایجنت گوشی میباشد/ ممکنه image باشه. مخصوصا smartphone و…
ترجمه ی پوشه اسلاید گذشته
Here’s what that robots.txt Pile means :
1. The user agent named Googlebot is not allowed to crawl any URL that starts with .
2. All other user agents are allowed to crawl the entire site . This could have been omitted and the result would be the same ; the default behavior is that user agents are allowed to crawl the entire site.
3. The site’s sitemap file is located at
Disallow crawling of the entire website
در حالتی که نمیخواهید کروالرها وبسایتتون رو کروال نمایند.
دستورهای موثر در پوشههای Robots.txt
Keep in mind that in some situations URLs from the website may still be indexed , even if they haven’t been crawled
Append a forward slash to the directory name to disallow
Crowling of a whole directory.