{"id":1136,"date":"2016-05-31T21:01:48","date_gmt":"2016-06-01T01:01:48","guid":{"rendered":"http:\/\/www.hoplawego.com\/blog\/?p=1136"},"modified":"2016-05-31T22:15:42","modified_gmt":"2016-06-01T02:15:42","slug":"vmware-health-check-a-tue-reseau","status":"publish","type":"post","link":"https:\/\/www.hoplawego.com\/blog\/vmware-health-check-a-tue-reseau\/","title":{"rendered":"VMWare Health Check a tu\u00e9 mon r\u00e9seau"},"content":{"rendered":"<p>Il y&rsquo;a de ces moments o\u00f9 m\u00eame les choses les plus simples deviennent des montagnes.\u00a0<!--more-->Que \u00e7a soit les vmotions qui entra\u00eenent une foule d\u2019arr\u00eat sur plusieurs VM, une lenteur g\u00e9n\u00e9ralis\u00e9e et surtout une quantit\u00e9 anormale de bande passante moyenne dans tout un\u00a0DC, m\u00eame un simple vmotion d&rsquo;une machine de 8go de ram, provoque des centaines de gigs de trafic sur toutes les zones du r\u00e9seau.<\/p>\n<p>On voit ici la m\u00eame VM utilis\u00e9 dans plusieurs vmotion les uns \u00e0 la suite des autres. Je rappelle, la VM est configur\u00e9e avec 8Go de ram.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-1149 size-full\" src=\"http:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-21_14_08-^E8B485FF8A84E4C0C43882768CFC40D1D1592EB79B393AAF5D^pimgpsh_fullsize_distr.png-.jpg\" alt=\"2016-05-31 21_14_08-^E8B485FF8A84E4C0C43882768CFC40D1D1592EB79B393AAF5D^pimgpsh_fullsize_distr.png -\" width=\"575\" height=\"619\" srcset=\"https:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-21_14_08-^E8B485FF8A84E4C0C43882768CFC40D1D1592EB79B393AAF5D^pimgpsh_fullsize_distr.png-.jpg 575w, https:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-21_14_08-^E8B485FF8A84E4C0C43882768CFC40D1D1592EB79B393AAF5D^pimgpsh_fullsize_distr.png--279x300.jpg 279w\" sizes=\"auto, (max-width: 575px) 100vw, 575px\" \/><\/p>\n<p>&nbsp;<\/p>\n<p>Comme racont\u00e9 dans un billet pr\u00e9c\u00e9dent, nous avons, dans ce DC, plusieurs milliers de serveurs Vmware ESXi 5.5 et 6.<br \/>\nNous avons sniff\u00e9 tous les vlan. Pas tant de broadcast que \u00e7a, simplement beaucoup de traffic. J\u2019ai install\u00e9 Sexigraf pour monitorer nos serveurs vSAN mais cet outil offre aussi une belle fen\u00eatre sur toutes les facettes de notre environnement. Gr\u00e2ce \u00e0 lui, on est en mesure de voir qu\u2019avant la semaine derniere nous avions une bande passante moyenne de 1.8GB\/s sur tout notre r\u00e9seau et qu\u2019ensuite, la moyenne monte \u00e0 plus de 5GB\/s\u2026<\/p>\n<p>Avant:<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-thumbnail wp-image-1141\" src=\"http:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-20_26_37-10.16.2.50-Remote-Desktop-Connection-150x150.jpg\" alt=\"2016-05-31 20_26_37-10.16.2.50 - Remote Desktop Connection\" width=\"150\" height=\"150\" \/><\/p>\n<p>Apr\u00e8s:<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-thumbnail wp-image-1142\" src=\"http:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-20_29_43-10.16.2.50-Remote-Desktop-Connection-150x150.jpg\" alt=\"2016-05-31 20_29_43-10.16.2.50 - Remote Desktop Connection\" width=\"150\" height=\"150\" \/><\/p>\n<p>De plus, sur tous les hosts, on voit la quantit\u00e9 de \u00ab paquet receive error \u00bb monter en fl\u00e8che et ne jamais redescendre. Sauf sur certaines machines, qui, elles, sont derri\u00e8re des VDS configur\u00e9es pour les Jumbo Frames (MTU9000).<\/p>\n<p>Voyez les graphiques suivants.<\/p>\n<p><strong>MTU 1500: <\/strong><em>Le trafic et les erreurs montent en fl\u00e8che.<\/em><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-1139 size-large\" src=\"http:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-20_22_36-Billet-health-check-OneNote-1024x589.jpg\" alt=\"2016-05-31 20_22_36-Billet health check - OneNote\" width=\"940\" height=\"541\" srcset=\"https:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-20_22_36-Billet-health-check-OneNote-1024x589.jpg 1024w, https:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-20_22_36-Billet-health-check-OneNote-300x173.jpg 300w, https:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-20_22_36-Billet-health-check-OneNote-768x442.jpg 768w, https:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-20_22_36-Billet-health-check-OneNote-940x541.jpg 940w, https:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-20_22_36-Billet-health-check-OneNote.jpg 1485w\" sizes=\"auto, (max-width: 940px) 100vw, 940px\" \/><\/p>\n<p>&nbsp;<\/p>\n<p><strong>MTU 9000: <\/strong><em>On voit le traffic augmenter, mais les erreurs toujours \u00e0 0.<\/em><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-1140 size-large\" src=\"http:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-20_24_26-10.16.2.50-Remote-Desktop-Connection-1024x584.jpg\" alt=\"2016-05-31 20_24_26-10.16.2.50 - Remote Desktop Connection\" width=\"940\" height=\"536\" srcset=\"https:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-20_24_26-10.16.2.50-Remote-Desktop-Connection-1024x584.jpg 1024w, https:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-20_24_26-10.16.2.50-Remote-Desktop-Connection-300x171.jpg 300w, https:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-20_24_26-10.16.2.50-Remote-Desktop-Connection-768x438.jpg 768w, https:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-20_24_26-10.16.2.50-Remote-Desktop-Connection-940x536.jpg 940w, https:\/\/www.hoplawego.com\/blog\/wp-content\/uploads\/2016\/05\/2016-05-31-20_24_26-10.16.2.50-Remote-Desktop-Connection.jpg 1578w\" sizes=\"auto, (max-width: 940px) 100vw, 940px\" \/><\/p>\n<p>&nbsp;<\/p>\n<p>Il est int\u00e9ressant de remarquer que m\u00eame sur le serveur avec le MTU de 9000, le traffic a augment\u00e9 de beaucoup. Il n\u2019y a aucune erreur, mais on voit la bande passante en forte hausse.\u00a0Nous nous attardons donc \u00e0 essayer de comprendre qu\u2019est-ce qui consomme autant de ressources sur notre r\u00e9seau. On commence \u00e0 sniffer avec tcpdump directement sur les ESX. Vmk0, vmk1. On cherche les erreurs sur les vmnic0 et vmnic1. On utilise wireshark sur un portgroup constitu\u00e9 d\u2019un trunk de tous les VLANs. Rien de bien valable.<\/p>\n<p>&nbsp;<\/p>\n<p>On prend ensuite un ch\u00e2ssis de blade compl\u00e8tement vide de VM et on lance un graphique de performance en temps r\u00e9el. Un \u00e0 un, on supprime les VLAN des switches force10. On voit ainsi les erreurs et le trafic diminuer. On se rend bien compte que ce n\u2019est pas sur un seul VLAN mais bien sur tous les r\u00e9seaux que le trafic est pr\u00e9sent.\u00a0On d\u00e9cide alors d\u2019utiliser un serveur ESX derri\u00e8re une Vds en jumbo frames. Cette id\u00e9e nous sauvera. A force de chercher, on remarque \u00e9norm\u00e9ment de broadcast de taille de 9000 qui viennent de MAC adresse dont on ne trouve pas la provenance. On a beau chercher dans tous nos vCenters, on ne les trouve pas. Par contre, on se rend compte que les MAC commencent toutes par \u201c00:50:56\u2033 (mac de vmware) et les 3 derni\u00e8res paires de caract\u00e8res sont les m\u00eames que les vmk des serveurs physiques. On d\u00e9tient alors une piste. En faisant une petite recherche sur le web avec ces nouvelles infos, on arrive sur cette entr\u00e9e de blog qui nous donne la cl\u00e9 pour nous sortir de notre malheur : (<a href=\"http:\/\/blog.chrischua.net\/2015\/05\/22\/receive-packet-errors-with-vds-health-check-and-jumbo-frames\/\">http:\/\/blog.chrischua.net\/2015\/05\/22\/receive-packet-errors-with-vds-health-check-and-jumbo-frames\/<\/a>)<\/p>\n<p>Bref, on se rend compte qu\u2019\u00e0 la date ou les probl\u00e8mes ont commenc\u00e9s nous avions activ\u00e9 le Health Check sur les Vds pour valider les configurations r\u00e9seaux de nouveaux ch\u00e2ssis. Et sur nos multiples VDS, le service \u00e9tait encore activ\u00e9 sur deux d\u2019entre-elles\u2026 Aussit\u00f4t d\u00e9sactiv\u00e9, aussit\u00f4t les probl\u00e8mes r\u00e9gl\u00e9s.\u00a0On fait quelques tests de vmotions et comme \u00e0 l\u2019habitude, aucun impact ne se fait sentir.<\/p>\n<p>Je ne crois pas qu\u2019on r\u00e9activera le health check de sit\u00f4t, m\u00eame en suivant les points de l&rsquo;article de Chris Chua. Chat \u00e9chaud\u00e9 craint l&rsquo;eau\u00a0froide&#8230; et chaude.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Il y&rsquo;a de ces moments o\u00f9 m\u00eame les choses les plus simples deviennent des montagnes.\u00a0<\/p>\n","protected":false},"author":1,"featured_media":1145,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2,3,5,4,8],"tags":[45,48,46,42,47],"class_list":["post-1136","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-t-i","category-vcap","category-vcdx","category-vcp","category-vmware","tag-healthcheck","tag-sniffing","tag-vds","tag-vmware","tag-wireshark","grid-sizer"],"_links":{"self":[{"href":"https:\/\/www.hoplawego.com\/blog\/wp-json\/wp\/v2\/posts\/1136","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.hoplawego.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.hoplawego.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.hoplawego.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.hoplawego.com\/blog\/wp-json\/wp\/v2\/comments?post=1136"}],"version-history":[{"count":11,"href":"https:\/\/www.hoplawego.com\/blog\/wp-json\/wp\/v2\/posts\/1136\/revisions"}],"predecessor-version":[{"id":1160,"href":"https:\/\/www.hoplawego.com\/blog\/wp-json\/wp\/v2\/posts\/1136\/revisions\/1160"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.hoplawego.com\/blog\/wp-json\/wp\/v2\/media\/1145"}],"wp:attachment":[{"href":"https:\/\/www.hoplawego.com\/blog\/wp-json\/wp\/v2\/media?parent=1136"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.hoplawego.com\/blog\/wp-json\/wp\/v2\/categories?post=1136"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.hoplawego.com\/blog\/wp-json\/wp\/v2\/tags?post=1136"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}