راهنمای جامع تشخیص و رفع خطای سرور HP

سرورهای HP از دستگاه‌های سروری پرکاربرد و معتبر هستند که نقش مهمی در پایداری و عملکرد سیستم‌های فناوری اطلاعات در سازمان‌ها و مراکز داده برای ذخیره‌سازی و پردازش داده‌ها ایفا می‌کنند. با این حال، مانند هر سیستم پیچیده‌ای، سرورهای HP نیز ممکن است با خطاها و مشکلاتی مواجه شوند که می‌تواند تأثیرات منفی بر عملکرد و امنیت سیستم‌ها بگذارد. بررسی و شناسایی سریع و دقیق این خطاها از اهمیت ویژه‌ای برخوردار است، چرا که می‌تواند از بروز خرابی‌های جدی‌تر جلوگیری کرده و زمان و هزینه‌های ناشی از تعمیرات را کاهش دهد.

این مقاله به منظور بررسی خطای سرور HP، تحلیل دلایل بروز خطاها، روش‌های شناسایی آن‌ها و راهکارهای پیشگیری و رفع این مشکلات، و همچنین اشاره به برخی از ابزارهای نرم‌افزاری و سخت‌افزاری موجود برای مدیریت و بهبود عملکرد سرورهای HP ارائه شده است. این اطلاعات می‌تواند برای مدیران سیستم‌ها، متخصصان فناوری اطلاعات و افرادی که با نگهداری و تعمیر سرورهای HP سروکار دارند، مفید باشد. تمرکز اصلی این مقاله بر خطاهایی است که هنگام بوت شدن سرور و در تست اولیه (Power On Self Test) یا به اختصار POST رخ می‌دهند. لازم به ذکر است که برخی از این پیام‌ها صرفاً جهت اطلاع‌رسانی در مورد شرایط کلی سرور هستند و خطا محسوب نمی‌شوند. تمامی خطاهای سرور HP که در هنگام POST اتفاق می‌افتند، یا بوق‌هایی که سرور می‌زند، قبل از لود شدن هرگونه سیستم عاملی است؛ به همین دلیل، کدهایی که سرور تولید می‌کند برای تنظیمات BIOS و قطعات سخت‌افزاری نصب شده قابل استفاده هستند.

نحوه تشخیص خطای سرور HP

برای خواندن پیام خطای ارسال شده روی صفحه نمایشگر، سیستم ویدیویی و انتقال تصویر زیرمجموعه سرور باید کار کند. در شرایطی که سیستم شما تصویر نمی‌دهد، باید از صداهای بوق یا اصطلاحاً (beep codes) برای تشخیص مشکل استفاده کنید و بدین ترتیب مشکل تصویر ندادن را برطرف کنید. خرابی در بخش‌های سی‌پی‌یو سرور (CPU)، رم سرور (RAM)، کارت گرافیک و یا مادربرد سرور می‌توانند باعث ایجاد مشکلاتی در تصویر گرفتن از سرور شوند.

نحوه تشخیص خطای سرور HP

نکات مهم عمومی در بررسی خطای سرور HP:

مشاوره متخصص: اگر راه‌حل‌ها مبهم یا پیچیده بودند، از یک متخصص کمک بگیرید. در مواردی که خطا ناشی از خرابی یکی از قطعات سرور است، برای تعمیر یا تعویض قطعه از یک متخصص مشاوره و کمک بگیرید.

مستندات رسمی: قبل از اعمال تغییرات در تنظیمات سرور خود، مستندات رسمی آن را به دقت مطالعه نمایید تا از ایجاد مشکلات سخت‌افزاری و نرم‌افزاری جلوگیری کنید.

بررسی لاگ‌ها: بررسی لاگ‌های سیستم و لاگ‌های سرور برای شناسایی هرگونه پیام یا اطلاعات خطا ضروری است. ابزارهای مدیریت لاگ و مانیتورینگ می‌توانند به شما کمک کنند تا به سرعت به مشکلات پی ببرید.

انواع خطای سرور HP و راه حل‌های آن‌ها

در ادامه به رایج‌ترین خطای سرور HP همراه با علت و راه‌حل آن‌ها اشاره می‌کنیم:

پیام خطای Advanced Memory

پیام قابل مشاهده: “Advanced ECC”, “with hot-add support Advanced ECC”, “Online spare with advanced ECC”, “board mirrored memory with advanced ECC”, “RAID memory with advanced ECC”.

تعداد بوق: هیچ.

علت: فعال بودن قابلیت‌های مربوط به حافظه پیشرفته مانند Advanced ECC، Hot-add، Online spare memory، Mirrored memory، یا RAID memory.

روش رفع خطا: هیچ اقدامی لازم نیست، این‌ها پیام‌های اطلاع‌رسانی هستند.

 

پیام خطای Unexpected Shutdown (خاموش شدن غیرمنتظره)

پیام قابل مشاهده:”Unexpected shutdown occurred prior to this power-up”.

تعداد بوق: هیچ.

علت: مشکلات جزئی سرور، مشکل در لاگین سیستم یا لاگین سیستم عامل، یا خاموش شدن سرور به دلیل یک رویداد غیرمنتظره در بوت قبلی.

روش رفع خطا: بررسی لاگ سیستم یا لاگ سیستم‌عامل برای جزئیات بیشتر.

 

چگونه خطای سرور HP رو تشخیص بدیم

خطای مهم سیستم (Critical System Error)

پیام قابل مشاهده: “critical error occurred prior to this power-up”.

تعداد بوق: هیچ.

علت: یک خطای مهم که سبب خراب شدن سرور شده است.

روش رفع خطا: اجرای Insight Diagnostics و جایگزینی خطاهایی که نمایش داده می‌شود.

 

پیام خطای Fan Solution

Fan Solution not fully redundant: (تعداد فن‌های مورد نیاز نصب شده اما فن‌های اضافی نصب نشده یا از کار افتاده‌اند).

Fan Solution not Sufficient: (حداقل تعداد فن‌های خنک‌کننده مورد نیاز نصب نشده‌اند یا خراب شده‌اند).

تعداد بوق: هیچ.

روش رفع خطا: اجرای Insight Diagnostics و جایگزینی موارد مشکل‌دار.

 

پیام خطای Fatal DMA

پیام قابل مشاهده: “Fatal DMA”.

تعداد بوق: هیچ.

علت: کنترلر DMA دچار یک مشکل اساسی است که سبب بروز NMI (Non-Maskable Interrupt) شده است.

روش رفع خطا: اجرای Insight Diagnostics و جایگزینی اجزای خراب.

 

پیام خطای Fatal Express Port

پیام قابل مشاهده: “Fatal Express Port error”.

تعداد بوق: هیچ.

علت: یک پورت Fatal Express با خطای خطرناکی روبرو شده است که سبب NMI شده است.

روش رفع خطا: اجرای **Insight Diagnostics** و جایگزینی تابلوهای PCI Express ناموفق یا نصب مجدد تخته‌های PCI Express شل.

 

پیام خطای Fatal Front side bus

پیام قابل مشاهده: “Fatal Front side bus”.

تعداد بوق:هیچ.

علت: پردازنده دچار مشکل بسیار بزرگی شده است.

روش رفع خطا: اجرای Insight Diagnostics و جایگزینی پردازنده‌های مشکل‌دار یا نصب مجدد آن‌ها.

 

پیام خطای Fatal Global Protocol

پیام قابل مشاهده: “Fatal Global Protocol”.

تعداد بوق: هیچ.

علت:سرور دچار خطای بسیار مهمی شده است که سبب بروز NMI شده است.

روش رفع خطا: اجرای Insight Diagnostics و جایگزینی اجزای خراب.

 

پیام خطای Fatal Hub Link

پیام قابل مشاهده: “Fatal Hub Link error”.

تعداد بوق: هیچ.

علت: رابط پیوند Hub دارای یک نقص مهم شده است که باعث NMI می‌شود.

روش رفع خطا: اجرای Insight Diagnostics و جایگزینی اجزای مشکل‌دار.

 

پیام خطای Fatal ROM

پیام قابل مشاهده: “Fatal ROM error: The system ROM is not properly programmed”.

تعداد بوق:در ابتدا یک بوق بلند و در ادامه یک بوق کوتاه.

علت: ROM سیستم به درستی برنامه‌نویسی نشده است.

روش رفع خطا: تعویض قسمت ROM فیزیکی سیستم.

 

پیام خطای Fiber Channel Mezzanine

پیام قابل مشاهده: “Fibre Channel Mezzanine / balcony not supported”.

تعداد بوق:۲ بوق کوتاه.

علت: آداپتور Fiber Channel در سرور پشتیبانی نمی‌شود.

روش رفع خطا: نصب آداپتور Fiber Channel پشتیبانی شده در سرور.

 

پیام خطای درجه حرارت بالا در سرور HP

پیام قابل مشاهده:”High Temperature condition detected by processor x”.

تعداد بوق: هیچ.

علت: دمای دستگاه بیش از حد شده است، فن کافی وجود ندارد یا فن‌ها از کار افتاده‌اند.

روش رفع خطا: تنظیم دمای محیط، نصب فن‌های بیشتر بر روی سرور یا تعویض فن‌های خراب.

 

پیام خطای Illegal Opcode

پیام قابل مشاهده:”Illegal Opcode – system Halted”.

تعداد بوق: هیچ.

علت: سرور به دلیل یک اتفاق غیرمنتظره وارد Illegal Operator Handler شده است. این خطا غالباً مربوط به نرم‌افزار است و لزوماً مسئله سخت‌افزاری را نشان نمی‌دهد.

روش رفع خطا: اجرای Insight Diagnostics و جایگزینی اجزای مشکل‌دار یا اطمینان از نصب صحیح تمامی نرم‌افزارهای سرور.

 

پیام خطای iLO Generated NMI

پیام قابل مشاهده: “iLO Generated NMI”.

تعداد بوق: هیچ.

علت: کنترلر iLO یک NMI تولید کرده است.

روش رفع خطا: بررسی گزارشات iLO برای جزئیات بیشتر.

 

پیام خطای Internal CPU check

پیام قابل مشاهده: “Internal CPU check- processor”.

تعداد بوق: هیچ.

علت: یک پردازنده دچار خطای داخلی شده است.

روش رفع خطا: اجرای Insight Diagnostics و جایگزینی اجزای مشکل‌دار، به خصوص پردازنده‌ها و PPM.

 

پیام خطای Invalid memory

پیام قابل مشاهده: “Invalid memory types were found on the same node. Please check DIMM compatibility – Some DIMMs may not be used”.

تعداد بوق: هیچ.

علت: انواع حافظه نامعتبر یا مختلط در طی POST شناسایی شد.

روش رفع خطا: هنگام جمع کردن سوکت‌های حافظه فقط از جفت‌های پشتیبانی شده DIMM استفاده کنید. به نیازهای حافظه راهنمای کاربر سرور قابل اجرا مراجعه کنید.

 

پیام خطای Invalid Password

Invalid Password-system halted/restricted: (رمز ورود نامعتبر یا فاقد مجوز کافی وارد شد).

تعداد بوق: هیچ.

روش رفع خطا: وارد کردن رمز عبور معتبرتر برای دسترسی به سیستم.

 

پیام خطای Memory and processor Mismatch

پیام قابل مشاهده: “Memory found on unpopulated Node.? Processor is required to be installed for memory to be used.”.

تعداد بوق: هیچ.

علت: سیستم DIMMها را شناسایی می‌کند اما نمی‌تواند از آن‌ها استفاده کند زیرا پردازنده‌ای در سوکت مربوطه نصب نشده است.

روش رفع خطا: جهت استفاده از DIMMهای نصب شده، پردازنده را در سوکت مربوطه و مناسب نصب کنید.

 

پیام خطای Mixed processor speed

پیام قابل مشاهده: “mixed processor speeds detected .please make sure that all processors are the same speed! System halted”.

تعداد بوق: در ابتدا یک بوق بلند و سپس یک بوق کوتاه.

علت: سی‌پی‌یوها با سرعت‌های گوناگون پشتیبانی نمی‌شوند.

روش رفع خطا: اطمینان حاصل نمایید که سرعت تمام پردازنده‌های نصب شده یکسان است.

 

پیام خطای Keyboard (No Keyboard Attached/Present)

پیام قابل مشاهده: “network server mode active and no keyboard attached” (وضعیت) یا “No Keyboard Present” (خطا).

تعداد بوق: هیچ.

علت: صفحه کلید متصل نمی‌باشد یا خراب شده است.

روش رفع خطا: برای پیام وضعیت هیچ اقدامی لازم نیست. برای پیام خطا، صفحه کلید را متصل کنید، مطمئن شوید هیچ کلیدی فشرده یا گیر نکرده باشد، در صورت تکرار خرابی، صفحه کلید را تعویض کنید.

 

پیام خطای NMI

پیام قابل مشاهده: “NMI- Button pressed”, “NMI- undetermined source”.

تعداد بوق: هیچ.

علت: دکمه NMI فشار داده شد یا یک رویداد NMI اتفاق افتاده است.

روش رفع خطا: سرور را ریستارت کنید.

 

پیام خطای Memory Interleaving

پیام قابل مشاهده: “node interleaving disabled – invalid memory configuration”.

تعداد بوق: هیچ.

علت: هر گره باید تنظیمات حافظه یکسانی داشته باشد تا interleaving را فعال کند.

روش رفع خطا: هر گره را با همان پیکربندی حافظه جمع کرده و interleaving را در RBSU فعال کنید.

 

پیام خطای FLOPPY drive

پیام قابل مشاهده:”NO floppy drive present”.

تعداد بوق: هیچ.

علت: درایو دیسک نصب نشده است یا خرابی درایو دیسک رخ داده است.

روش رفع خطا: در ابتدا سرور را خاموش کرده و درایو دیسک خراب را جایگزین کنید. اگر دیسک وجود دارد، مطمئن شوید که درایو دیسک به درستی متصل شده است.

 

پیام خطای Memory parity

پیام قابل مشاهده: “parity chek2- system dim memory”.

تعداد بوق: هیچ.

علت: یک خطای غیر قابل اصلاح در یک DIMM رخ داده است.

روش رفع خطا: اجرای Insight Diagnostics جهت شناسایی DIMMهای ناموفق و سپس استفاده از LEDهای DIMM برای شناسایی و جایگزینی خرابی‌ها.

 

پیام خطای PCL SLOT Parity

پیام قابل مشاهده: “PCL bus parity error T pcl slot x”.

تعداد بوق: هیچ.

علت: یک دستگاه PCL خطای برابری را در گذرگاه PCL ایجاد کرده است.

روش رفع خطا: برای کارت‌های PCL افزونه، کارت را بردارید. برای دستگاه‌های PCL تعبیه شده، Insight Diagnostics را اجرا کرده و هرگونه قطعه خراب را همانطور که نشان داده جایگزین کنید.

 

پیام خطای PCL SLOT Power

پیام قابل مشاهده: “power fault detected in hot plug pcl slot x”.

تعداد بوق: ۲ بوق کوتاه.

علت: شکاف انبساط hot plug pcl-x به درستی تغذیه نمی‌شود.

روش رفع خطا: سرور را ریست کنید.

 

خطاهای خاص مادربرد سرور HP

مادربرد سرور HP ممکن است خطاهای مختلفی را نشان دهد، از جمله پیام‌های خطا روی صفحه نمایش، کدهای بوق، چراغ‌های LED و خاموش شدن غیرمنتظره. برخی از خطاهای رایج مادربرد عبارتند از:

۱۰۱-ROM Error: مشکل در ROM یک دستگاه PCI، PCI-X یا PCI Express.

Memory Error: مشکل در حافظه RAM سرور.

Processor Error: مشکل در پردازنده سرور.

Fan Error: مشکل در فن‌های سرور.

System Board Error: مشکل در مادربرد سرور.

خطاهای خاص مادربرد سرور HP

علائم چراغ چشمک‌زن مادربرد سرور HPE

سبز چشمک‌زن (۱ هرتز در هر ثانیه): iLO در حال راه‌اندازی مجدد است.

کهربایی چشمک‌زن: سیستم تخریب شده است.

قرمز چشمک‌زن (۱ هرتز/چرخه در ثانیه): وضعیت سرور بحرانی است.

چشمک‌زن آبی: نشان‌دهنده فعالیت‌های مدیریتی یا ارتقاء سیستم عامل (۱ هرتز)، راه‌اندازی مجدد دستی iLO (4 هرتز)، یا در حال انجام بودن راه‌اندازی مجدد دستی iLO (8 هرتز).

همه ۴ LED همزمان چشمک می‌زنند: خطای برق رخ داده است.

فقدان نور در LED روشن/خاموش: نبود برق تاسیسات، سیم برق وصل نشده، منبع تغذیه نصب نشده/قطع شده، یا کابل دکمه پاور قطع شده است.

 

روش‌های رفع خطاهای مادربرد

مشکل هاردهای SAS در RAID 5/10 (چراغ سبز به زرد کمرنگ): به سرعت هارد معیوب را خارج و جایگزین کنید (توصیه می‌شود از هاردهای SSD استفاده شود).

چراغ خطا کمی پررنگ‌تر: ابتدا از اتصال کابل برق سرور اطمینان حاصل کنید. اگر چراغ سبز پاور سرور اچ‌پی روشن نیست، پاور سوخته و باید تعویض شود.

عدم صحیح قرار گرفتن رم سرور یا سوختگی رم: رم را به درستی در شکاف مادربرد قرار دهید و هنگام تعویض رم سرور اچ‌پی، الکتریسته ساکن بدن خود را تخلیه نمایید تا به قطعات الکترونیکی مادربرد آسیب نرسد.

کارت شبکه قابل شناسایی نیست: با زدن دکمه F10 به بخش تنظیمات مادربرد بروید، در بخش راه‌اندازی مجدد، تیک‌های هارد را غیر فعال کنید تا سرور به تنظیمات پیش‌فرض کارخانه بازگردد.

 

مشکلات پردازنده در سرور HP

مشکلات سخت‌افزاری: خرابی‌های سخت‌افزاری در پردازنده، خرابی سوکت پردازنده، مشکلات حافظه‌های کش و RAM، خراب شدن خمیر سیلیکون.

مشکلات نرم‌افزاری: خطاهای برنامه‌نویسی، عدم سازگاری نرم‌افزار با سیستم‌عامل، مشکلات سیگنال‌های ساعت، باگ‌های نرم‌افزاری، نامطلوب بودن پیکربندی نرم‌افزاری.

گلوگاه (Throttling): کاهش خودکار عملکرد پردازنده به دلیل دمای بالا، مصرف بالای انرژی، یا توانایی محدود سیستم، برای جلوگیری از آسیب.

مشکلات Firmware: باگ‌ها، عدم سازگاری با سخت‌افزار، به‌روزرسانی نادرست و نقص سخت‌افزاری.

مشکلات پردازنده در سرور HP

روش‌های رفع مشکلات پردازنده

استفاده از ابزارهای عیب‌یابی: HP Integrated Lights-Out (iLO)، HP Insight Diagnostics، HPE Intelligent Provisioning و HP Smart Start.

آزمایش Load Testing: برای شناسایی ضعف در پردازنده یا سایر اجزا تحت بار بالا.

بررسی اتصالات فیزیکی: اطمینان از اتصال صحیح پردازنده به مادربرد و سوکت‌ها.

بررسی Firmware پردازنده: به‌روزرسانی Firmware به آخرین نسخه و اطمینان از سازگاری.

بررسی تنظیمات BIOS: اطمینان از تنظیم صحیح پارامترهای پردازنده.

آزمایش با پردازنده جایگزین: برای تشخیص اینکه آیا مشکل از پردازنده اصلی است یا خیر.

بررسی دما و سیستم خنک‌کننده: استفاده از نرم‌افزارهای مانیتورینگ دما و اطمینان از عملکرد صحیح فن‌ها و هیت‌سینک.

مشورت با تیم‌های پشتیبانی فنی.

 

مشکلات بوت و راه‌اندازی سرور

علل متداول: تنظیمات اشتباه BIOS/UEFI، قطعات سخت‌افزاری معیوب، فایل‌های خراب شده سیستم عامل.

راه‌حل:دسترسی به تنظیمات BIOS/UEFI (با فشار دادن کلید F9)، بازگرداندن تنظیمات به حالت پیش‌فرض، اطمینان از پیکربندی صحیح ترتیب بوت، اطمینان از سلامت قطعات سخت‌افزاری مانند CPU و پاور، و در صورت لزوم، نصب مجدد سیستم عامل.

خاموش شدن در اثر گرمای بیش از حد

علل: تجمع گرد و غبار، مسدود شدن دریچه‌های هوا، معیوب بودن قطعات خنک‌کننده مانند فن و هیت‌سینک.

راه‌حل: تمیز کردن منظم سرور، اطمینان از جریان هوای مناسب، نظارت بر دما و سرعت فن با HPE iLO، و تعویض سریع قطعات خنک‌کننده معیوب.

خطاهای مربوط به حافظه RAM

علل: خطاهای حافظه باعث از کار افتادن سرور و هنگ کردن می‌شوند.

راه‌حل: استفاده از HPE iLO برای بررسی پیام‌های خطا و اجرای memory diagnostics. در صورت شناسایی خطا، ماژول‌های حافظه را تنظیم مجدد یا در صورت لزوم تعویض کنید. برای مدل‌های Gen10، اطمینان از قابلیت HPE SmartMemory برای عملکرد و سازگاری بهینه.

خطاهای سری ۲۰۰ (حافظه): “Memory Error” (خرابی ماژول حافظه)، “Memory Address Error” (خرابی حافظه)، “Invalid Memory Configuration” (نیاز به پردازنده اضافی برای حافظه، نصب نامناسب FBDIMMها، ترتیب نامناسب DIMMها، اندازه پشتیبانی نشده ماژول حافظه، بانک حافظه ناقص، زمان‌بندی ناکافی، عدم تطابق اندازه‌های DIMMها، DIMM پشتیبانی نشده، DIMMهای x8 در حالت ECC پیشرفته).

راه‌حل خطاهای سری ۲۰۰: اجرای Insight Diagnostics و جایگزینی اجزای خراب. نصب FBDIMMهای معتبر، نصب مجدد DIMMها به ترتیب مناسب، نصب ماژول حافظه با اندازه و نوع پشتیبانی شده، پر کردن کامل بانک حافظه، نصب DIMMهای منطبق.

مشکلات فضای ذخیره‌سازی

علل: خرابی دیسک، خطاهای پیکربندی RAID، مشکلات کنترلر ذخیره‌سازی.

راه‌حل: استفاده از ابزار SSA (Smart Storage Administrator) برای نظارت بر سلامت درایوها. جایگزین کردن دیسک یا پیکربندی مجدد تنظیمات RAID. اطمینان از به‌روز بودن فریمور کنترلر و عدم وجود اشکالات سخت‌افزاری، و مطابقت سازگاری قطعه رید کنترلر با مدل سرور ProLiant.

خطاهای سری ۶۰۰ (فلاپی دیسک): “Diskette Controller Error” (خرابی مدار کنترلر)، “Diskette Boot Record Error” (خرابی بخش بوت)، “Diskette Drive Type Error” (عدم تطابق نوع درایو)، “Primary/Secondary Floppy Port Address Assignment Conflict” (تضاد سخت‌افزاری).

مشکلات اتصال به شبکه

علل: مشکلات در اتصالات کابل شبکه، تنظیمات سوئیچ/روتر شبکه، تنظیمات و درایورهای کارت رابط شبکه (NIC).

راه‌حل: اطمینان از اتصال ایمن کابل‌ها، پیکربندی صحیح سوئیچ/روتر، به‌روزرسانی درایورها و Firmware کارت شبکه، و بررسی مجدد تنظیمات کارت شبکه.

خطای Power Fault Detected – Flexible LOM: برق به پورت LOM flexible متصل نیست (فقط برای سرورهای Gen8).

خطاهای سری ۴۰۰ (پورت موازی): “Parallel Port X Address Assignment Conflict”، “Parallel Port Address Conflict Detected”. (با ۲ بوق کوتاه).

راه‌حل خطاهای سری ۴۰۰: اجرای ابزار نصب سرور و اصلاح پیکربندی. حذف سخت‌افزار جدید، اجرای ابزار راه‌اندازی سرور برای تخصیص مجدد منابع و حل دستی تضاد، یا اجرای Insight Diagnostics و جایگزینی اجزای خراب.

آپدیت Firmware و درایورها

اهمیت: Firmware و درایورهای قدیمی ممکن است باعث مشکلاتی از جمله ناسازگاری و کاهش عملکرد شوند.

راه‌حل: استفاده از HPE’s Service Pack for ProLiant (SPP) برای به‌روزرسانی منظم میان‌افزار و درایورها، که به عملکرد روان و ایمنی سرور کمک کرده و از مشکلات امنیتی پیشگیری می‌کند.

برای Gen9: بررسی آپدیت‌ها از طریق HPE iLO4، دریافت آخرین SPP از وب‌سایت HPE، و اعمال آپدیت‌ها با HPE iLO 4، HPE OneView یا HPE Smart Update Manager (SUM).

برای Gen10: استفاده از HPE iLO5 برای نظارت بر نسخه‌های سیستم عامل و بررسی به‌روزرسانی‌های موجود، دانلود آخرین SPP از وب‌سایت HPE، و اعمال به‌روزرسانی‌ها با HPE Integrated Lights-Out (iLO) یا HPE OneView.

ابزارهای مدیریت و عیب‌یابی سرور HP

iLO (Integrated Lights-Out): یک مکانیسم بر روی چیپ‌ست مخصوص در مادربرد سرورهای HPE که به عنوان برگ برنده این شرکت شناخته می‌شود. iLO مدیریت‌کننده عملکرد قطعات داخلی سرور، نمایش‌دهنده وضعیت فعلی و سلامت قطعات است و با ارتباط با Firmware قطعات، به صورت اتوماتیک سلامت سرور را بررسی می‌کند. در صورت بروز خطا، آنی به کاربر اطلاع می‌دهد. از طریق پورت اترنت (RJ45) و با پروتکل HTTPS قابل دسترسی است.

IML (Integrated Management Log): لاگ مدیریت یکپارچه که جزئیات خطاها را ثبت می‌کند.

HPE SSA (Smart Storage Administrator): ابزاری برای مشاهده وضعیت هارد دیسک و RAID. این نرم‌افزار هم از طریق Intelligent Provisioning و هم از داخل سیستم‌عامل ویندوز قابل دسترسی است.

BIOS/System Utilities: برای تنظیمات سیستم و پیکربندی.

HPE Insight Diagnostics: ابزاری برای تست کامل سخت‌افزار سرور (قابل بوت از USB) و تشخیص مشکلات. این ابزار در دو نسخه آنلاین و آفلاین ارائه می‌شود که نسخه آفلاین بدون نیاز به سیستم‌عامل عمل می‌کند.

HPE Service Pack for ProLiant (SPP): برای به‌روزرسانی Firmware/BIOS.

Intelligent Provisioning (F10): ابزاری برای دریافت گزارش دقیق سلامت سخت‌افزار، به خصوص برای مشکلات RAID و هارد دیسک.

 

سوالات متداول

۱) خطای سرور HP چیست؟

خطای سرور HP نشان‌دهنده عدم توانایی سرور در انجام درخواست کلاینت است و یک پاسخ ناخواسته است که توسط سرور در هنگام ارتباط با کلاینت ایجاد می‌شود. این خطاها اغلب با کدهای بوق یا پیام‌های متنی روی صفحه نمایشگر مشخص می‌شوند.

 

۲) اولین گام در عیب‌یابی خطاهای سرور HP چیست؟

اولین گام در عیب‌یابی خطاهای سرور HP، بررسی پیام‌های خطا روی صفحه نمایشگر یا گوش دادن به کدهای بوق سرور است (در صورتی که سیستم تصویر ندهد). همچنین بررسی گزارش‌های POST (Power On Self Test) در ابتدای بوت سرور نیز بسیار مهم است.

 

۳) چرا تهیه نسخه پشتیبان از اطلاعات در هنگام بروز خطاهای سرور HP مهم است؟

تهیه نسخه پشتیبان از اطلاعات بسیار مهم است زیرا ممکن است ایرادات شناسایی شده بر روی سرور مرتبط با تجهیزات ذخیره‌سازی مانند هارد دیسک یا RAID Controller باشد که در چنین موقعیت‌هایی ریسک از بین رفتن اطلاعات وجود دارد. این کار اطمینان می‌دهد که در صورت بروز هر اتفاقی، بابت از بین رفتن اطلاعات نگرانی وجود نخواهد داشت.

<<< به این مطلب امتیاز دهید

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *