Urgent
MLOps
日本電気株式会社
-
¥9,300,000 - 11,000,000
-
Kanagawa
-
Over 10,000
Job Summary
国内企業最大規模の580PFLOPS(FP16)のAIスーパーコンピューターの開発・運用を担当するSite Reliability Engineerとして、最新のハイエンドGPU928基を備えるAIスパコンの安定運用と基盤強化を行います。具体的には、Kubernetesを用いたコンテナオーケストレーションの実装・運用、分散システムの設計・開発、数PB規模の分散ファイルシステムの管理、システムの運用設計・監視の実施、GPU関連処理技術(CUDA、NCCL、MPI等)を活用した最適化、PyTorchやTensorFlow等の学習フレームワークの環境構築・運用を担当します。世界有数のAI研究者数百名が利用する環境を支え、NEC独自の生成AIや大規模言語モデル(LLM)、生体認証技術、画像認識、データ分析などの研究開発を技術面から支援し、AIの進化に合わせた基盤強化のためのソフトウェア開発も行います。Company Info
Login to see all information about offers.
By registering with LabBase Plus you...
You can select from our vast stock of job offers.
- Can view all curation offers.
- Receive notifications of new offers added to curations.
- Possibly be scouted by corporations.
- Search for companies with unique technologies.
- Search for job offers in areas like inorganic chemistry material science.
Registration takes roughly 2 minutes