Urgent
MLOps
日本電気株式会社
- SRE
- AI
- 機械学習
- データ分析
- 生成AI
- Kubernetes
- LLM
- PyTorch
- TensorFlow
- 画像認識
国内企業最大規模の580PFLOPS(FP16)のAIスーパーコンピューターの開発・運用を担当するSite Reliability Engineerとして、最新のハイエンドGPU928基を備えるAIスパコンの安定運用と基盤強化を行います。具体的には、Kubernetesを用いたコンテナオーケストレーションの実装・運用、分散システムの設計・開発、数PB規模の分散ファイルシステムの管理、システムの運用設計・監視の実施、GPU関連処理技術(CUDA、NCCL、MPI等)を活用した最適化、PyTorchやTensorFlow等の学習フレームワークの環境構築・運用を担当します。世界有数のAI研究者数百名が利用する環境を支え、NEC独自の生成AIや大規模言語モデル(LLM)、生体認証技術、画像認識、データ分析などの研究開発を技術面から支援し、AIの進化に合わせた基盤強化のためのソフトウェア開発も行います。
-
¥9,300,000 - 11,000,000
-
神奈川県
-
Over 10,000