Senior Solutions Architect – AI Factory Deployment

🕒 vor 1 Monat

🏄 California, North Carolina, +1 weitere Bundesländer – Remote

info

💵 $184.000 - $287.500 / Jahr

⏰ Vollzeit

🟠 Senior

💻 Lösungsingenieur

🦅 H1B-Visum-Sponsor

info

🗣️🇺🇸🇬🇧 Englisch erforderlich

Jetzt Bewerben
Ähnliche Remote-Jobs finden

📊 Überprüfen Sie Ihre Lebenslauf-Bewertung für diese Stelle

Verbessern Sie Ihre Chancen auf ein Vorstellungsgespräch, indem Sie Ihre Lebenslauf-Bewertung vor der Bewerbung überprüfen.

Logo of NVIDIA

NVIDIA

10.000+ Mitarbeiter

Gegründet 1993

🤖 Künstliche Intelligenz

🎮 Gaming

Artificial Intelligence • Gaming • Automotive

NVIDIA ist ein führendes Technologieunternehmen mit Spezialisierung auf beschleunigtes Computing und Künstliche Intelligenz (AI). NVIDIA treibt Fortschritte bei Grafikprozessoren (GPUs), Cloud Computing, Rechenzentren und Virtual Reality voran und fokussiert dabei Branchen wie Gaming, Automotive, Gesundheitswesen und Robotik. Innovationen des Unternehmens wie NVIDIA Omniverse transformieren traditionelle digitale Prozesse, indem sie hochrealistische Simulationen und Rendering-Aufgaben ermöglichen. Die Anwendungen erstrecken sich über zahlreiche Branchen – von autonomen Fahrzeugen mit NVIDIA DRIVE über Gesundheitslösungen mit NVIDIA Clara bis hin zu AI-gestützten Analysen und Workflows.

Beschreibung

• Set up, adjust, and verify AI factory environments across multi-GPU and multi-node Linux clusters. • Ensure configurations align with guidelines for NCCL, collectives, and distributed training frameworks. • Own the execution of key AI/LLM benchmarks, including setup, orchestration, result collection, and analysis. • Investigate and resolve issues when training jobs or benchmarks fail, hang, or underperform. • Build and improve observability for AI factories (metrics, logs, traces, dashboards) to understand workload behavior and system health. • Develop automation (Python, Shell) for running benchmarks, collecting results, and performing regression checks. • Examine communication patterns and NCCL usage for AI/LLM workloads, concentrating on collectives such as AllReduce and AllToAll. • Recommend changes to job configuration, parallelism strategies, and cluster settings to improve throughput, latency, and scaling efficiency. • Work closely with hardware, software, networking, datacenter, and product teams to prepare AI factories for customer use. • Contribute to documentation, guidelines, and readiness collateral that support internal collaborators and customer-facing teams.

🎯 Anforderungen

• Bachelor’s degree or equivalent experience in Computer Science, Mathematics, Engineering, Physics, or related field. • More than 6+ years of experience managing Linux-based systems in HPC, distributed systems, or extensive AI/ML settings. • Hands-on experience running AI/ML workloads on multi-GPU and/or multi-node clusters, with practical knowledge of NCCL. • Solid grasp of collective communication patterns, particularly AllReduce and AllToAll, and how they are applied in contemporary ML/LLM training. • Familiarity with LLM training and/or inference workflows using frameworks such as PyTorch or TensorFlow. • Proficiency with Python and Shell/Bash for scripting, automation, and tooling. • Experience with benchmarking (crafting, executing, and interpreting performance benchmarks). • Comfortable working with observability data (metrics, logs, dashboards) to troubleshoot and optimize complex distributed workloads. • Strong communication skills and the ability to work effectively with cross-functional teams.

🏖️ Vorteile

• Eligible for equity and benefits

Jetzt Bewerben

Ähnliche Jobs

🕒 vor 1 Monat

Saviynt

501 - 1000

☁️ SaaS

🔒 Cybersecurity

🏢 Unternehmen

Drive technical success of Technology and Cloud partnerships at Saviynt, acting as technical advisor for Tech partners. Support revenue-generating initiatives and lead a team of SEs/SAs.

🇺🇸 Vereinigte Staaten – Remote

💰 €130.000.000 Private Equity Round im 2021-09

⏰ Vollzeit

🟠 Senior

💻 Lösungsingenieur

🦅 H1B-Visum-Sponsor

info

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 1 Monat

Databricks

1001 - 5000

🤖 Künstliche Intelligenz

🏢 Unternehmen

☁️ SaaS

Solutions Architect providing technical leadership in big data solutions for customers at Databricks. Collaborating with sales and engineers to implement innovative data strategies.

🇺🇸 Vereinigte Staaten – Remote

💵 $180.000 - $247.500 / Jahr

💰 €1.600.000.000 Series H im 2021-08

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

💻 Lösungsingenieur

🦅 H1B-Visum-Sponsor

info

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 1 Monat

DailyPay

501 - 1000

💳 Fintech

🤝 B2B

👥 HR Tech

Solutions Engineer in SaaS company DailyPay, enhancing employer relationships and delivering on-demand pay solutions. Engaging with prospects, presenting demos, and collaborating with Account Executives.

🇺🇸 Vereinigte Staaten – Remote

💵 $86.000 - $131.000 / Jahr

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

💻 Lösungsingenieur

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 1 Monat

CDW

10.000+ Mitarbeiter

🏢 Unternehmen

☁️ SaaS

🔒 Cybersecurity

Senior Solution Architect developing comprehensive ITAD solutions and providing consultative guidance. Collaborating with teams and customers to deliver high-quality digital experience services.

🇺🇸 Vereinigte Staaten – Remote

💵 $94.500 - $132.100 / Jahr

💰 Post-IPO Equity im 2015-07

⏰ Vollzeit

🟠 Senior

💻 Lösungsingenieur

🦅 H1B-Visum-Sponsor

info

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 1 Monat

Salt Security

201 - 500

Solutions Engineer partnering with sales team to drive technical aspects of API security sales process. Delivering presentations, building relationships, and demonstrating value for customers.

🇺🇸 Vereinigte Staaten – Remote

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

💻 Lösungsingenieur

🗣️🇺🇸🇬🇧 Englisch erforderlich