Job Description:
Leonardo è un gruppo industriale internazionale, tra le principali realtà mondiali nell’Aerospazio, Difesa e Sicurezza che realizza capacità tecnologiche multidominio in ambito Elicotteri, Velivoli, Aerostrutture, Elettronica, Cyber Security e Spazio. Con oltre 60.000 dipendenti nel mondo, l’azienda ha una solida presenza industriale in Italia, Regno Unito, Polonia, Stati Uniti, e opera in 150 paesi anche attraverso aziende controllate, joint venture e partecipazioni. Protagonista dei principali programmi strategici a livello globale, è partner tecnologico e industriale di Governi, Amministrazioni della Difesa, Istituzioni e imprese.
All’interno dell’Area Cyber & Security Solutions, stiamo ricercando un/a Data Engineer per batch e stream processing per la nostra sede di Genova / Roma Laurentina.
Di seguito l’elenco delle principali attività previste per il ruolo:
- Sviluppare data pipelines per ingestion, processing e transformation di grandi volumi di dati
- Implementare batch processing jobs con Apache Spark (PySpark, Scala)
- Sviluppare real-time data pipelines con Apache Kafka e Apache Flink
- Implementare stream processing applications per event transformation, enrichment e aggregation
- Orchestrare workflows complessi con Apache Airflow (DAG design, dependencies, scheduling)
- Sviluppare trasformazioni analitiche con SQL avanzato e dbt per analytics layers
- Sviluppare streaming aggregations con windowing operations (tumbling, sliding, session windows)
- Integrare stream processing con batch layers (lambda architecture) per unified analytics
- Implementare exactly-once processing semantics e state management in Flink
- Sviluppare Kafka consumers e producers con optimal configuration for throughput
- Implementare data quality testing e validation frameworks
- Integrare con data lakehouse (Delta Lake, Iceberg) e object storage per data persistence
- Implementare stream-to-lake integration per data persistence in lakehouse
- Sviluppare data modeling (dimensional, star schema) per analytics e reporting
- Collaborare con analytics teams per requirements gathering e data modeling
- Ottimizzare performance di Spark jobs, query execution plans e streaming applications per low-latency processing
- Implementare incremental processing patterns per efficiency
- Implementare monitoring e alerting per streaming pipelines health
- Gestire backpressure e failure recovery in streaming applications
- Supportare integration con BI tools (Tableau, PowerBI) per reporting
- Contribuire a DataOps practices (CI/CD for data pipelines, testing, monitoring) e best practices per stream processing
Titolo di studio
Laurea Magistrale in Ingegneria Informatica, Matematica, Statistica, Fisica, Informatica o equivalente.
Seniority
Expert (da 2 a 5 anni di esperienza nel ruolo, o più di 5 anni di esperienza in ruoli analoghi)
Conoscenze e competenze tecniche
- Data processing con Apache Spark (PySpark, Scala APIs) per batch workloads
- Stream processing con Apache Flink (DataStream API, Table API, SQL)
- Apache Kafka per event streaming (producers, consumers, Kafka Streams API, Kafka Connect)
- Real-time data pipelines con windowing operations e event-time processing
- State management e fault tolerance in streaming applications (checkpointing, savepoints)
- Orchestration con Apache Airflow (DAG design, custom operators, sensors, XComs)
- SQL avanzato (window functions, CTE, recursive queries, query optimization)
- dbt per analytics transformations e data modeling
- Data modeling (dimensional modeling, star schema, data vault basics)
- Data lakehouse platforms (Delta Lake, Apache Iceberg) con ACID transactions
- Integration con data lakehouse for stream-batch convergence (Delta Lake streaming, Iceberg)
- Data quality frameworks (Great Expectations, dbt tests)
- Exactly-once semantics e watermarking for late data handling
- Performance tuning for low-latency and high-throughput
Competenze comportamentali
- Autonomia operativa e problem solving su data processing e streaming challenges
- Capacità analitiche e attenzione ai dettagli nella data quality
- Collaborazione in team data e analytics
- Orientamento alla qualità dei dati, data quality, performance optimization e low-latency processing
- Data governance mindset
- Attenzione alla reliability e fault tolerance
- Proattività nel continuous learning e troubleshooting
Conoscenze linguistiche
Italiano madrelingua, Inglese professionale (B2)
Competenze informatiche
- Apache Spark (PySpark, Scala) per distributed data processing
- Apache Flink for stream processing (DataStream API, Table API)
- Apache Kafka for event streaming (configuration, tuning, Kafka Connect)
- Apache Airflow for workflow orchestration
- SQL avanzato e dbt for analytics transformations
- Python and/or Java/Scala for streaming applications e data engineering
- Data lakehouse platforms (Delta Lake, Apache Iceberg)
- Object storage (MinIO, Ceph, S3-compatible)
- BI tools basics (Tableau, PowerBI, Looker)
- Monitoring for streaming pipelines (Prometheus, Grafana, Flink metrics)
- Schema registry (Confluent Schema Registry, AWS Glue)
- Containerizzazione (Docker, Kubernetes) for streaming applications e data workloads
- Git for version control
Altro
- Disponibilità a brevi trasferte su territorio nazionale
- Certificazioni data engineering (Databricks, Snowflake), streaming (Confluent Certified Developer for Apache Kafka, Flink) sono titoli preferenziali
- Esperienza con BI tools e data visualization, real-time analytics su larga scala è un plus
- Background in analytics, data modeling, distributed systems è un plus
- Conoscenza di data warehousing concepts, complex event processing (CEP) è un plus
- Disponibilità a ottenere clearance di sicurezza
Seniority:
Primary Location:
IT - Genova - Fiumara
Additional Locations:
IT - Roma - Via Laurentina
Contract Type:
Permanent
Hybrid Working:
Read Full Description