岗位职责:
1、针对具身智能大模型,进行数据的采集、爬取、清洗、处理、优化等全流程,对模型预训练和微调提供高质量数据。最终形成数据-模型闭环。
2、构建数据全链路(data-centric)的平台和工具,统一多模态数据的采集、处理、查询、管理。
3、利用CV算法、多模态模型等处理视频、图片等多模态数据,如物体检测、视频描述等等。
4、指导和管理大规模数据标注工作,能够从数据的角度指导模型训练。
任职资格:
1、具备较好的模型算法构建能力,能够借助开源项目独立训练CV模型或者多模态模型。对自然语言处理(NLP)、计算机视觉(CV)和多模态模型有深入且全面的了解者优先。
2、有模型推理优化加速的经验,熟悉量化、减枝等工作,能进满足业务需求中对大规模推理的需求。熟悉VLLM等推理加速框架。
3、具备一定的前后端能力,能够做简单的后端开发。具备利用开源框架streamlit等工具开发demo的能力。
4、熟悉Python、git、linux系统,具备扎实的数据结构和算法基础,有较好的编程基础。
5、熟悉计算机网络、计算机组成原理,具备扎实的数据结构和算法基础。
6、熟悉Hadoop、Spark、Flink等大数据处理框架,具备实际项目经验。
加分项:
1、 具备快速学习和掌握新领域知识的能力,以及良好的团队合作精神
2、计算机科学、软件工程或相关领域的本科及以上学历。