崗位職責(zé)
① 負(fù)責(zé)算力平臺的架構(gòu)設(shè)計(jì)與部署,構(gòu)建高效穩(wěn)定的分布式計(jì)算環(huán)境
② 管理和調(diào)度大規(guī)模計(jì)算資源,保障平臺高可用性與彈性擴(kuò)展能力
③ 對接業(yè)務(wù)需求,進(jìn)行性能調(diào)優(yōu)與資源調(diào)度策略優(yōu)化,提升任務(wù)執(zhí)行效率
④ 實(shí)施自動化運(yùn)維方案,編寫腳本提升系統(tǒng)部署與監(jiān)控的智能化水平
⑤ 跟蹤GPU/TPU等異構(gòu)計(jì)算資源的使用情況,優(yōu)化AI訓(xùn)練與推理任務(wù)的調(diào)度機(jī)制
任職要求
① 計(jì)算機(jī)相關(guān)專業(yè)本科及以上學(xué)歷,2年以上算力平臺或云計(jì)算領(lǐng)域工作經(jīng)驗(yàn)
② 熟悉Linux操作系統(tǒng)原理及網(wǎng)絡(luò)通信協(xié)議(如TCP/IP),具備扎實(shí)的系統(tǒng)基礎(chǔ)
③ 精通容器化技術(shù)(Docker/Kubernetes)及虛擬化技術(shù),有實(shí)際部署經(jīng)驗(yàn)
④ 熟練掌握Python/Shell等腳本語言,具備CI/CD流程實(shí)施與故障排查能力
⑤ 熟悉Hadoop/Spark/OpenStack/AWS/GCP等分布式框架或云平臺者優(yōu)先
⑥ 具備良好的邏輯思維、溝通能力和團(tuán)隊(duì)協(xié)作精神
① 負(fù)責(zé)算力平臺的架構(gòu)設(shè)計(jì)與部署,構(gòu)建高效穩(wěn)定的分布式計(jì)算環(huán)境
② 管理和調(diào)度大規(guī)模計(jì)算資源,保障平臺高可用性與彈性擴(kuò)展能力
③ 對接業(yè)務(wù)需求,進(jìn)行性能調(diào)優(yōu)與資源調(diào)度策略優(yōu)化,提升任務(wù)執(zhí)行效率
④ 實(shí)施自動化運(yùn)維方案,編寫腳本提升系統(tǒng)部署與監(jiān)控的智能化水平
⑤ 跟蹤GPU/TPU等異構(gòu)計(jì)算資源的使用情況,優(yōu)化AI訓(xùn)練與推理任務(wù)的調(diào)度機(jī)制
任職要求
① 計(jì)算機(jī)相關(guān)專業(yè)本科及以上學(xué)歷,2年以上算力平臺或云計(jì)算領(lǐng)域工作經(jīng)驗(yàn)
② 熟悉Linux操作系統(tǒng)原理及網(wǎng)絡(luò)通信協(xié)議(如TCP/IP),具備扎實(shí)的系統(tǒng)基礎(chǔ)
③ 精通容器化技術(shù)(Docker/Kubernetes)及虛擬化技術(shù),有實(shí)際部署經(jīng)驗(yàn)
④ 熟練掌握Python/Shell等腳本語言,具備CI/CD流程實(shí)施與故障排查能力
⑤ 熟悉Hadoop/Spark/OpenStack/AWS/GCP等分布式框架或云平臺者優(yōu)先
⑥ 具備良好的邏輯思維、溝通能力和團(tuán)隊(duì)協(xié)作精神
52萬/年
廣東-珠海 | 博士研究生 | 若干人
自然與應(yīng)用科研機(jī)構(gòu)(事業(yè)單位類型)·公立(國有)
崗位職責(zé):
1、獨(dú)立開展科研工作,高質(zhì)量完成博士后研究計(jì)劃,確保研究任務(wù)按期推進(jìn)、取得預(yù)期成果。
2、積極承擔(dān)科研項(xiàng)目,主動申報國家自然科學(xué)基金、中國博士后科學(xué)基金等項(xiàng)目,與研究組/聯(lián)合實(shí)驗(yàn)室負(fù)責(zé)人共同承擔(dān)重要課題,在領(lǐng)域內(nèi)重要SCI期刊及國際高水平學(xué)術(shù)會議上發(fā)表論文。
3、參與團(tuán)隊(duì)科研協(xié)作,協(xié)助指導(dǎo)或配合研究組/聯(lián)合實(shí)驗(yàn)室其他成員開展相關(guān)課題,促進(jìn)團(tuán)隊(duì)整體科研進(jìn)展。
4、完成研究組/聯(lián)合實(shí)驗(yàn)室負(fù)責(zé)人交辦的其他工作。 任職要求:
1、年齡原則上在35周歲及以下(特別優(yōu)秀者可放寬至40周歲)。
2、已獲得下述專業(yè)的博士學(xué)位且一般不超過3年,或即將獲得下述專業(yè)的博士學(xué)位:
(1)生物或醫(yī)學(xué)、腦科學(xué)、神經(jīng)科學(xué)等相關(guān)專業(yè);
(2)機(jī)器人、微電子、應(yīng)用數(shù)學(xué)、計(jì)算機(jī)、計(jì)算數(shù)學(xué)、大數(shù)據(jù)、人工智能、自動化、視覺計(jì)算、電機(jī)與電腦工程、電子信息等相關(guān)專業(yè);
(3)熱能與動力工程、工程熱物理等相關(guān)專業(yè)。
3、以第一作者身份發(fā)表過高水平論文。
4、具備較強(qiáng)的科研自主性、探索精神與創(chuàng)新能力。
5、具備良好的人際交流能力,富有責(zé)任心和團(tuán)隊(duì)合作精神。
6、具備相關(guān)領(lǐng)域的專業(yè)技術(shù)能力與研究經(jīng)驗(yàn)者優(yōu)先。
(注:符合以上條件,且此前在站時間未超過4年、目前期滿已出站的博士后,可申請?jiān)俅芜M(jìn)站從事研究工作。)
1、獨(dú)立開展科研工作,高質(zhì)量完成博士后研究計(jì)劃,確保研究任務(wù)按期推進(jìn)、取得預(yù)期成果。
2、積極承擔(dān)科研項(xiàng)目,主動申報國家自然科學(xué)基金、中國博士后科學(xué)基金等項(xiàng)目,與研究組/聯(lián)合實(shí)驗(yàn)室負(fù)責(zé)人共同承擔(dān)重要課題,在領(lǐng)域內(nèi)重要SCI期刊及國際高水平學(xué)術(shù)會議上發(fā)表論文。
3、參與團(tuán)隊(duì)科研協(xié)作,協(xié)助指導(dǎo)或配合研究組/聯(lián)合實(shí)驗(yàn)室其他成員開展相關(guān)課題,促進(jìn)團(tuán)隊(duì)整體科研進(jìn)展。
4、完成研究組/聯(lián)合實(shí)驗(yàn)室負(fù)責(zé)人交辦的其他工作。 任職要求:
1、年齡原則上在35周歲及以下(特別優(yōu)秀者可放寬至40周歲)。
2、已獲得下述專業(yè)的博士學(xué)位且一般不超過3年,或即將獲得下述專業(yè)的博士學(xué)位:
(1)生物或醫(yī)學(xué)、腦科學(xué)、神經(jīng)科學(xué)等相關(guān)專業(yè);
(2)機(jī)器人、微電子、應(yīng)用數(shù)學(xué)、計(jì)算機(jī)、計(jì)算數(shù)學(xué)、大數(shù)據(jù)、人工智能、自動化、視覺計(jì)算、電機(jī)與電腦工程、電子信息等相關(guān)專業(yè);
(3)熱能與動力工程、工程熱物理等相關(guān)專業(yè)。
3、以第一作者身份發(fā)表過高水平論文。
4、具備較強(qiáng)的科研自主性、探索精神與創(chuàng)新能力。
5、具備良好的人際交流能力,富有責(zé)任心和團(tuán)隊(duì)合作精神。
6、具備相關(guān)領(lǐng)域的專業(yè)技術(shù)能力與研究經(jīng)驗(yàn)者優(yōu)先。
(注:符合以上條件,且此前在站時間未超過4年、目前期滿已出站的博士后,可申請?jiān)俅芜M(jìn)站從事研究工作。)
面議
廣東-珠海 | 博士研究生 | 若干人
自然與應(yīng)用科研機(jī)構(gòu)(事業(yè)單位類型)·公立(國有)
崗位職責(zé):
(1)以科研工作為主,能獨(dú)立按計(jì)劃完成博士后研究任務(wù);
(2)積極申請國家自然科學(xué)基金、中國博士后科學(xué)基金等科研項(xiàng)目,協(xié)助課題組申請科研課題,在領(lǐng)域內(nèi)SCI重要刊物、高水平國際會議上發(fā)表論文;
(3)參與課題組的項(xiàng)目開發(fā)與課題研究,分享最新研究發(fā)現(xiàn);
(4)完成領(lǐng)導(dǎo)交辦的其他工作。 任職要求:
(1)獲得或即將獲得計(jì)算機(jī)、電子信息等相關(guān)專業(yè)博士學(xué)位,以第一作者身份發(fā)表過高水平研究論文;
(2)熟悉高性能計(jì)算架構(gòu)(GPU/FPGA/BPU,至少其中一種),理解算力資源調(diào)度算法(如DQN、遺傳/蟻群調(diào)度、流式調(diào)度等),有了解類腦計(jì)算原理(SNN、腦啟發(fā)架構(gòu))及其在AI領(lǐng)域中的應(yīng)用經(jīng)驗(yàn)者優(yōu)先;
(3)具備熟練的Python/C++或Verilog編程能力,熟悉Linux系統(tǒng)使用,具有較好的英文讀寫能力;
(4)具備較強(qiáng)的獨(dú)立開展科研工作的能力、執(zhí)行力、溝通表達(dá)能力和團(tuán)隊(duì)合作精神;
(5)對課題組研究方向具有濃厚興趣,樂于接受新事物,樂于交流分享,科研思維活躍。
(1)以科研工作為主,能獨(dú)立按計(jì)劃完成博士后研究任務(wù);
(2)積極申請國家自然科學(xué)基金、中國博士后科學(xué)基金等科研項(xiàng)目,協(xié)助課題組申請科研課題,在領(lǐng)域內(nèi)SCI重要刊物、高水平國際會議上發(fā)表論文;
(3)參與課題組的項(xiàng)目開發(fā)與課題研究,分享最新研究發(fā)現(xiàn);
(4)完成領(lǐng)導(dǎo)交辦的其他工作。 任職要求:
(1)獲得或即將獲得計(jì)算機(jī)、電子信息等相關(guān)專業(yè)博士學(xué)位,以第一作者身份發(fā)表過高水平研究論文;
(2)熟悉高性能計(jì)算架構(gòu)(GPU/FPGA/BPU,至少其中一種),理解算力資源調(diào)度算法(如DQN、遺傳/蟻群調(diào)度、流式調(diào)度等),有了解類腦計(jì)算原理(SNN、腦啟發(fā)架構(gòu))及其在AI領(lǐng)域中的應(yīng)用經(jīng)驗(yàn)者優(yōu)先;
(3)具備熟練的Python/C++或Verilog編程能力,熟悉Linux系統(tǒng)使用,具有較好的英文讀寫能力;
(4)具備較強(qiáng)的獨(dú)立開展科研工作的能力、執(zhí)行力、溝通表達(dá)能力和團(tuán)隊(duì)合作精神;
(5)對課題組研究方向具有濃厚興趣,樂于接受新事物,樂于交流分享,科研思維活躍。
面議
天津-天津 | 碩士研究生 | 若干人
事業(yè)單位·公立(國有)
崗位職責(zé):
1.需求分析:與客戶溝通,了解其業(yè)務(wù)需求、痛點(diǎn)和目標(biāo)。分析技術(shù)可行性,提出合理的解決方案;
2.方案設(shè)計(jì):根據(jù)客戶需求,設(shè)計(jì)定制化的技術(shù)解決方案。結(jié)合硬件、軟件、網(wǎng)絡(luò)等技術(shù),制定整體架構(gòu);
3.技術(shù)實(shí)施:負(fù)責(zé)解決方案的部署、配置和調(diào)試。解決實(shí)施過程中遇到的技術(shù)問題;
4.技術(shù)支持與培訓(xùn):為客戶提供技術(shù)支持和售后服務(wù)。對客戶進(jìn)行技術(shù)培訓(xùn),確保其能夠熟練使用解決方案;
5.跨部門協(xié)作:與銷售、產(chǎn)品研發(fā)團(tuán)隊(duì)、合作廠商合作,確保解決方案的可行性和客戶滿意度。參與產(chǎn)品改進(jìn),反饋客戶需求。
任職要求:
1.技術(shù)能力:熟悉云計(jì)算、網(wǎng)絡(luò)架構(gòu)、數(shù)據(jù)庫、軟件開發(fā)等技術(shù)。掌握主流技術(shù)棧;
2.溝通能力:能夠與客戶高層、技術(shù)團(tuán)隊(duì)和非技術(shù)人員有效溝通,清晰表達(dá)技術(shù)方案,理解需求并轉(zhuǎn)化為技術(shù)方案。具備優(yōu)秀的文檔編寫能力,能夠撰寫高質(zhì)量的技術(shù)方案、投標(biāo)書和報告;
3.問題解決能力:快速定位問題并提出解決方案。具備較強(qiáng)的邏輯思維和分析能力;
4.行業(yè)知識:深入了解科學(xué)計(jì)算、智能計(jì)算的業(yè)務(wù)流程和需求。能夠結(jié)合行業(yè)特點(diǎn),設(shè)計(jì)定制化的技術(shù)解決方案。熟悉行業(yè)相關(guān)法規(guī)和標(biāo)準(zhǔn);
5.認(rèn)證(加分項(xiàng)):相關(guān)技術(shù)認(rèn)證(如軟考、PMP項(xiàng)目管理認(rèn)證等)。行業(yè)相關(guān)認(rèn)證(如醫(yī)療行業(yè)的HL7認(rèn)證等)。
1.需求分析:與客戶溝通,了解其業(yè)務(wù)需求、痛點(diǎn)和目標(biāo)。分析技術(shù)可行性,提出合理的解決方案;
2.方案設(shè)計(jì):根據(jù)客戶需求,設(shè)計(jì)定制化的技術(shù)解決方案。結(jié)合硬件、軟件、網(wǎng)絡(luò)等技術(shù),制定整體架構(gòu);
3.技術(shù)實(shí)施:負(fù)責(zé)解決方案的部署、配置和調(diào)試。解決實(shí)施過程中遇到的技術(shù)問題;
4.技術(shù)支持與培訓(xùn):為客戶提供技術(shù)支持和售后服務(wù)。對客戶進(jìn)行技術(shù)培訓(xùn),確保其能夠熟練使用解決方案;
5.跨部門協(xié)作:與銷售、產(chǎn)品研發(fā)團(tuán)隊(duì)、合作廠商合作,確保解決方案的可行性和客戶滿意度。參與產(chǎn)品改進(jìn),反饋客戶需求。
任職要求:
1.技術(shù)能力:熟悉云計(jì)算、網(wǎng)絡(luò)架構(gòu)、數(shù)據(jù)庫、軟件開發(fā)等技術(shù)。掌握主流技術(shù)棧;
2.溝通能力:能夠與客戶高層、技術(shù)團(tuán)隊(duì)和非技術(shù)人員有效溝通,清晰表達(dá)技術(shù)方案,理解需求并轉(zhuǎn)化為技術(shù)方案。具備優(yōu)秀的文檔編寫能力,能夠撰寫高質(zhì)量的技術(shù)方案、投標(biāo)書和報告;
3.問題解決能力:快速定位問題并提出解決方案。具備較強(qiáng)的邏輯思維和分析能力;
4.行業(yè)知識:深入了解科學(xué)計(jì)算、智能計(jì)算的業(yè)務(wù)流程和需求。能夠結(jié)合行業(yè)特點(diǎn),設(shè)計(jì)定制化的技術(shù)解決方案。熟悉行業(yè)相關(guān)法規(guī)和標(biāo)準(zhǔn);
5.認(rèn)證(加分項(xiàng)):相關(guān)技術(shù)認(rèn)證(如軟考、PMP項(xiàng)目管理認(rèn)證等)。行業(yè)相關(guān)認(rèn)證(如醫(yī)療行業(yè)的HL7認(rèn)證等)。
面議
北京-北京 | 博士研究生 | 若干人
中國科學(xué)院系統(tǒng)·公立(國有)
崗位職責(zé):
1、參與國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目等重點(diǎn)項(xiàng)目研究;
2、開展算力網(wǎng)絡(luò)等新型網(wǎng)絡(luò)體系結(jié)構(gòu)與協(xié)議研究;
3、設(shè)計(jì)系統(tǒng)架構(gòu)及核心協(xié)議,研究關(guān)鍵技術(shù),產(chǎn)出高水平論文、專利及標(biāo)準(zhǔn)等成果;
4、與工程團(tuán)隊(duì)協(xié)作完成原型系統(tǒng)開發(fā),組織開展實(shí)驗(yàn)室仿真及現(xiàn)網(wǎng)試驗(yàn)。 任職要求:
1、具備計(jì)算機(jī)、通信等相關(guān)專業(yè)博士學(xué)位;
2、英語CET-6,有良好的英語聽說讀寫能力;積極、主動,有高度的責(zé)任心;良好的溝通技巧和團(tuán)隊(duì)合作精神;工作踏實(shí)認(rèn)真,思路清晰,善于思考;
3、熟悉算力網(wǎng)絡(luò)架構(gòu)及相關(guān)關(guān)鍵技術(shù),有深厚的理論功底,發(fā)表過高水平論文;有算力網(wǎng)絡(luò)原型系統(tǒng)研究開發(fā)經(jīng)驗(yàn)者優(yōu)先。
1、參與國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目等重點(diǎn)項(xiàng)目研究;
2、開展算力網(wǎng)絡(luò)等新型網(wǎng)絡(luò)體系結(jié)構(gòu)與協(xié)議研究;
3、設(shè)計(jì)系統(tǒng)架構(gòu)及核心協(xié)議,研究關(guān)鍵技術(shù),產(chǎn)出高水平論文、專利及標(biāo)準(zhǔn)等成果;
4、與工程團(tuán)隊(duì)協(xié)作完成原型系統(tǒng)開發(fā),組織開展實(shí)驗(yàn)室仿真及現(xiàn)網(wǎng)試驗(yàn)。 任職要求:
1、具備計(jì)算機(jī)、通信等相關(guān)專業(yè)博士學(xué)位;
2、英語CET-6,有良好的英語聽說讀寫能力;積極、主動,有高度的責(zé)任心;良好的溝通技巧和團(tuán)隊(duì)合作精神;工作踏實(shí)認(rèn)真,思路清晰,善于思考;
3、熟悉算力網(wǎng)絡(luò)架構(gòu)及相關(guān)關(guān)鍵技術(shù),有深厚的理論功底,發(fā)表過高水平論文;有算力網(wǎng)絡(luò)原型系統(tǒng)研究開發(fā)經(jīng)驗(yàn)者優(yōu)先。
面議
安徽-合肥 | 碩士研究生 | 1人
雙一流院?!すⅲ▏校?/div>
崗位職責(zé):
公共算力平臺運(yùn)維管理。 任職要求:
1.擁護(hù)中國共產(chǎn)黨領(lǐng)導(dǎo),政治立場堅(jiān)定;
2.具有良好的責(zé)任意識、協(xié)作意識、服務(wù)意識和組織溝通協(xié)調(diào)能力,能夠以非技術(shù)人員理解的方式解釋技術(shù)概念,能夠組織用戶培訓(xùn)和技術(shù)交流活動;
3.具備一定的項(xiàng)目管理能力,能夠參與平臺升級、擴(kuò)容等項(xiàng)目;
4.有超級計(jì)算、云計(jì)算或者智能計(jì)算系統(tǒng)建設(shè)、管理、運(yùn)維經(jīng)驗(yàn)優(yōu)先。
公共算力平臺運(yùn)維管理。 任職要求:
1.擁護(hù)中國共產(chǎn)黨領(lǐng)導(dǎo),政治立場堅(jiān)定;
2.具有良好的責(zé)任意識、協(xié)作意識、服務(wù)意識和組織溝通協(xié)調(diào)能力,能夠以非技術(shù)人員理解的方式解釋技術(shù)概念,能夠組織用戶培訓(xùn)和技術(shù)交流活動;
3.具備一定的項(xiàng)目管理能力,能夠參與平臺升級、擴(kuò)容等項(xiàng)目;
4.有超級計(jì)算、云計(jì)算或者智能計(jì)算系統(tǒng)建設(shè)、管理、運(yùn)維經(jīng)驗(yàn)優(yōu)先。
面議
四川-成都 | 本科 | 1人
自然與應(yīng)用科研機(jī)構(gòu)(事業(yè)單位類型)·公立(國有)
崗位職責(zé):
1.系統(tǒng)日常運(yùn)維與監(jiān)控:
負(fù)責(zé)算力中心7x24小時穩(wěn)定運(yùn)行,通過監(jiān)控系統(tǒng)(如Prometheus/Grafana,Zabbix)對集群健康狀態(tài)(GPU、計(jì)算節(jié)點(diǎn)、網(wǎng)絡(luò)、存儲)進(jìn)行實(shí)時監(jiān)控與告警響應(yīng)。
執(zhí)行日常巡檢,包括硬件狀態(tài)檢查、系統(tǒng)日志分析、性能指標(biāo)記錄,做到事前預(yù)警、事后快速定位。
管理用戶賬戶、權(quán)限、配額及環(huán)境,維護(hù)作業(yè)調(diào)度系統(tǒng)(如Slurm,Kubernetes)。
2.故障診斷與排除:
能夠快速響應(yīng)并處理硬件故障(如GPU、服務(wù)器、交換機(jī)、存儲設(shè)備)、系統(tǒng)軟件故障、網(wǎng)絡(luò)中斷及性能異常。
與設(shè)備供應(yīng)商協(xié)調(diào)進(jìn)行硬件維修與更換,并跟蹤問題直至徹底解決。
編寫詳細(xì)的事件報告和故障根因分析,持續(xù)改進(jìn)系統(tǒng)可靠性。
3.性能優(yōu)化與調(diào)優(yōu):
深入分析科研應(yīng)用的運(yùn)行特征,協(xié)助用戶優(yōu)化作業(yè)腳本與程序,提升GPU利用率和整體計(jì)算效率。
對集群進(jìn)行系統(tǒng)性性能剖析,包括GPU間通信(NVLink/NVSwitch)、節(jié)點(diǎn)間網(wǎng)絡(luò)(InfiniBand/ROCE)和并行文件系統(tǒng)I/O,發(fā)現(xiàn)并解決瓶頸。
跟蹤NVIDIA最新技術(shù)(如CUDA,DOCA),并評估其在現(xiàn)有環(huán)境中的應(yīng)用價值。
4.用戶支持與培訓(xùn):
為實(shí)驗(yàn)室科研人員提供專業(yè)、耐心的技術(shù)咨詢和支持,解決他們在軟件環(huán)境配置、應(yīng)用編譯、作業(yè)提交中遇到的各種問題。
編寫和維護(hù)清晰易懂的用戶使用指南、技術(shù)文檔和最佳實(shí)踐。
定期組織小型培訓(xùn)或技術(shù)分享,提升科研人員的算力使用水平。
5.系統(tǒng)安全與容災(zāi)管理:
制定和執(zhí)行安全策略,定期進(jìn)行系統(tǒng)漏洞掃描和修補(bǔ),保障計(jì)算環(huán)境與科研數(shù)據(jù)的安全。
負(fù)責(zé)關(guān)鍵數(shù)據(jù)和系統(tǒng)配置的備份策略制定與恢復(fù)測試。 任職要求:
1.必備條件:
學(xué)歷與經(jīng)驗(yàn):
本科及以上學(xué)歷,計(jì)算機(jī)科學(xué)、電子信息、高性能計(jì)算或相關(guān)專業(yè)。
擁有3年以上中大型Linux集群/HPC/AI算力平臺的運(yùn)維經(jīng)驗(yàn)。
必須具備豐富的NVIDIAGPU運(yùn)維經(jīng)驗(yàn),對CUDA、cuDNN等有深刻理解。有NVIDIAB200/H200等最新架構(gòu)運(yùn)維經(jīng)驗(yàn)者優(yōu)先。
2.核心技術(shù)能力:
精通Linux操作系統(tǒng):精通CentOS/RockyLinux/Ubuntu等主流發(fā)行版的安裝、配置、調(diào)試和故障排除。
精通作業(yè)調(diào)度系統(tǒng):具有Slurm或Kubernetes+GPUOperator的深入管理和配置經(jīng)驗(yàn)。
精通集群網(wǎng)絡(luò):深刻理解InfiniBand或高速以太網(wǎng)(RoCEv2)的架構(gòu),具備網(wǎng)絡(luò)配置、診斷和性能優(yōu)化能力。
熟悉并行存儲:熟悉Lustre,GPFS,Ceph等并行文件系統(tǒng)的原理和基本運(yùn)維。
熟練的腳本能力:能熟練使用Shell,Python等腳本語言進(jìn)行自動化運(yùn)維工具開發(fā)。
3.軟技能:
具備出色的問題解決能力和技術(shù)鉆研精神,樂于接受挑戰(zhàn)。
擁有優(yōu)秀的溝通能力和服務(wù)意識,能夠與非技術(shù)背景的科研人員有效協(xié)作。
具備高度的責(zé)任心和主動性,以及良好的團(tuán)隊(duì)合作精神。
具備良好的文檔編寫習(xí)慣。
優(yōu)先考慮條件:
持有NVIDIA相關(guān)認(rèn)證(如NVIDIACertifiedAssociate-AIOpsandInfrastructure)。
有科研機(jī)構(gòu)或高校算力中心運(yùn)維背景,熟悉常見科學(xué)計(jì)算和AI框架(如PyTorch,TensorFlow,GROMACS,VASP等)。
具備一定的軟件開發(fā)經(jīng)驗(yàn),能夠理解科研代碼的編譯和運(yùn)行依賴。
有參與過算力中心從0到1建設(shè)或重大升級項(xiàng)目經(jīng)驗(yàn)者。
1.系統(tǒng)日常運(yùn)維與監(jiān)控:
負(fù)責(zé)算力中心7x24小時穩(wěn)定運(yùn)行,通過監(jiān)控系統(tǒng)(如Prometheus/Grafana,Zabbix)對集群健康狀態(tài)(GPU、計(jì)算節(jié)點(diǎn)、網(wǎng)絡(luò)、存儲)進(jìn)行實(shí)時監(jiān)控與告警響應(yīng)。
執(zhí)行日常巡檢,包括硬件狀態(tài)檢查、系統(tǒng)日志分析、性能指標(biāo)記錄,做到事前預(yù)警、事后快速定位。
管理用戶賬戶、權(quán)限、配額及環(huán)境,維護(hù)作業(yè)調(diào)度系統(tǒng)(如Slurm,Kubernetes)。
2.故障診斷與排除:
能夠快速響應(yīng)并處理硬件故障(如GPU、服務(wù)器、交換機(jī)、存儲設(shè)備)、系統(tǒng)軟件故障、網(wǎng)絡(luò)中斷及性能異常。
與設(shè)備供應(yīng)商協(xié)調(diào)進(jìn)行硬件維修與更換,并跟蹤問題直至徹底解決。
編寫詳細(xì)的事件報告和故障根因分析,持續(xù)改進(jìn)系統(tǒng)可靠性。
3.性能優(yōu)化與調(diào)優(yōu):
深入分析科研應(yīng)用的運(yùn)行特征,協(xié)助用戶優(yōu)化作業(yè)腳本與程序,提升GPU利用率和整體計(jì)算效率。
對集群進(jìn)行系統(tǒng)性性能剖析,包括GPU間通信(NVLink/NVSwitch)、節(jié)點(diǎn)間網(wǎng)絡(luò)(InfiniBand/ROCE)和并行文件系統(tǒng)I/O,發(fā)現(xiàn)并解決瓶頸。
跟蹤NVIDIA最新技術(shù)(如CUDA,DOCA),并評估其在現(xiàn)有環(huán)境中的應(yīng)用價值。
4.用戶支持與培訓(xùn):
為實(shí)驗(yàn)室科研人員提供專業(yè)、耐心的技術(shù)咨詢和支持,解決他們在軟件環(huán)境配置、應(yīng)用編譯、作業(yè)提交中遇到的各種問題。
編寫和維護(hù)清晰易懂的用戶使用指南、技術(shù)文檔和最佳實(shí)踐。
定期組織小型培訓(xùn)或技術(shù)分享,提升科研人員的算力使用水平。
5.系統(tǒng)安全與容災(zāi)管理:
制定和執(zhí)行安全策略,定期進(jìn)行系統(tǒng)漏洞掃描和修補(bǔ),保障計(jì)算環(huán)境與科研數(shù)據(jù)的安全。
負(fù)責(zé)關(guān)鍵數(shù)據(jù)和系統(tǒng)配置的備份策略制定與恢復(fù)測試。 任職要求:
1.必備條件:
學(xué)歷與經(jīng)驗(yàn):
本科及以上學(xué)歷,計(jì)算機(jī)科學(xué)、電子信息、高性能計(jì)算或相關(guān)專業(yè)。
擁有3年以上中大型Linux集群/HPC/AI算力平臺的運(yùn)維經(jīng)驗(yàn)。
必須具備豐富的NVIDIAGPU運(yùn)維經(jīng)驗(yàn),對CUDA、cuDNN等有深刻理解。有NVIDIAB200/H200等最新架構(gòu)運(yùn)維經(jīng)驗(yàn)者優(yōu)先。
2.核心技術(shù)能力:
精通Linux操作系統(tǒng):精通CentOS/RockyLinux/Ubuntu等主流發(fā)行版的安裝、配置、調(diào)試和故障排除。
精通作業(yè)調(diào)度系統(tǒng):具有Slurm或Kubernetes+GPUOperator的深入管理和配置經(jīng)驗(yàn)。
精通集群網(wǎng)絡(luò):深刻理解InfiniBand或高速以太網(wǎng)(RoCEv2)的架構(gòu),具備網(wǎng)絡(luò)配置、診斷和性能優(yōu)化能力。
熟悉并行存儲:熟悉Lustre,GPFS,Ceph等并行文件系統(tǒng)的原理和基本運(yùn)維。
熟練的腳本能力:能熟練使用Shell,Python等腳本語言進(jìn)行自動化運(yùn)維工具開發(fā)。
3.軟技能:
具備出色的問題解決能力和技術(shù)鉆研精神,樂于接受挑戰(zhàn)。
擁有優(yōu)秀的溝通能力和服務(wù)意識,能夠與非技術(shù)背景的科研人員有效協(xié)作。
具備高度的責(zé)任心和主動性,以及良好的團(tuán)隊(duì)合作精神。
具備良好的文檔編寫習(xí)慣。
優(yōu)先考慮條件:
持有NVIDIA相關(guān)認(rèn)證(如NVIDIACertifiedAssociate-AIOpsandInfrastructure)。
有科研機(jī)構(gòu)或高校算力中心運(yùn)維背景,熟悉常見科學(xué)計(jì)算和AI框架(如PyTorch,TensorFlow,GROMACS,VASP等)。
具備一定的軟件開發(fā)經(jīng)驗(yàn),能夠理解科研代碼的編譯和運(yùn)行依賴。
有參與過算力中心從0到1建設(shè)或重大升級項(xiàng)目經(jīng)驗(yàn)者。
面議
浙江-杭州 | 博士研究生 | 1人
自然與應(yīng)用科研機(jī)構(gòu)(事業(yè)單位類型)·公立(國有)
崗位職責(zé):
1.參與高效能分布式計(jì)算軟件系統(tǒng)項(xiàng)目的智算集群通信效能調(diào)優(yōu)研究任務(wù);
2.研究異構(gòu)算力集群通信效能調(diào)優(yōu),參與研發(fā)針對異構(gòu)算力集群環(huán)境的集合通信優(yōu)化機(jī)制,突破準(zhǔn)確、及時、輕量的通信運(yùn)行狀態(tài)檢測、高效的通信性能反饋與調(diào)控,提高算力集群通信的效率和資源利用率,支撐大模型訓(xùn)練的高效通信;
3.研究提出RDMA通信協(xié)議棧的性能調(diào)優(yōu)關(guān)鍵技術(shù),改進(jìn)智算集群通信的數(shù)據(jù)傳輸效率,并參與相關(guān)軟件系統(tǒng)的研發(fā),在相關(guān)領(lǐng)域發(fā)表高質(zhì)量的論文和發(fā)明專利。 任職要求:
1.計(jì)算機(jī)、網(wǎng)絡(luò)通信、信息工程、電子信息等相關(guān)領(lǐng)域的專業(yè)博士學(xué)位;
2.在崗位相關(guān)領(lǐng)域內(nèi)以一作身份發(fā)表過高水平的論文;
3.熟練掌握C++、Python等編程技能;
4.在同等條件下,作為一作或通信作者發(fā)表中科院1/2區(qū)和CCF-A/B論文3篇及以上者,或者從事過RDMA或集合通信相關(guān)系統(tǒng)研發(fā)工作的優(yōu)先;
5.具備優(yōu)秀的中英文寫作和交流能力,能夠獨(dú)立撰寫英文學(xué)術(shù)論文和項(xiàng)目報告。
1.參與高效能分布式計(jì)算軟件系統(tǒng)項(xiàng)目的智算集群通信效能調(diào)優(yōu)研究任務(wù);
2.研究異構(gòu)算力集群通信效能調(diào)優(yōu),參與研發(fā)針對異構(gòu)算力集群環(huán)境的集合通信優(yōu)化機(jī)制,突破準(zhǔn)確、及時、輕量的通信運(yùn)行狀態(tài)檢測、高效的通信性能反饋與調(diào)控,提高算力集群通信的效率和資源利用率,支撐大模型訓(xùn)練的高效通信;
3.研究提出RDMA通信協(xié)議棧的性能調(diào)優(yōu)關(guān)鍵技術(shù),改進(jìn)智算集群通信的數(shù)據(jù)傳輸效率,并參與相關(guān)軟件系統(tǒng)的研發(fā),在相關(guān)領(lǐng)域發(fā)表高質(zhì)量的論文和發(fā)明專利。 任職要求:
1.計(jì)算機(jī)、網(wǎng)絡(luò)通信、信息工程、電子信息等相關(guān)領(lǐng)域的專業(yè)博士學(xué)位;
2.在崗位相關(guān)領(lǐng)域內(nèi)以一作身份發(fā)表過高水平的論文;
3.熟練掌握C++、Python等編程技能;
4.在同等條件下,作為一作或通信作者發(fā)表中科院1/2區(qū)和CCF-A/B論文3篇及以上者,或者從事過RDMA或集合通信相關(guān)系統(tǒng)研發(fā)工作的優(yōu)先;
5.具備優(yōu)秀的中英文寫作和交流能力,能夠獨(dú)立撰寫英文學(xué)術(shù)論文和項(xiàng)目報告。
面議
四川-成都 | 碩士研究生 | 若干人
自然與應(yīng)用科研機(jī)構(gòu)(事業(yè)單位類型)·公立(國有)
崗位職責(zé):
1.負(fù)責(zé)計(jì)算相關(guān)服務(wù)器和網(wǎng)絡(luò)設(shè)備的配置、安裝、維護(hù)、調(diào)優(yōu)和升級:
2.負(fù)責(zé)計(jì)算網(wǎng)絡(luò)的維護(hù)和管理,包括網(wǎng)絡(luò)設(shè)備的基本配置、性能監(jiān)控和故障處理等工作;
3.負(fù)責(zé)計(jì)算相關(guān)平臺的安全管理、備份與恢復(fù)制定安全策略,修復(fù)安全漏洞,監(jiān)控安全事件,處理安全維修任務(wù)并定期進(jìn)行數(shù)據(jù)備份與恢復(fù)測試;
4.負(fù)責(zé)編寫和維護(hù)計(jì)算相關(guān)平臺運(yùn)維文檔,為用戶提供技術(shù)支持:
5.負(fù)責(zé)AI、大數(shù)據(jù)、云計(jì)算等設(shè)計(jì)與開發(fā)測試工作。 任職要求:
1.35周歲以下,碩士及以上學(xué)歷,計(jì)算機(jī)及軟件類、人工智能與大數(shù)據(jù)類相關(guān)專業(yè),具有2年及以上專業(yè)領(lǐng)域工作經(jīng)驗(yàn);
2具備豐富的網(wǎng)絡(luò)知識和技能,能夠搭建、配置網(wǎng)絡(luò)并進(jìn)行故障排除,熟悉RoCE、 Infiniband等 高速網(wǎng)絡(luò)技術(shù),有智算中心運(yùn)維、大模型實(shí)踐經(jīng)驗(yàn)者優(yōu)先;
3.熟練掌握數(shù)據(jù)通信領(lǐng)域業(yè)界相關(guān)網(wǎng)絡(luò)產(chǎn)品,具備較強(qiáng)的故障排查能力,至少精通一i路由交換或安全技術(shù);
4.熟悉服務(wù)器操作系統(tǒng),特別是Linux的安裝和配置;具備腳本編寫能力(如Shell、Python等 ):能夠熟練運(yùn)用相關(guān)工具對服務(wù)器進(jìn)行壓力測試,評估系統(tǒng)性能,并提出改進(jìn)建議:
5.熟悉虛擬化、容器等相關(guān)技術(shù)原埋:了解主流異構(gòu)開發(fā)框架,如CUDA、 OpenCL等 ,有相關(guān)開發(fā)經(jīng)驗(yàn)者優(yōu)先。
1.負(fù)責(zé)計(jì)算相關(guān)服務(wù)器和網(wǎng)絡(luò)設(shè)備的配置、安裝、維護(hù)、調(diào)優(yōu)和升級:
2.負(fù)責(zé)計(jì)算網(wǎng)絡(luò)的維護(hù)和管理,包括網(wǎng)絡(luò)設(shè)備的基本配置、性能監(jiān)控和故障處理等工作;
3.負(fù)責(zé)計(jì)算相關(guān)平臺的安全管理、備份與恢復(fù)制定安全策略,修復(fù)安全漏洞,監(jiān)控安全事件,處理安全維修任務(wù)并定期進(jìn)行數(shù)據(jù)備份與恢復(fù)測試;
4.負(fù)責(zé)編寫和維護(hù)計(jì)算相關(guān)平臺運(yùn)維文檔,為用戶提供技術(shù)支持:
5.負(fù)責(zé)AI、大數(shù)據(jù)、云計(jì)算等設(shè)計(jì)與開發(fā)測試工作。 任職要求:
1.35周歲以下,碩士及以上學(xué)歷,計(jì)算機(jī)及軟件類、人工智能與大數(shù)據(jù)類相關(guān)專業(yè),具有2年及以上專業(yè)領(lǐng)域工作經(jīng)驗(yàn);
2具備豐富的網(wǎng)絡(luò)知識和技能,能夠搭建、配置網(wǎng)絡(luò)并進(jìn)行故障排除,熟悉RoCE、 Infiniband等 高速網(wǎng)絡(luò)技術(shù),有智算中心運(yùn)維、大模型實(shí)踐經(jīng)驗(yàn)者優(yōu)先;
3.熟練掌握數(shù)據(jù)通信領(lǐng)域業(yè)界相關(guān)網(wǎng)絡(luò)產(chǎn)品,具備較強(qiáng)的故障排查能力,至少精通一i路由交換或安全技術(shù);
4.熟悉服務(wù)器操作系統(tǒng),特別是Linux的安裝和配置;具備腳本編寫能力(如Shell、Python等 ):能夠熟練運(yùn)用相關(guān)工具對服務(wù)器進(jìn)行壓力測試,評估系統(tǒng)性能,并提出改進(jìn)建議:
5.熟悉虛擬化、容器等相關(guān)技術(shù)原埋:了解主流異構(gòu)開發(fā)框架,如CUDA、 OpenCL等 ,有相關(guān)開發(fā)經(jīng)驗(yàn)者優(yōu)先。
面議
廣東-深圳 | 博士研究生 | 若干人
自然與應(yīng)用科研機(jī)構(gòu)(事業(yè)單位類型)·公立(國有)
崗位職責(zé):
從事相關(guān)專業(yè)技術(shù)研究:承擔(dān)重大科研項(xiàng)目的論證與實(shí)施;推動技術(shù)成果轉(zhuǎn)化;發(fā)表高水平學(xué)術(shù)論文;申請核心專利;參與國際/國家行業(yè)標(biāo)準(zhǔn)制定等。 任職要求:
1. 網(wǎng)絡(luò)通信/計(jì)算機(jī)網(wǎng)絡(luò)/人工智能/信息安全相關(guān)專業(yè) ;2. 在網(wǎng)絡(luò)的感知、路由、傳輸、調(diào)度、安全等方面有研究經(jīng)歷,或熟悉以下技術(shù)者優(yōu)先:Sketch、P4、DPDK、SRv6、RDMA、uONOS、強(qiáng)化學(xué)習(xí)、密碼學(xué)、 網(wǎng)絡(luò)安全協(xié)議。
從事相關(guān)專業(yè)技術(shù)研究:承擔(dān)重大科研項(xiàng)目的論證與實(shí)施;推動技術(shù)成果轉(zhuǎn)化;發(fā)表高水平學(xué)術(shù)論文;申請核心專利;參與國際/國家行業(yè)標(biāo)準(zhǔn)制定等。 任職要求:
1. 網(wǎng)絡(luò)通信/計(jì)算機(jī)網(wǎng)絡(luò)/人工智能/信息安全相關(guān)專業(yè) ;2. 在網(wǎng)絡(luò)的感知、路由、傳輸、調(diào)度、安全等方面有研究經(jīng)歷,或熟悉以下技術(shù)者優(yōu)先:Sketch、P4、DPDK、SRv6、RDMA、uONOS、強(qiáng)化學(xué)習(xí)、密碼學(xué)、 網(wǎng)絡(luò)安全協(xié)議。
相關(guān)職位推薦
查看更多
算力網(wǎng)特別研究助理
面議
博士研究生
計(jì)算機(jī)科學(xué)與技術(shù)
若干人
中國科學(xué)院計(jì)算技術(shù)研究所
北京
行業(yè)(算力運(yùn)營)主管
面議
本科
計(jì)算機(jī)科學(xué)與技術(shù)
若干人
國家超級計(jì)算天津中心
天津
行業(yè)(算力系統(tǒng))銷售
面議
本科
軟件工程
若干人
國家超級計(jì)算天津中心
天津
數(shù)據(jù)與先進(jìn)算力中心科研崗
面議
博士研究生
網(wǎng)絡(luò)空間安全
2人
江西理工大學(xué)#
贛州
科研崗-算力網(wǎng)絡(luò)體系架構(gòu)方向
面議
博士研究生
網(wǎng)絡(luò)空間安全
若干人
鵬城國家實(shí)驗(yàn)室#
深圳
算力調(diào)度研究員
面議
博士研究生
計(jì)算機(jī)科學(xué)與技術(shù)
2人
北京思特奇信息技術(shù)股份有限公司
合肥