AI 与图像算法求职能力地图

整理日期：2026-06-16
目标方向：AI Agent / 大模型应用 / 图像算法 / 目标检测
目标城市：南京

1. 求职方向判断

南京目前和你目标相关的岗位，大致可以分成两条线：

AI Agent / 大模型应用方向
图像算法 / 目标检测 / 计算机视觉方向

整体判断：

南京的 AI Agent 岗位更多偏向 应用开发和工程落地，不是纯大模型算法研究。
南京的图像算法岗位更多偏向 工业、电力、交通、医疗、机器人、低空无人机等真实业务场景。
如果你想提高找工作的成功率，建议采用 AI Agent 应用为主线，图像检测能力为副线 的路线。
这样既能投 AI 应用 / Agent 岗，也能投图像算法 / 视觉算法工程师岗。

2. 岗位画像

2.1 AI Agent / 大模型应用岗位

常见岗位名称：

AI 应用工程师
AI 应用开发工程师
LLM Agent 开发工程师
AI Agent 智能体开发工程师
大模型应用工程师
算法工程师（大模型 / AI 应用方向）

常见工作内容：

基于大语言模型开发智能问答、知识库、AI 助手、多轮对话系统。
基于 RAG 架构完成企业知识库、文档问答、报告生成等应用。
使用 Dify、LangChain、LlamaIndex、FastGPT 等框架搭建 Agent。
接入 LLM API，实现工具调用、业务流程自动化、工作流编排。
参与模型选型、Prompt 优化、微调、部署和效果评估。
将 AI 能力接入企业已有系统，例如 OA、CRM、客服、文档系统、数据分析系统等。

常见能力关键词：

Python
FastAPI / Flask
LLM
Prompt Engineering
RAG
Agent
LangChain / LangGraph
LlamaIndex
Dify / FastGPT / Coze
向量数据库
Embedding
Rerank
Function Calling / Tool Calling
Qwen / Llama / DeepSeek
LoRA / SFT
Docker
API 集成

2.2 图像算法 / 目标检测岗位

常见岗位名称：

图像算法工程师
视觉算法工程师
计算机视觉工程师
目标检测算法工程师
机器视觉算法工程师
视频图像算法工程师
图像识别算法工程师

常见工作内容：

负责图像分类、目标检测、图像分割、OCR、行为识别、目标跟踪等算法研发。
针对交通、电力、工业检测、医疗影像、机器人等场景做模型训练和优化。
完成数据采集、标注、清洗、训练、评估、部署全流程。
使用 OpenCV、PyTorch、TensorFlow 等工具实现图像处理和深度学习算法。
将模型部署到服务器、边缘设备、嵌入式芯片或工业现场。
优化模型推理速度、准确率、误检率、漏检率。

常见能力关键词：

Python
C++ / OpenCV
PyTorch / TensorFlow
CNN
Transformer
YOLO
RT-DETR
Faster R-CNN
Mask R-CNN
SAM
OCR
DeepSORT / ByteTrack
ONNX
TensorRT
OpenVINO
模型量化
视频流处理
mAP / IoU / NMS / Precision / Recall

3. 你需要具备的核心能力

3.1 通用编程能力

必须掌握：

Python 基础语法、面向对象、异常处理、文件处理。
常用数据结构：list、dict、set、tuple、queue、heap。
NumPy、Pandas 的基础数据处理。
熟悉 Git，能管理自己的项目代码。
熟悉 Linux 基础命令。
能写清晰的 README、接口文档和实验记录。

建议掌握：

FastAPI 或 Flask。
SQL 基础。
Redis 基础。
Docker 基础。
简单前端页面或 Streamlit / Gradio，用于展示 AI 项目。

3.2 深度学习基础

必须掌握：

神经网络基本概念：前向传播、反向传播、梯度下降。
常见损失函数：交叉熵、MSE、Dice Loss、Focal Loss。
优化器：SGD、Adam、AdamW。
过拟合、欠拟合、正则化、Dropout、BatchNorm。
训练集、验证集、测试集的划分。
PyTorch 基本使用：Dataset、DataLoader、Module、训练循环、保存和加载模型。

建议掌握：

CNN 经典结构：LeNet、AlexNet、VGG、ResNet、MobileNet。
Transformer 基本结构：Attention、Self-Attention、Encoder、Decoder。
模型评估和实验对比方法。

3.3 AI Agent / 大模型应用能力

必须掌握：

LLM 基本原理：Token、上下文窗口、温度、采样、系统提示词。
Prompt Engineering：角色设定、任务拆解、Few-shot、结构化输出。
RAG 流程：文档解析、切块、Embedding、向量检索、Rerank、生成答案。
向量数据库：FAISS、Milvus、Chroma、pgvector 至少熟悉一个。
Agent 基础：工具调用、任务规划、多轮记忆、工作流编排。
至少熟悉一个 Agent 框架：LangChain、LangGraph、LlamaIndex、Dify。
API 集成：OpenAI API、DeepSeek API、Qwen API 或本地模型接口。

建议掌握：

Function Calling / Tool Calling。
多 Agent 协作。
RAG 评估：召回率、答案准确率、引用命中率、幻觉率。
本地模型部署：Ollama、vLLM、LM Studio。
微调基础：LoRA、SFT、数据格式构造。

3.4 图像算法 / 目标检测能力

必须掌握：

图像基础：像素、通道、尺寸、颜色空间、图像增强。
OpenCV 基础：读取、保存、裁剪、缩放、滤波、边缘检测、轮廓。
目标检测基本概念：bbox、anchor、IoU、NMS、mAP。
YOLO 系列训练、推理、评估、导出。
数据标注格式：VOC、COCO、YOLO。
数据增强：翻转、缩放、裁剪、颜色扰动、Mosaic、MixUp。
常见问题处理：小目标、遮挡、类别不平衡、误检、漏检。

建议掌握：

图像分割：U-Net、Mask R-CNN、SAM。
目标跟踪：DeepSORT、ByteTrack。
OCR：文本检测、文本识别、PaddleOCR。
模型部署：ONNX、TensorRT、OpenVINO。
边缘部署：Jetson、RKNN、海思、昇腾等了解即可。

4. 推荐学习路线

阶段 1：Python 与工程基础

目标：能独立写一个可运行的小型后端项目。

学习内容：

Python 基础语法
面向对象
文件与 JSON 处理
requests
FastAPI
Git
Linux
Docker 基础

阶段产出：

做一个 FastAPI 后端服务。
提供上传文件、查询数据、调用外部 API 的接口。
写 README，说明如何启动和测试。

阶段 2：RAG 与大模型应用

目标：能做出一个企业知识库问答系统。

学习内容：

LLM API 调用
Prompt Engineering
文档解析
文本切块
Embedding
向量数据库
Rerank
RAG 效果评估

阶段产出：

做一个「本地知识库问答系统」。
支持 PDF / Markdown / Word 文档上传。
回答时能展示引用来源。
能对错误回答做分析和优化。

阶段 3：Agent 应用开发

目标：能做出一个会调用工具、能完成任务链路的 Agent。

学习内容：

LangChain 或 LangGraph
Tool Calling
Agent 工作流
多轮记忆
任务拆解
Dify 工作流
错误重试和日志记录

阶段产出：

做一个「求职助手 Agent」或「学习规划 Agent」。
能读取简历、分析岗位 JD、输出匹配度和学习建议。
能调用搜索、文件读取、知识库问答等工具。

阶段 4：目标检测项目

目标：能完整跑通图像检测项目全流程。

学习内容：

OpenCV
PyTorch
YOLO
数据标注
模型训练
mAP 评估
误检 / 漏检分析
ONNX 导出

阶段产出：

做一个「目标检测项目」。
自己准备数据集，完成标注、训练、评估、推理展示。
输出实验报告，包括数据集情况、模型指标、失败案例、优化方案。

阶段 5：部署与项目包装

目标：让项目看起来像真实可交付系统。

学习内容：

Docker
FastAPI 部署
Streamlit / Gradio 展示
ONNX Runtime
TensorRT 入门
日志与配置管理
项目 README 写作

阶段产出：

每个项目都能一键启动。
每个项目都有清晰 README。
每个项目都有演示截图、核心功能、技术栈、难点和优化点。

5. 推荐作品集

项目 1：企业知识库 RAG 系统

定位：投 AI 应用工程师、LLM Agent 开发工程师。

功能建议：

文档上传
文档解析
向量化
语义检索
Rerank
问答生成
引用来源展示
多轮对话
后台接口

技术栈建议：

Python
FastAPI
LangChain / LlamaIndex
FAISS / Chroma / Milvus
OpenAI / DeepSeek / Qwen API
Streamlit / Gradio
Docker

简历写法示例：

基于 RAG 架构实现企业知识库问答系统，支持多格式文档解析、向量检索、重排序和引用来源展示；通过切块策略优化和 Rerank 模型提升答案准确率，使用 FastAPI 封装后端服务并通过 Docker 部署。

项目 2：AI Agent 求职助手

定位：投 Agent 应用开发岗位。

功能建议：

上传简历
输入岗位 JD
分析岗位匹配度
输出能力差距
生成学习计划
自动整理面试题
调用知识库或搜索工具

技术栈建议：

Python
LangGraph / LangChain
Tool Calling
FastAPI
向量数据库
LLM API

简历写法示例：

设计并实现基于 LangGraph 的求职分析 Agent，支持简历解析、岗位 JD 匹配、能力差距分析和学习计划生成；通过工具调用和状态图编排完成多步骤任务，并对模型输出进行结构化约束和异常重试。

项目 3：目标检测完整项目

定位：投图像算法工程师、视觉算法工程师。

功能建议：

数据采集
数据标注
模型训练
指标评估
失败案例分析
视频推理
ONNX 导出
Web 或桌面端演示

技术栈建议：

Python
PyTorch
YOLO
OpenCV
LabelImg / Roboflow / CVAT
ONNX Runtime
FastAPI / Gradio

简历写法示例：

基于 YOLO 完成目标检测项目，从数据标注、训练、评估到部署全流程实现；针对小目标和误检问题进行数据增强、类别重采样和阈值优化，并导出 ONNX 模型用于实时推理。

项目 4：视觉巡检 Agent

定位：同时覆盖 AI Agent 和图像算法。

功能建议：

视频帧抽取
目标检测
异常事件识别
LLM 生成巡检报告
Agent 调用检测工具、查询历史记录、输出处置建议

技术栈建议：

YOLO
OpenCV
FastAPI
LangChain / LangGraph
RAG
向量数据库

简历写法示例：

构建视觉巡检 Agent，将目标检测模型与大语言模型工作流结合，实现视频异常识别、历史案例检索和巡检报告生成；系统支持检测工具调用、结果结构化解析和可视化展示。

6. 面试高频问题

AI Agent / RAG 方向

RAG 的完整流程是什么？
为什么需要 Rerank？
如何减少大模型幻觉？
文档切块策略怎么设计？
向量数据库和普通数据库有什么区别？
Agent 和普通 Chatbot 有什么区别？
Function Calling 是什么？
LangChain / LangGraph 的核心概念是什么？
如何评估一个 RAG 系统的效果？
大模型应用上线后如何监控成本和质量？

图像算法 / 目标检测方向

YOLO 的基本原理是什么？
IoU、NMS、mAP 分别是什么？
如何处理小目标检测效果差的问题？
如何处理误检和漏检？
数据增强有哪些方法？
训练集和测试集应该怎么划分？
检测模型如何部署到生产环境？
ONNX 和 TensorRT 有什么作用？
OpenCV 常用操作有哪些？
图像分割和目标检测有什么区别？

7. 简历关键词

AI Agent 方向：

RAG
Agent
LangChain
LangGraph
LlamaIndex
Dify
Prompt Engineering
Tool Calling
Function Calling
向量数据库
Embedding
Rerank
FastAPI
Docker
Qwen / DeepSeek / Llama

图像算法方向：

YOLO
PyTorch
OpenCV
目标检测
图像分割
OCR
目标跟踪
数据标注
mAP
ONNX
TensorRT
模型量化
视频流处理

8. 优先级建议

如果你的目标是尽快找到南京相关工作，建议按下面顺序学：

Python 工程能力
FastAPI + Docker
RAG 知识库项目
LangChain / LangGraph Agent 项目
YOLO 目标检测项目
ONNX / TensorRT 部署
简历项目包装
面试题复盘

最重要的不是把所有理论都学完，而是尽快做出可以展示的项目。岗位更看重你是否能完成：

从需求到方案
从数据到模型
从模型到接口
从接口到可用系统
从效果不好到分析和优化

9. 近期行动计划

第 1 周

复习 Python。
学 FastAPI。
跑通一个 LLM API 调用 Demo。
整理自己的技术简历初稿。

第 2 周

学 RAG 基础。
做文档解析、切块、Embedding、向量检索。
完成知识库问答系统第一版。

第 3 周

加入 Rerank、引用来源、多轮对话。
优化 RAG 效果。
写项目 README 和演示截图。

第 4 周

学 LangChain 或 LangGraph。
做一个能调用工具的 Agent。
把 Agent 和知识库系统结合。

第 5 周

学 YOLO。
找一个小型检测数据集。
完成训练、评估、推理。

第 6 周

做 ONNX 导出和简单部署。
整理检测项目报告。
准备 AI Agent 和图像算法两版简历。

10. 投递策略

建议优先投递：

AI 应用工程师
AI 应用开发工程师
LLM Agent 开发工程师
大模型应用工程师
图像算法工程师
视觉算法工程师
计算机视觉工程师

投递时注意：

不要只写“学习过大模型”，要写你做过什么系统。
不要只写“熟悉 YOLO”，要写数据、指标、优化、部署。
简历项目最好能有 GitHub / Gitee 地址、截图、README。
同一个项目要准备 1 分钟、3 分钟、10 分钟三个版本的讲法。
面试时重点讲你如何分析问题、如何改进效果、如何工程落地。

wsgnay

探索

AI 与图像算法求职能力地图

AI 与图像算法求职能力地图

1. 求职方向判断

2. 岗位画像

2.1 AI Agent / 大模型应用岗位

2.2 图像算法 / 目标检测岗位

3. 你需要具备的核心能力

3.1 通用编程能力

3.2 深度学习基础

3.3 AI Agent / 大模型应用能力

3.4 图像算法 / 目标检测能力

4. 推荐学习路线

阶段 1：Python 与工程基础

阶段 2：RAG 与大模型应用

阶段 3：Agent 应用开发

阶段 4：目标检测项目

阶段 5：部署与项目包装

5. 推荐作品集

项目 1：企业知识库 RAG 系统

项目 2：AI Agent 求职助手

项目 3：目标检测完整项目

项目 4：视觉巡检 Agent

6. 面试高频问题

AI Agent / RAG 方向

图像算法 / 目标检测方向

7. 简历关键词

8. 优先级建议

9. 近期行动计划

第 1 周

第 2 周

第 3 周

第 4 周

第 5 周

第 6 周

10. 投递策略

关系图谱

目录

反向链接