AI 与图像算法求职能力地图
整理日期:2026-06-16
目标方向:AI Agent / 大模型应用 / 图像算法 / 目标检测
目标城市:南京
1. 求职方向判断
南京目前和你目标相关的岗位,大致可以分成两条线:
- AI Agent / 大模型应用方向
- 图像算法 / 目标检测 / 计算机视觉方向
整体判断:
- 南京的 AI Agent 岗位更多偏向 应用开发和工程落地,不是纯大模型算法研究。
- 南京的图像算法岗位更多偏向 工业、电力、交通、医疗、机器人、低空无人机等真实业务场景。
- 如果你想提高找工作的成功率,建议采用 AI Agent 应用为主线,图像检测能力为副线 的路线。
- 这样既能投 AI 应用 / Agent 岗,也能投图像算法 / 视觉算法工程师岗。
2. 岗位画像
2.1 AI Agent / 大模型应用岗位
常见岗位名称:
- AI 应用工程师
- AI 应用开发工程师
- LLM Agent 开发工程师
- AI Agent 智能体开发工程师
- 大模型应用工程师
- 算法工程师(大模型 / AI 应用方向)
常见工作内容:
- 基于大语言模型开发智能问答、知识库、AI 助手、多轮对话系统。
- 基于 RAG 架构完成企业知识库、文档问答、报告生成等应用。
- 使用 Dify、LangChain、LlamaIndex、FastGPT 等框架搭建 Agent。
- 接入 LLM API,实现工具调用、业务流程自动化、工作流编排。
- 参与模型选型、Prompt 优化、微调、部署和效果评估。
- 将 AI 能力接入企业已有系统,例如 OA、CRM、客服、文档系统、数据分析系统等。
常见能力关键词:
- Python
- FastAPI / Flask
- LLM
- Prompt Engineering
- RAG
- Agent
- LangChain / LangGraph
- LlamaIndex
- Dify / FastGPT / Coze
- 向量数据库
- Embedding
- Rerank
- Function Calling / Tool Calling
- Qwen / Llama / DeepSeek
- LoRA / SFT
- Docker
- API 集成
2.2 图像算法 / 目标检测岗位
常见岗位名称:
- 图像算法工程师
- 视觉算法工程师
- 计算机视觉工程师
- 目标检测算法工程师
- 机器视觉算法工程师
- 视频图像算法工程师
- 图像识别算法工程师
常见工作内容:
- 负责图像分类、目标检测、图像分割、OCR、行为识别、目标跟踪等算法研发。
- 针对交通、电力、工业检测、医疗影像、机器人等场景做模型训练和优化。
- 完成数据采集、标注、清洗、训练、评估、部署全流程。
- 使用 OpenCV、PyTorch、TensorFlow 等工具实现图像处理和深度学习算法。
- 将模型部署到服务器、边缘设备、嵌入式芯片或工业现场。
- 优化模型推理速度、准确率、误检率、漏检率。
常见能力关键词:
- Python
- C++ / OpenCV
- PyTorch / TensorFlow
- CNN
- Transformer
- YOLO
- RT-DETR
- Faster R-CNN
- Mask R-CNN
- SAM
- OCR
- DeepSORT / ByteTrack
- ONNX
- TensorRT
- OpenVINO
- 模型量化
- 视频流处理
- mAP / IoU / NMS / Precision / Recall
3. 你需要具备的核心能力
3.1 通用编程能力
必须掌握:
- Python 基础语法、面向对象、异常处理、文件处理。
- 常用数据结构:list、dict、set、tuple、queue、heap。
- NumPy、Pandas 的基础数据处理。
- 熟悉 Git,能管理自己的项目代码。
- 熟悉 Linux 基础命令。
- 能写清晰的 README、接口文档和实验记录。
建议掌握:
- FastAPI 或 Flask。
- SQL 基础。
- Redis 基础。
- Docker 基础。
- 简单前端页面或 Streamlit / Gradio,用于展示 AI 项目。
3.2 深度学习基础
必须掌握:
- 神经网络基本概念:前向传播、反向传播、梯度下降。
- 常见损失函数:交叉熵、MSE、Dice Loss、Focal Loss。
- 优化器:SGD、Adam、AdamW。
- 过拟合、欠拟合、正则化、Dropout、BatchNorm。
- 训练集、验证集、测试集的划分。
- PyTorch 基本使用:Dataset、DataLoader、Module、训练循环、保存和加载模型。
建议掌握:
- CNN 经典结构:LeNet、AlexNet、VGG、ResNet、MobileNet。
- Transformer 基本结构:Attention、Self-Attention、Encoder、Decoder。
- 模型评估和实验对比方法。
3.3 AI Agent / 大模型应用能力
必须掌握:
- LLM 基本原理:Token、上下文窗口、温度、采样、系统提示词。
- Prompt Engineering:角色设定、任务拆解、Few-shot、结构化输出。
- RAG 流程:文档解析、切块、Embedding、向量检索、Rerank、生成答案。
- 向量数据库:FAISS、Milvus、Chroma、pgvector 至少熟悉一个。
- Agent 基础:工具调用、任务规划、多轮记忆、工作流编排。
- 至少熟悉一个 Agent 框架:LangChain、LangGraph、LlamaIndex、Dify。
- API 集成:OpenAI API、DeepSeek API、Qwen API 或本地模型接口。
建议掌握:
- Function Calling / Tool Calling。
- 多 Agent 协作。
- RAG 评估:召回率、答案准确率、引用命中率、幻觉率。
- 本地模型部署:Ollama、vLLM、LM Studio。
- 微调基础:LoRA、SFT、数据格式构造。
3.4 图像算法 / 目标检测能力
必须掌握:
- 图像基础:像素、通道、尺寸、颜色空间、图像增强。
- OpenCV 基础:读取、保存、裁剪、缩放、滤波、边缘检测、轮廓。
- 目标检测基本概念:bbox、anchor、IoU、NMS、mAP。
- YOLO 系列训练、推理、评估、导出。
- 数据标注格式:VOC、COCO、YOLO。
- 数据增强:翻转、缩放、裁剪、颜色扰动、Mosaic、MixUp。
- 常见问题处理:小目标、遮挡、类别不平衡、误检、漏检。
建议掌握:
- 图像分割:U-Net、Mask R-CNN、SAM。
- 目标跟踪:DeepSORT、ByteTrack。
- OCR:文本检测、文本识别、PaddleOCR。
- 模型部署:ONNX、TensorRT、OpenVINO。
- 边缘部署:Jetson、RKNN、海思、昇腾等了解即可。
4. 推荐学习路线
阶段 1:Python 与工程基础
目标:能独立写一个可运行的小型后端项目。
学习内容:
- Python 基础语法
- 面向对象
- 文件与 JSON 处理
- requests
- FastAPI
- Git
- Linux
- Docker 基础
阶段产出:
- 做一个 FastAPI 后端服务。
- 提供上传文件、查询数据、调用外部 API 的接口。
- 写 README,说明如何启动和测试。
阶段 2:RAG 与大模型应用
目标:能做出一个企业知识库问答系统。
学习内容:
- LLM API 调用
- Prompt Engineering
- 文档解析
- 文本切块
- Embedding
- 向量数据库
- Rerank
- RAG 效果评估
阶段产出:
- 做一个「本地知识库问答系统」。
- 支持 PDF / Markdown / Word 文档上传。
- 回答时能展示引用来源。
- 能对错误回答做分析和优化。
阶段 3:Agent 应用开发
目标:能做出一个会调用工具、能完成任务链路的 Agent。
学习内容:
- LangChain 或 LangGraph
- Tool Calling
- Agent 工作流
- 多轮记忆
- 任务拆解
- Dify 工作流
- 错误重试和日志记录
阶段产出:
- 做一个「求职助手 Agent」或「学习规划 Agent」。
- 能读取简历、分析岗位 JD、输出匹配度和学习建议。
- 能调用搜索、文件读取、知识库问答等工具。
阶段 4:目标检测项目
目标:能完整跑通图像检测项目全流程。
学习内容:
- OpenCV
- PyTorch
- YOLO
- 数据标注
- 模型训练
- mAP 评估
- 误检 / 漏检分析
- ONNX 导出
阶段产出:
- 做一个「目标检测项目」。
- 自己准备数据集,完成标注、训练、评估、推理展示。
- 输出实验报告,包括数据集情况、模型指标、失败案例、优化方案。
阶段 5:部署与项目包装
目标:让项目看起来像真实可交付系统。
学习内容:
- Docker
- FastAPI 部署
- Streamlit / Gradio 展示
- ONNX Runtime
- TensorRT 入门
- 日志与配置管理
- 项目 README 写作
阶段产出:
- 每个项目都能一键启动。
- 每个项目都有清晰 README。
- 每个项目都有演示截图、核心功能、技术栈、难点和优化点。
5. 推荐作品集
项目 1:企业知识库 RAG 系统
定位:投 AI 应用工程师、LLM Agent 开发工程师。
功能建议:
- 文档上传
- 文档解析
- 向量化
- 语义检索
- Rerank
- 问答生成
- 引用来源展示
- 多轮对话
- 后台接口
技术栈建议:
- Python
- FastAPI
- LangChain / LlamaIndex
- FAISS / Chroma / Milvus
- OpenAI / DeepSeek / Qwen API
- Streamlit / Gradio
- Docker
简历写法示例:
基于 RAG 架构实现企业知识库问答系统,支持多格式文档解析、向量检索、重排序和引用来源展示;通过切块策略优化和 Rerank 模型提升答案准确率,使用 FastAPI 封装后端服务并通过 Docker 部署。
项目 2:AI Agent 求职助手
定位:投 Agent 应用开发岗位。
功能建议:
- 上传简历
- 输入岗位 JD
- 分析岗位匹配度
- 输出能力差距
- 生成学习计划
- 自动整理面试题
- 调用知识库或搜索工具
技术栈建议:
- Python
- LangGraph / LangChain
- Tool Calling
- FastAPI
- 向量数据库
- LLM API
简历写法示例:
设计并实现基于 LangGraph 的求职分析 Agent,支持简历解析、岗位 JD 匹配、能力差距分析和学习计划生成;通过工具调用和状态图编排完成多步骤任务,并对模型输出进行结构化约束和异常重试。
项目 3:目标检测完整项目
定位:投图像算法工程师、视觉算法工程师。
功能建议:
- 数据采集
- 数据标注
- 模型训练
- 指标评估
- 失败案例分析
- 视频推理
- ONNX 导出
- Web 或桌面端演示
技术栈建议:
- Python
- PyTorch
- YOLO
- OpenCV
- LabelImg / Roboflow / CVAT
- ONNX Runtime
- FastAPI / Gradio
简历写法示例:
基于 YOLO 完成目标检测项目,从数据标注、训练、评估到部署全流程实现;针对小目标和误检问题进行数据增强、类别重采样和阈值优化,并导出 ONNX 模型用于实时推理。
项目 4:视觉巡检 Agent
定位:同时覆盖 AI Agent 和图像算法。
功能建议:
- 视频帧抽取
- 目标检测
- 异常事件识别
- LLM 生成巡检报告
- Agent 调用检测工具、查询历史记录、输出处置建议
技术栈建议:
- YOLO
- OpenCV
- FastAPI
- LangChain / LangGraph
- RAG
- 向量数据库
简历写法示例:
构建视觉巡检 Agent,将目标检测模型与大语言模型工作流结合,实现视频异常识别、历史案例检索和巡检报告生成;系统支持检测工具调用、结果结构化解析和可视化展示。
6. 面试高频问题
AI Agent / RAG 方向
- RAG 的完整流程是什么?
- 为什么需要 Rerank?
- 如何减少大模型幻觉?
- 文档切块策略怎么设计?
- 向量数据库和普通数据库有什么区别?
- Agent 和普通 Chatbot 有什么区别?
- Function Calling 是什么?
- LangChain / LangGraph 的核心概念是什么?
- 如何评估一个 RAG 系统的效果?
- 大模型应用上线后如何监控成本和质量?
图像算法 / 目标检测方向
- YOLO 的基本原理是什么?
- IoU、NMS、mAP 分别是什么?
- 如何处理小目标检测效果差的问题?
- 如何处理误检和漏检?
- 数据增强有哪些方法?
- 训练集和测试集应该怎么划分?
- 检测模型如何部署到生产环境?
- ONNX 和 TensorRT 有什么作用?
- OpenCV 常用操作有哪些?
- 图像分割和目标检测有什么区别?
7. 简历关键词
AI Agent 方向:
- RAG
- Agent
- LangChain
- LangGraph
- LlamaIndex
- Dify
- Prompt Engineering
- Tool Calling
- Function Calling
- 向量数据库
- Embedding
- Rerank
- FastAPI
- Docker
- Qwen / DeepSeek / Llama
图像算法方向:
- YOLO
- PyTorch
- OpenCV
- 目标检测
- 图像分割
- OCR
- 目标跟踪
- 数据标注
- mAP
- ONNX
- TensorRT
- 模型量化
- 视频流处理
8. 优先级建议
如果你的目标是尽快找到南京相关工作,建议按下面顺序学:
- Python 工程能力
- FastAPI + Docker
- RAG 知识库项目
- LangChain / LangGraph Agent 项目
- YOLO 目标检测项目
- ONNX / TensorRT 部署
- 简历项目包装
- 面试题复盘
最重要的不是把所有理论都学完,而是尽快做出可以展示的项目。岗位更看重你是否能完成:
- 从需求到方案
- 从数据到模型
- 从模型到接口
- 从接口到可用系统
- 从效果不好到分析和优化
9. 近期行动计划
第 1 周
- 复习 Python。
- 学 FastAPI。
- 跑通一个 LLM API 调用 Demo。
- 整理自己的技术简历初稿。
第 2 周
- 学 RAG 基础。
- 做文档解析、切块、Embedding、向量检索。
- 完成知识库问答系统第一版。
第 3 周
- 加入 Rerank、引用来源、多轮对话。
- 优化 RAG 效果。
- 写项目 README 和演示截图。
第 4 周
- 学 LangChain 或 LangGraph。
- 做一个能调用工具的 Agent。
- 把 Agent 和知识库系统结合。
第 5 周
- 学 YOLO。
- 找一个小型检测数据集。
- 完成训练、评估、推理。
第 6 周
- 做 ONNX 导出和简单部署。
- 整理检测项目报告。
- 准备 AI Agent 和图像算法两版简历。
10. 投递策略
建议优先投递:
- AI 应用工程师
- AI 应用开发工程师
- LLM Agent 开发工程师
- 大模型应用工程师
- 图像算法工程师
- 视觉算法工程师
- 计算机视觉工程师
投递时注意:
- 不要只写“学习过大模型”,要写你做过什么系统。
- 不要只写“熟悉 YOLO”,要写数据、指标、优化、部署。
- 简历项目最好能有 GitHub / Gitee 地址、截图、README。
- 同一个项目要准备 1 分钟、3 分钟、10 分钟三个版本的讲法。
- 面试时重点讲你如何分析问题、如何改进效果、如何工程落地。