03 | 基于 Embedding 的智能汽车推荐系统

发表评论

今天我们将使用大语言模型与 Embedding（向量嵌入）技术，构建智能购车推荐系统。首先，让我们了解一下 Embedding 的基本概念。

1. Embedding 基础

1.1 Embedding 概述

Embedding 是一种将复杂的数据（如文字、图像、声音等）转化为计算机可处理的向量表示的技术。它在自然语言处理、图像识别、语音分析等任务中有广泛应用。

文字处理：Embedding 将单词映射到向量空间中，向量的距离反映了单词之间的语义相似性。例如，“苹果”和“橘子”的向量可能非常接近，表示它们在语义上是相似的。
图像处理：Embedding 会提取图像中的关键特征（如颜色、形状、风格等），并将这些特征映射为向量。基于这些向量，计算机可以进行图像分类、相似性匹配等操作。
语音处理：Embedding 分析声音的音调、节奏、音色等特征，将其转化为向量，使计算机能有效地进行语音识别和分析。

Embedding 的优势在于：

简化复杂信息：Embedding 将高维信息转化为低维向量，便于计算机高效处理。
增强语义理解：通过向量的距离，计算机可以更好地理解语义相似的内容。
分块处理长文本：Embedding 可以帮助处理长文本，并生成连贯的输出。

这些向量是通过大规模数据训练得到的，捕捉了传统方法难以理解的深层语义关系。

1.2 Embedding 与传统分词的区别

1.2.1 表示方式

传统分词：根据词汇和语法规则将文本拆分为独立的词，词语以离散符号形式表示，彼此之间没有数值关系。
Embedding：将词语映射到向量空间，每个词语对应一个多维向量，向量维度根据任务需求设定，常见的有 100 维或 300 维。

1.2.2 语义信息的体现

传统分词：分词只是简单的文本拆分，无法体现词语之间的语义关系。例如，“苹果”和“橘子”虽然都是水果，但分词后没有语义上的联系。
Embedding：通过向量的距离体现词语的语义相似性。语义相近的词汇向量距离更近，例如“高兴”和“快乐”的向量比“汽车”的向量距离更近。

1.2.3 对下游任务的影响

传统分词：适用于简单的文本匹配和规则分析，但难以捕捉复杂语义关系，在深度学习任务中的效果有限。
Embedding：向量蕴含丰富的语义信息，适用于文本分类、情感分析、机器翻译等任务，有助于提升模型的理解力和任务性能。

2.

… 阅读全文

02 | 解锁高效周报生成：Prompt工程实战与大模型优化指南

发表评论

在当今数字化浪潮中，大模型技术正以前所未有的速度渗透进工作生活的诸多领域，重塑着我们处理事务的方式。于职场而言，撰写周报是一项周期性且至关重要的工作，它既是对过往一周工作的复盘梳理，也是为后续工作铺就规划路径的关键环节。然而，手工撰写周报往往耗费大量时间精力，还可能因表述疏漏、重点失焦等问题，影响信息传递效果。此时，借助大模型的强大能力，并运用精巧设计的Prompt工程，恰似为我们打开了一扇通往高效、精准周报生成的便捷之门。本文将以构建一个周报小助手为切入点，深入探究如何施展Prompt工程“魔法”，让大模型输出更契合我们心意、更具价值的周报内容，同时分享一系列优化大模型回答表现的实用策略与技巧。

周报小助手诞生记：基础搭建篇

（一）素材筹备：精心准备日报数据

要打造周报小助手，第一步便是为其准备充足且有序的“弹药”——日报数据。在我们专属的开发目录下，需精心构筑一个存放日报文件的“专区”，且统一规范为txt格式，其目录架构仿若一座层次分明的信息“楼阁”：

|-- 02_prompt_engineering_weekly_report_helper.ipynb
|-- daily
   |-- 1.txt
   |-- 2.txt
   |-- 3.txt
   |-- 4.txt
   `-- 5.txt

这些日报文件绝非空洞无物，而是承载着一周工作点滴的“时光宝盒”。每份日报里，详实记录了当日工作的成果收获、遭遇难题以及对明日工作的清晰规划，就像一部部微型工作“纪录片”。你既可以依据自身日常工作的实际轨迹，原汁原味地录入内容，将项目推进细节、会议研讨要点、技术攻克历程等逐一呈现；也可凭借自身工作积累与经验，快速填充起这些日报文件，为后续周报生成筑牢根基。

（二）数据整合：读取日报并“编织”内容纽带

有了日报素材，紧接着便是编写“魔法代码”，将分散的日报信息汇聚成连贯一体的“信息流”。在此，我们精心打造一个名为get_daily_content的专属方法，它宛如一位勤勉的“信息工匠”，专注于遍历日报目录下的每份文件，逐字逐句读取其中内容，并巧妙拼接整合，最终编织成一条完整的、以换行符相隔的文本“纽带”。以下便是这段充满“匠心”的代码片段：

import os  # 引入系统交互“神器”，赋予代码与操作系统对话之力，自如穿梭文件目录间

def get_daily_content() -> str:
    daily_dir = "./daily/"  # 精准锚定日报文件的“栖息之所”，为后续读取指明方向
    daily = []  # 初始化一个“收纳盒”，静候日报内容“入住”
    
    # 调遣os模块的listdir“侦察兵”，全面搜罗日报目录下的所有“文件居民”
    files = os.listdir(daily_dir)

… 阅读全文

01 | 基于 OpenAI SDK 开发一个自己的 GPT

发表评论

在当今人工智能快速发展的时代，构建属于自己的聊天机器人已经变得越来越容易。本文将详细指导你如何使用 OpenAI SDK 和 Gradio 库，从零开始开发一个功能强大且交互友好的类 ChatGPT 应用。

前置条件

开始之前，请确保你已准备好：

OpenAI API KEY（可在 OpenAI 官网申请）
Python 开发环境（推荐使用 Python 3.8 或更高版本）
基本的 Python 编程知识

开发步骤

Step 1: 安装依赖库

首先，我们需要安装必要的依赖库。在命令行或终端中运行以下命令：

pip install openai
pip install gradio
pip install python-dotenv

Step 2: 使用 OpenAI SDK 进行文本生成

下面是一个简单的示例代码，展示了如何与 OpenAI API 交互：

from openai import OpenAI
from dotenv import load_dotenv
import os

load_dotenv()

# 初始化 OpenAI 客户端
client = OpenAI(
    api_key=os.getenv("OPENAI_API_KEY")

… 阅读全文

世界，您好！

1条回复

欢迎使用 WordPress。这是您的第一篇文章。编辑或删除它，然后开始写作吧！… 阅读全文

翊行代码

翊码行远，仰观星辰 ——用代码丈量世界，以仰望探索未知

03 | 基于 Embedding 的智能汽车推荐系统

1. Embedding 基础

1.1 Embedding 概述

1.2 Embedding 与传统分词的区别

1.2.1 表示方式

1.2.2 语义信息的体现

1.2.3 对下游任务的影响

2.

02 | 解锁高效周报生成：Prompt工程实战与大模型优化指南

周报小助手诞生记：基础搭建篇

（一）素材筹备：精心准备日报数据

（二）数据整合：读取日报并“编织”内容纽带

01 | 基于 OpenAI SDK 开发一个自己的 GPT

前置条件

开发步骤

Step 1: 安装依赖库

Step 2: 使用 OpenAI SDK 进行文本生成

世界，您好！