Cialtion's Tech Blog

Hero Background

Welcome to My Tech World

Sharing insights on LLM, LLM_Memory, Omni, AI Desktop Robot, AI Companion and Anime

Paper Reviews & Analysis

Academic paper reviews, research notes and insights on LLM, AI and cutting-edge technologies

Disclaimer: These notes represent personal viewpoints, and most interpretive content is generated with AI assistance (e.g., Claude 4). There may be understanding biases or factual errors. For reference only.

Explore Papers

In-Depth Reviews

Detailed analysis, benchmarks, and hands-on reviews of the latest AI models, software, and technologies.

Explore Reviews

Open-Source Projects

My personal open-source contributions, libraries, and tools. Feel free to use, fork, and contribute!

Explore Projects

Product Showcases

Showcasing fun and practical AI-powered applications and products I've built or am working on.

Explore Products
Qwen3-8B-Base 性能测试笔记 (完整数据版)

Qwen3-8B-Base 性能测试笔记 (完整数据版)

- 模型: Qwen3-8B-Base - 设备: NVIDIA GeForce RTX 4090 (48G显存版) - 词表大小: 151,643 --- - Prompt 长度: 7 tokens - 生成 Token 数: 287 tokens | 阶段 | 耗时 (ms) | 占比 | 吞吐...

Read More
DPO训练流程深度解析 🎓

DPO训练流程深度解析 🎓

--- 💡 关键理解: - prompt:给模型的输入,相当于"问题" - chosen:人类认为好的完整回答 - rejected:人类认为差的完整回答 - DPO通过对比学习,让模型偏好chosen,避免rejected --- 💡 为什么要拼接? - 语言模型是自回归的,需要完整的上下文 - ...

Read More
Former Notes

Former Notes

日期: 2024-09-22 标签: LLM角色扮演, LLM, TTS, ASR 这是一个基于关键词检测、语音识别、语音合成和对话生成的智能语音助手系统。该系统能够通过特定的唤醒词(如"hey bro")启动与用户的语音对话,并利用先进的自然语言处理技术提供智能回复。 1. 关键词检测: 使用 P...

Read More
RoPE位置编码与现代LLM架构精讲

RoPE位置编码与现代LLM架构精讲

关键洞察链条: 为什么敢冒险替换? 1. 理论保证:数学上等价于学习相对位置 2. 实验验证:小模型上先验证,效果超过baseline 3. 工业推动:BERT后需要更长上下文,RoPE正好解决 4. 开源文化:苏剑林博客详细讲解,降低采用门槛 绝对位置编码的致命缺陷: RoPE的优雅解决方案: -...

Read More
从PPO到DPO的完整理解

从PPO到DPO的完整理解

深入解析LLM中的强化学习算法,包括PPO、DPO、GRPO的工作原理、数学推导、以及工业界应用案例

Read More
LLM LM_HEAD解码加速

LLM LM_HEAD解码加速

深入解析LLM中的强化学习算法,包括PPO、DPO、GRPO的工作原理、数学推导、以及工业界应用案例

Read More
Large Language Model(LLM) Basic introduction

Large Language Model(LLM) Basic introduction

本教程通过追踪张量的形状变化,完整解析大语言模型从用户输入到生成输出的全过程。 - Batch Size (B): 32 - Sequence Length (T): 128 - Embedding Dimension (Dmodel): 512 - Number of Heads (H): 8 -...

Read More
Qwen3架构深度解析:从Base模型到Instruct模型

Qwen3架构深度解析:从Base模型到Instruct模型

全面解析Qwen3模型架构、参数配置、动态序列处理和后训练数据格式(no Coder and MoE)

Read More