Just for Life.

CUFX(CUDA Framework eXtended)： CUDA 计算框架

2024-08-04T06:31:33.000Z

利用下班时间学完了 CUDA，Anyway 忙起来真的很大程度能缓解焦虑，能忘记和忽略很多烦恼。所以寻思着结合这一年来所学，写了一个简单的 CUDA 计算框架：CUFX。

目录结构

├── CMakeLists.txt                                      # 根目录 CMakeLists.txt
├── README.md
├── build_run.sh                                        # 编译运行脚本
├── inc                                    # 外部接口，外部可见
│   ├── data_type                                       # 数据类型
│   │   └── data_type.cuh
│   ├── log                                             # 日志声明
│   │   └── log.cuh                                     
│   ├── matrix                                          # 矩阵声明
│   │   └── matrix.cuh 
│   └── operator                                        # cuda 算子
│       └── external.cuh
├── priv                                   # 内部接口，不对外提供
│   ├── runtime                                         # 运行时信息
│   │   ├── inc
│   │   │   └── runtime_info.cuh
│   │   └── src
│   │       └── runtime_info.cu
│   └── time                                            # 计时函数
│       └── inc
│           └── clock.cuh
├── src                                     # 实现代码目录
│   ├── CMakeLists.txt
│   ├── log                                             # 日志函数实现
│   │   └── log.cu
│   ├── matrix                                          # 矩阵函数实现
│   │   └── matrix.cu
│   ├── reductsum                                       # 归约求和算子
│   │   ├── inc
│   │   └── src
│   │       └── reduct_sum.cu
│   └── transpose
└── test                                    # 测试目录
    ├── CMakeLists.txt
    ├── inc                                             # 测试模块代码
    │   ├── compare.cuh
    │   └── testcase.cuh
    ├── main.cu                                         # 程序入口，执行测试样例
    └── testcase                                        # 测试用例
        └── reduct_sum_testcase.cu

从上面的目录结构可以看出来这个计算框架分几大模块：

inc 是声明的头文件，包括数据类型、矩阵、日志、算子等
priv 是对内的头文件，运行时信息，计时函数等
src 是所有的实现代码
test 是测试代码，GPU 的执行结果和 CPU 进行比对

可以开发一些算子，比如高斯滤波，图像翻转等。那么这个框架就可以用于高性能计算的落地和部署了，比如：

1. 读取图片
2. 颜色变换
3. 图像翻转
4. 模型推理
5. 后处理
5. 结果输出

除了模型推理这一步，其余颜色变换、后处理都可以写一些 cuda 算子来进行加速和优化。或者，你可以把 CUFX 理解为一个 OpenCV，不过目前还没那么多功能和接口。

TODO

线程池，这个网上很多，可以实现后添加进去
内存池，对 CUFX 内部的内存进行管理，避免碎片化，打印内存使用详情等信息
可以添加一些优雅的 C++ 实现，比如最近在学模板的特化和偏特化，也许哪天就加进去了
一些高性能 cuda 算子，核心也是灵魂，写好需要花很多时间

~~如果我上学的时候会这些多好啊，我就慢慢的每天学习一些新知识，然后添加代码，面试还能吹牛逼。~~

重返C++：从 ref 挖到移动语义，在从 forward 挖到可变参数模板

2024-06-28T14:32:24.000Z

C++ 漫游的第一部分，起因源于项目中错误的使用 std::ref 和 std::fowrad 导致了一些神奇的 bug。而 std::ref 又涉及到了引用，左右值引用又会联想到移动语义，std::forward 又常用于模板。所以以此为契机，不如仔细学习一下 C++ 中的新特性。

std::ref 用法

将一个对象作为引用传递给函数或算法，而不是按值传递。

用于 bind

std::bind 使用的是参数的拷贝而不是引用，因为 std::bind 使用的是参数的拷贝而不是引用，会拷贝参数而不是引用。因此必须显示利用 std::ref 来进行引用绑定。

#include 
#include 

void func(int& n1, int& n2) {
    std::cout << " ============ in function ============" << std::endl;
    n1 ++;
    n2 ++;
    std::cout << " n1 = " << n1 << " n2 = " << n2 << std::endl;
}

int main() {
    int n1 = 1, n2 = 2;
    std::function<void()> f = std::bind(func, n1, std::ref(n2)); // 已经按值绑定
    
    n1 = 10;
    n2 = 12;
    
    std::cout << " ============== before ============= " << std::endl;
    std::cout << " n1 = " << n1 << " n2 = " << n2 << std::endl;
    
    f();
    
    std::cout << " ============== after ============= " << std::endl;
    std::cout << " n1 = " << n1 << " n2 = " << n2 << std::endl;

    return 0;
}

输出：

============== before ============= 
n1 = 10 n2 = 12
============ in function ============
n1 = 2 n2 = 13
============== after ============= 
n1 = 10 n2 = 13

用于线程传参

std::thread 的构造函数基于了 bind，因此会将提供的值进行拷贝，而不会转换为预期的参数类型。如果形参声明为引用，而不传入引用，不写 ref 时会报错哦～

#include 
#include 
#include 

void func(std::string& str, int v) {
    str = "func";
    v = 12;
}

int main() {
    std::string str("main");
    int v = -12;

    std::thread t(func, std::ref(str), v);

    t.join();

    std::cout << str << std::endl;
    std::cout << v << std::endl;

    return 0;
}

左值和右值

左值：在程序中可以被寻址、具有持久存储位置的表达式。换句话说，表示一个内存位置，用于赋值表达式的左侧，可以是变量、数组或者引用等。在内存中有固定的存储位置，编译器会为其分配内存，并将地址存储到符号表中。所以在程序运行时，左值有具体的内存位置，可以通过地址访问和修改。
右值：在程序中不可寻址、临时存储在寄存器中的表达式。通常是字面值、临时变量或者结算结果。不能用于赋值表达式的左侧。由于存储在寄存器或栈上，没有固定的内存位置。当编译器遇到右值时，不会为其分配内存，在内存中没有固定的位置，不能用于赋值表达式的左侧。

左值示例

1
2
3

int a = 10;
int& b = a;
b = 17;    // a 会被修改为 17

以下是错误的写法：

int a = 10;
const int& b = a;
b = 17;    // b 不能修改

const int a = 10;
int& b = a;  // 错误，必须为 const

在下面的例子中，表达式 a + b 是一个右值，表达临时的计算结果，在内存中没有固定的存储位置。

1
2
3

int a = 42;  
int b = a;     
int c = a + b;

在下面的例子中：

int v = func()，创建一个左值，并赋值为引用中的值，因此修改 v 时，不会修改全局变量 val
而 int& v = func()，会创建 val 的引用，因此修改 v 时会修改全局变量 val

#include 
#include 

int val = -1;

int& func() {
    return val;
}

int main()
{
    int v = func();   // 不会修改
    int& v = func();  // 会修改

    v = 1;

    std::cout << val << std::endl;

    return 0;
}

右值引用与移动语义

在下面的例子中，a_ref * 2 是临时的右值，绑定到右值引用上。因此 b 的值为 26。

int a = 1;
int& a_ref = a;

a = 13;
int&& b = a_ref * 2;
std::cout << b << std::endl;

既然了解了右值引用，那么来看一下移动语义吧。下面是一个较长的使用右值引用完成移动语义的的例子：主要目的是优化临时对象的资源转移，避免不必要的拷贝动作。

#include 

class MyString{
public:

    MyString() = default;
    MyString(int* d) : _data{d} {
        std::cerr << "default construct" << std::endl;
    };

    MyString& operator=(const MyString& other) noexcept {
        this->_data = other._data;
        std::cerr << "called copy assignment" << std::endl;
        return *this;
    }

    MyString(MyString &&other) noexcept {
        _data = other._data;
        other._data = nullptr;
        std::cerr << "called move construct" << std::endl;
    }

    MyString& operator=(MyString&& other) noexcept {
        if (this != &other) {
            delete _data;
            this->_data = other._data;
            other._data = nullptr;
        }
        std::cerr << "called move assignment" << std::endl;
        return *this;
    }

private:
    int *_data = nullptr;
};

MyString func()
{
    int* d = new int();
    MyString a{d};
    return a;
}

int main()
{
    MyString a1 = func();  // RVO，直接调用默认构造函数，构造到 a1
    MyString a2;
    a2 = func();           // 默认构造后，函数返回值是临时对象，属于右值，所以调用移动赋值
    return 0;
}

对于第 46 行代码，由于 RVO （return value optimization，返回值优化）的存在，那么返回值将直接构造在 main 函数中的 a1 对象中，而不是在 func 函数内部创建一个临时对象并将其复制或移动到 a1 中。因此，RVO 不会调用移动构造函数或复制构造函数。

此外观察代码的 25 行，移动构造没有删除自己的 data 指针，而移动赋值删除了自己的 data 指针。这是因为：

移动赋值操作符需要释放资源是因为在进行移动赋值操作时，运算表达式的左侧通常已经拥有了资源。
而移动构造函数用于构造新对象，新对象的 data 指针并不拥有资源。

左右值重载

我们实现一份左右值重载的函数：

void printValue(const int& x) {
    std::cout << "lvalue ref: " << x << std::endl;
}

void printValue(int&& x) {
    std::cout << "rvalue ref: " << x << std::endl;
}

int main() {
    int a = 42;
    printValue(a);       // lvalue ref
    printValue(a * 2);   // rvalue ref
}

通过这些方法，我们可以充分利用左值和右值的特性，编写更高效、易于维护的代码。同时，我们还可以在特定情况下针对左值和右值的性能差异进行相应的优化。如 vector 的 push_back 函数，传入左值时，会调用拷贝构造，传入右值时，调用移动构造。

vector v;

Class c;         // default construct
v.push_back(c);  // copy construct
v.push_back(std::move(c))  // move construct

完美转发

在前文中已经实现了左右值重载的代码，但是这份代码存在一些风险，来看下面的代码示例：如果通过一个中间层 func 去调用重载的 foo 函数（这在线程池中是很常见的行为），则不管对 func 传入的是左值还是右值，一定会调用左值的函数。虽然 func 函数传入的是右值，但是右值引用 param 是一个左值，所以会调用 foo(std::string& s) 函数。

#include 

void foo(std::string& s) {
    std::cout << " left value ref " << s << std::endl;
}

void foo(std::string&& s) {
    std::cout << "right value ref " << s << std::endl;
}

void func(std::string&& param) {
    foo(param);
}

int main() {
    std::string s{"sad"};
    func(s);         // left value ref test
    func("test");    // left value ref test
    return 0;
}

万能引用

也许你会注意到，在 func 函数中，参数的写法为：std::string&& param，考虑一种情况，如果 func 的参数很多，比如有 n 个，那么 func() 函数就需要 2 的 n 次方个 fun() 函数，显然这不是一个好方法。也就是基于此，才有了万能引用，如果用万能引用的方式，则只需一个函数即可，如下：

1 2	template<typename T> void func(T&& param)

如果一个变量或者参数被声明为类型 T&&，且 T 是一个被推导的类型，那这个变量或参数就是一个万能引用。

引用折叠

考虑以下代码：

template<typename T>
void func(T&& param) { // a为万能引用
  // do sth
}

int main() {
  int a = 1;
  int &b = a;
  fun(a); // OK
  fun(1); // OK
  fun(b);
}

从上述代码可看，b 的类型为左值引用即 int &，如果不考虑引用折叠，那么 fun() 函数中 t 的类型就是 int & &&，显然这种声明方式，编译器会报错。而这里编译器却允许在一定的情况下进行隐含的多层引用推导，这就是 reference collapsing (引用折叠)。C++ 中有两种引用（左值引用和右值引用），因此引用折叠就有四种组合。如果两个引用中至少其中一个引用是左值引用，那么折叠结果就是左值引用；否则折叠结果就是右值引用。

using T = int &;
T& r1;  // int& & r1 -> int& r1  
T&& r2; // int& && r2 -> int& r2     

using U = int &&;
U& r3;  // int&& & r3 -> int& r3  
U&& r4; // int&& && r4 -> int&& r4

完美转发

了解了这么多背景，如何让 func 函数正确工作呢？答案是使用完美转发 forward。std::forward 能够保留传给形参 param 的实参的全部信息。func(param); 中参数 param 是左值，那么 func 传给函数 foo 的就是左值；func(foo + "bar"); 中参数 foo + "bar" 是右值，那么 func 传给函数 foo的就是右值。

#include 

void foo(std::string& s) {
    std::cout << " left value ref " << s << std::endl;
}

void foo(std::string&& s) {
    std::cout << "right value ref " << s << std::endl;
}

template<typename T>
void func(T&& param) {
    foo(std::forward(param));
}

int main() {
    std::string s{"val1"};
    func(s);
    func("val2");
    return 0;
}

而完美转发的引用也必须满足以下几个条件：

std::forward 只能用于模板类型和 auto 类型，不能用于普通类型；
std::forward 只有在函数模板中才有意义，因为只有函数模板才能推导出参数的具体类型，从而进行转发；
std::forward 的参数必须是一个万能引用，否则会导致编译错误。

额外的，forward 的外观非常具有迷惑性，又是尖括号又是圆括号的。实际上，forward 的用法非常单一：永远是 forward(t) 的形式，其中 T 是 t 变量的类型。利用同样是 C++11 的 decltype 就能获得 t 定义时的 T。

1
2
3

void some_func(auto &&arg) {
    other_func(std::forward<decltype(arg)>(arg));
}

所以 std::forward(arg) 实际才是 forward 的正确用法，只不过因为大多数时候你是模板参数 Arg &&，有的人偷懒，就把 decltype(arg) 替换成已经匹配好的模板参数 Arg 了，实际上是等价的。我们可以定义一个宏：

1	#define FWD(arg) std::forward(arg)

这样就可以简化为：

1
2
3

void some_func(auto &&arg) {
    other_func(FWD(arg));
}

构造函数的扩展

完美转发的东西到这里就结束了，但是看到上面满天飞的构造和赋值函数，结合 vecotr 等容器使用时很容易出错，或者说导致不必要的开销。因此额外在这里扩展一些内容：

#include 
#include 

class T {
public:
    int a;
    T() {std::cerr << " default construct " << std::endl;};
    T(const T& t) {std::cerr << " copy construct " << std::endl;}
    T(const T&& t) {std::cerr << "move construct" << std::endl;}
    T& operator=(const T& t) {
        if (this != &t) {
            a = t.a;
        }
        return *this;
    }
    T& operator=(T&& t) {
        if (this != &t) {
            a = t.a;
        }
        return *this;
    }
};

int main() {
    // Write C++ code here
    std::vector v1;
    std::vector v2;    // 指针类型

    T *t = new T();        // 调用 default construct
    v1.push_back(t);

    v2 = v1;               // 不调用任何构造函数  

    // -------------------------

    std::vector v3;     // 值类型
    std::vector v4;

    v3.reserve(10);
    v4.reserve(10);

    T t1;                  // 调用 default construct
    v3.push_back(t1);      // 将 t1 赋值给 vector 内部的元素，需要调用一次 copy construct
    v3.emplace_back();     // 调用一次默认构造，优于上面的两行代码

    v4 = v3;               // 将 v3 中的元素赋值给 v4，需要调用两次 copy construct

    return 0;
}

因此更建议在 vector 中使用指针，或者使用 emplace_back。函数可以在容器中直接构造对象，而不是将对象拷贝或移动到容器中。这可以提高插入性能，特别是对于那些昂贵的拷贝操作或右值资源转移的对象。但是很多项目中 vector 的 emplace_back 用法不恰当，这会调用很多次拷贝构造，导致资源的移动：

vector v;
for (int i = 0; i < n; i++) {
    v.emplace_back(Mat(size, elem_type, ...));
}

正确用法：

#include 
#include 

class Test {
public:
    Test() = delete;
    int x, y;
    Test(int a, int b) : x{a}, y{b} {
        std::cerr << "default cons" << std::endl;
    };

    Test(Test&& a) noexcept {
        std::cerr << " move cons " << std::endl;
    };
};

int main() {
    std::vector v1;
    v1.reserve(2);
    v1.emplace_back(1, 2);       // 正确
    v1.emplace_back(Test(3, 4)); // 错误，多走一次移动构造
    return 0;
}

但是当 vector 内元素不是指针时：对于数据拷贝开销较大的对象，移动构造函数必须标注 noexcept 关键字，否则扩容时会走拷贝构造带来开销。因为当 push_back、insert、reserve、resize 等函数导致内存重分配时，或当 insert、erase 导致元素位置移动时，vector 会试图把元素“移动”到新的内存区域。vector 通常保证强异常安全性，如果元素类型没有提供一个保证不抛异常的移动构造函数，vector 通常会使用拷贝构造函数。因此，对于拷贝代价较高的自定义元素类型，我们应当定义移动构造函数，并标其为 noexcept。额外的，上面的代码之中：如果我提供了移动构造函数而没有手动提供拷贝构造函数，那后者自动被禁用。

可变参数模板

也许已经看到了，完美转发通常会配合模板一起使用。我对模板的认知仅限于以下简单的函数：

template <typename T>
T add(const T& a, const T& b) {
    return a + b;
}

int main() {
    int result1 = add(1, 2); // 实例化为 int 类型的 add 函数
    double result2 = add(1.5, 2.5); // 实例化为 double 类型的 add 函数
}

那么在文章末尾，将学习一些模板的入门用法：可变参数模板。来看一个代码例子：

#include  

template<typename T> 
void print_sum(T a, T b) { 
    std::cout << " a + b = " << a + b << std::endl; 
}

template <typename Func, typename... Args> 
auto perfect_forward(Func&& func, Args&&... args) { 
    return func(std::forward(args)...); 
} 

int main() { 
    perfect_forward(print_sum<int>, 2, 3); 
}

写到这里，感觉代码难度忽然有所提升，主要的难点是perfect_forward 这个函数，而他常出现在各种线程池中或者作为中间层被调用，还是有必要来学习一下。

函数相关

首先使用 Func&& func 以万能引用的形式来接收一个函数，这个在上一节介绍过。

使用 func(std::forward(args)...) 来调用函数，并获取返回值。其中，std::forward(args)... 是可变参数模板，能接收任意长度的参数。在这里的意思就是将函数的参数，也就是 2 和 3 以完美转发的形式传递给 func 函数，执行后获取返回值。那么接下来看一看 args... 到底是个什么。

参数包

可变参数模板和普通模板在语义上是一样的，但是在写法上有所区别：在 typename 后面添加省略号：

1	template<typename ... Args>

这就表示 Args 是一个模板参数包，其中可能包含了 0 个或者多个模板参数。而随后的 Args&&... args 就是函数参数包，以万能引用的形式来接收参数。看一个简单的例子：

#include  

template<typename ... Args> 
void func(Args ... args) {
    std::cout << sizeof...(args) << std::endl; 
} 

int main() { 
    func(); // 0 
    func(1); // 1 
    func(1, 2, 3, 4); // 4 
    func(2, "test"); // 2 
    return 0; 
}

另外，... 可以接受 0 个或者任意数量的参数，但是可以通过添加一个额外的类型参数，强制模板必须接受一个参数：

template<typename Head, typename ... Args> 

void func(Head h, Args ... args) { 
    std::cout << sizeof...(args) << std::endl; 
} 

int main() {
    func(1); // 0 
    func(1, 2, 3, 4); // 3 
    func(2, "test"); // 1
    return 0; 
}

参数包展开

递归展开

#include  

template<typename T> 
T sum(T val) { 
    return val; 
} 

template<typename T, typename ... Args> 
T sum(T first, Args ... args) { 
    return first + sum(args...); 
} 

int main() { 
    int v = sum(1, 2, 3); 
    std::cout << v << std::endl; 
    
    v = sum(1, 2, 3, 4, 5); 
    return 0;
}

在递归体函数中，我们将函数参数包的首个元素取出来，参数包 Args... 在展开的过程中递归调用自己，每调用一次参数包中的参数就会少一个，直到所有的参数都展开为止，当没有参数时，则调用非模板函数 sum 终止递归过程。可以通过这种方式实现一个简单的打印多组内容的日志函数：

#include  

template <class T> 
void log(T t) { 
    std::cout << t << std::endl; 
} 

template <typename T, typename ... Args> 
void log(T first, Args... args) { 
    std::cout << first << " "; 
    log(args...); 
} 

int main() { 
    log("[warning]", "some thing wrong"); 
    log("[ error]", "some thing fatal"); 
    return 0; 
}

逗号表达式展开

#include  

template <class T> 
void printarg(T t) { 
    std::cout << t << std::endl; 
} 

template <class ...Args> 
void expand(Args... args) { 
    int arr[] = {(printarg(args), 0)...}; 
} 

int main() { 
    expand(1, 2, 3, 4); 
    return 0; 
}

这种展开参数包的方式，不需要通过递归终止函数，是直接在 expand 函数体中展开的。printarg 不是一个递归终止函数，只是一个处理参数包中每一个参数的函数。这种就地展开参数包的方式实现的关键是逗号表达式。我们知道逗号表达式会按顺序执行逗号前面的表达式，比如：

1	d = (a = b, c);

这个表达式会按顺序执行：b 会先赋值给 a，接着括号中的逗号表达式返回 c 的值，因此 d 将等于 c。

expand 函数中的逗号表达式：(printarg(args), 0)，也是按照这个执行顺序，先执行 printarg(args)，再得到逗号表达式的结果 0。同时还用到了 C++11 的另外一个特性——初始化列表，通过初始化列表来初始化一个变长数组, {(printarg(args), 0)...} 将会展开成：

1	((printarg(arg1),0), (printarg(arg2),0), (printarg(arg3),0)), ...

最终会创建一个元素值都为 0 的数组 int arr[sizeof...(Args)]。由于是逗号表达式，在创建数组的过程中会先执行逗号表达式前面的部分 printarg(args) 打印出参数，也就是说在构造 int 数组的过程中就将参数包展开了，这个数组的目的纯粹是为了在数组构造的过程展开参数包。

递归包扩展方式：
- 优点：实现更加灵活，我们可以针对递归终止条件进行不同于递归体函数的操作
- 缺点：递归函数会反复压栈弹栈，因此运行时会消耗更多资源

若递归终止条件没有声明在递归体的作用域内，则会导致无限循环(不过所幸的是编译器可以检查出这样的问题）。

逗号表达式扩展方式：
- 优点：执行的效率高于递归的方式；
- 缺点：只能适用于对参数包中的每一个参数都执行相同操作的场景；

浪费了一部分的内存空间，构造出来的初始化列表没有任何作用。

参考

完美转发：https://www.jianshu.com/p/af7c2314e2dc
引用折叠：https://www.zhihu.com/question/40346748

任务流水：加快程序运行和减少内存占用我全都要

2024-05-07T15:54:38.000Z

2018 年计算机组成原理的大作业，五级流水不会写，三级流水写不出来。竟然没想不到多年后还会用到多级流水的思路去设计代码。

Python 线程池

在介绍多级流水之前，先简单介绍下 Python 线程池的使用：在通过线程池提交任务后，可以调用 result() 方法等待任务执行结束。该方法会阻塞当前线程，直到任务执行结束并返回结果，任务没有返回值时 result() 将获取 None。下面是一个简单的例子。

import concurrent.futures 
def task(x): 
    # return x * x 
    print("1") 
    
# 创建 
executor = concurrent.futures.ThreadPoolExecutor(max_workers=1) 
# 提交 
wait_token = executor.submit(task, 7) 
# 等待结束 
print(wait_token.result())

多级流水

适用场景

多级流水的核心作用是：通过异步调用来加速代码的执行，和多线程相比只需要更少的内存。尤其适用于以下场景：需要多次的顺序执行若干任务。假设此时有三个任务 1 2 3 需要循环执行 100 次。任务 1 从外界读取输入，而任务 2 的输入是任务 1 的输出，任务 3 的输入是任务 2 的输出，有明显的顺序依赖。

for _ in range(100): 
    val = read() 
    val = Task1(val) # IO 任务, 0.1s 
    val = Task2(val) # 计算任务, 0.2s，且申请大内存 
    val = Task3(val) # IO 任务, 0.1s 
    write(val)

假设任务 1 3 均为 IO 任务，耗时 0.1 ms，任务 2 为计算任务，需要开辟很大的内存，耗时 0.2ms。如果是多线程加速的方式，因为存在明显的数据依赖，会将 1，2，3 视为一个整体进行处理。如前 50 个任务放到一个线程执行，后 50 个任务在另一个线程执行。需要的时间为 50 * (0.1 + 0.2 + 0.1) = 20s。但此时存在潜在风险：如果两个线程同时执行任务 2 ，会开辟两块的大内存空间。我用 python 代码搭建了一个具体的例子：

import time 
import concurrent.futures 

def task1(in_data, idx): 
    in_data[idx] += 1 
    time.sleep(0.1) 
    
def task2(in_data, idx): 
    in_data[idx] *= 2 
    time.sleep(0.2) 
    
def task3(in_data, idx): 
    in_data[idx] -= 1 
    time.sleep(0.1) 
    
def serial(datas): 
    start = time.time() 
    for i in range(len(datas)): 
        task1(datas, i) 
        task2(datas, i) 
        task3(datas, i) 
    end = time.time() 
    print(" Serial Cost Time: {}".format(end - start))

if __name__ == "__main__": 
    n_data_serial = [i for i in range(100)] 
    serial(n_data_serial)

多级流水

通过异步调用来实现任务流水的方式，将任务 1 和任务 3 异步执行，在执行任务 2 的时同时完成任务 1 和任务 3 的 IO 处理。如下图所示，虚线框表示为异步执行，实线框为同步执行，相同的颜色区域表示存在数据依赖。

程序如下所示，流水的时间为：100 * (0.1 + 0.2 + 0.1) / 2 = 20s，且不存在同时执行两个任务 2 的情况，所以所需的峰值内存理论上是多线程的一半。

def parall(datas): 
    start = time.time() 
    n_len = len(datas) 
    executor = concurrent.futures.ThreadPoolExecutor(max_workers=1) 
    wait_token = None 
    for i in range(n_len): 
        if 0 == i: 
            task1(datas, i) 
            wait_token = executor.submit(task1, datas, i + 1) 
            task2(datas, i) 
        elif i == n_len - 1: 
            wait_token.result() 
            wait_token = executor.submit(task3, datas, i - 1) 
            task2(datas, i) 
            wait_token.result() 
            task3(datas, i) 
        else: 
            wait_token.result() 
            wait_token = executor.submit(task31, datas, i - 1, i + 1) 
            task2(datas, i) 
    end_time = time.time()
    print(" Parallel Cost Time: {}".format(end - start))


if __name__ == "__main__": 
    n_data_serial = [i for i in range(100)] 
    n_data_parall = [i for i in range(100)] 
    
    serial(n_data_serial) 
    parall(n_data_parall) 
    
    print(" Compare Res : {}".format(n_data_serial == n_data_parall))

移动端算法优化

2024-03-03T07:03:22.000Z

移动端算法优化是个很庞大的话题。从计算机体系到指令，涉及到非常广而深的东西。本文尝试以常见的算法为例，阐述算法在单线程场景下的加速与优化，~~多线程是最后的收尾，没啥可说的~~。而至于具体的场景，如金字塔、滤波、降噪等，优化的思路都是相同的：减少 IO，一次 IO 完成尽可能多的计算。

本文会使用 Neon, OpenCL 来优化算法，如果有可能也会引入 DSP。本文持续更新，整理算法优化相关的经验。额外的，确保打开了 O3 编译选项，打开 release 模式等，否则会影响算法的执行时间。

矩阵乘法

注：本文不考虑数学角度的优化，如修改计算公式得到相同结果什么的。实现的浮点矩阵计算为：

$C = A * B + \text{bias}$

简单起见，$A$ 的维度为 $512\times 128$，矩阵 $B$ 的维度为 $128 \times 256$。在高通骁龙某芯片上，目前的加速结果如下：

版本	时间
常规矩阵乘法	59.84ms
Neon 加速版本 1	12.90 ms
Neon 加速版本 2	3.85ms
Cache 友好的矩阵乘法	2.52ms
Neon 加速版本 3	2.77ms
Neon 加速版本 4	2.01ms
Neon 加速版本 5	1.09ms

~~为什么没 OpenCL？因为还没来得及写，仿佛欠着好多博客。~~

常规矩阵乘法

以线性代数中的矩阵乘法为例，目标矩阵的第 $i, j$ 个元素是矩阵 $A$ 的第 $i$ 行和矩阵 $B$ 的第 $j$ 列逐元素相乘相加的结果。根据这一原理写出最直观的代码，耗时 59.84ms：

void sgemm_c(float *C, float *A, float *B, float *bias, int d0, int d1, int d2)
{
    int row, col, m;
    for (row = 0; row < d0; row++) {
        for (col = 0; col < d2; col++) {
            for (m = 0; m < d1; m++) {
                C[row * d2 + col] += A[row * d1 + m] * B[m * d2 + col];
            }
            C[row * d2 + col] += bias[row * d2 + col];
        }
    }
}

我们知道矩阵在计算机中是行朱序存储的，即访问矩阵 $B[i, j]$ 时，会将 $B[i, j+1], B[i, j+2],…$ 等元素也一同取到内存的 cache 中。当需要 $B[i, j+1]$ 时就从 cache 中读取而不是去内存读取，这样会节省很多时间。

所以上述代码的性能瓶颈在于：

1
2
3

for (m = 0; m < d1; m++) {
    C[row * d2 + col] += A[row * d1 + m] * B[m * d2 + col];
}

由于最内层的循环中 m 逐渐增加，矩阵 $B$ 的寻址方式为跳行寻址。在我们看不见的地方，cache 缓存的数据无法使用，每次读取 $B$ 矩阵的元素时还需要刷新 cache，这就导致这份代码很耗时。

Neon 加速版本 1

void sgemm_neon1(float *C, float *A, float *B, float *bias, int d0, int d1, int d2)
{
    int row, col, m;
    for (row = 0; row < d0; row++) {
        for (col = 0; col < d2; col+=4) {
            float32x4_t sum4 = vdupq_n_f32(0.0f);

            float *pa = A + row * d1;
            float *pb = B + col;
            float *pc = C + row * d2 + col;
            float *pd = bias + row * d2 + col;

            for (m = 0; m < d1; m+=4) {
                float32x4_t a4 = vld1q_f32(pa);
                float32x4_t b0 = vld1q_f32(pb + 0 * d2);
                float32x4_t b1 = vld1q_f32(pb + 1 * d2);
                float32x4_t b2 = vld1q_f32(pb + 2 * d2);
                float32x4_t b3 = vld1q_f32(pb + 3 * d2);

                sum4 = vmlaq_lane_f32(sum4, b0, vget_low_f32(a4), 0);
                sum4 = vmlaq_lane_f32(sum4, b1, vget_low_f32(a4), 1);
                sum4 = vmlaq_lane_f32(sum4, b2, vget_high_f32(a4), 0);
                sum4 = vmlaq_lane_f32(sum4, b3, vget_high_f32(a4), 1);

                pa += 4;
                pb += 4 * d2;
            }

            float32x4_t d4 = vld1q_f32(pd);
            sum4 = vaddq_f32(sum4, d4);
            vst1q_f32(pc, sum4);
        }
    }
}

Neon 加速版本 2

void sgemm_neon2(float *C, float *A, float *B, float *bias, int d0, int d1, int d2)
{
    int row, col, m;
    for (row = 0; row < d0; row+=4) {
        for (col = 0; col < d2; col+=4) {

            float *pa = A + row * d1;
            float *pb = B + col;
            float *pc = C + row * d2 + col;
            float *pd = bias + row * d2 + col;

            float32x4_t sum0 = vld1q_f32(pd + 0 * d2);
            float32x4_t sum1 = vld1q_f32(pd + 1 * d2);
            float32x4_t sum2 = vld1q_f32(pd + 2 * d2);
            float32x4_t sum3 = vld1q_f32(pd + 3 * d2);

            for (m = 0; m < d1; m+=4) {
                float32x4_t b0 = vld1q_f32(pb + 0 * d2);
                float32x4_t b1 = vld1q_f32(pb + 1 * d2);
                float32x4_t b2 = vld1q_f32(pb + 2 * d2);
                float32x4_t b3 = vld1q_f32(pb + 3 * d2);

                float32x4_t a0 = vld1q_f32(pa + 0 * d1);
                float32x4_t a1 = vld1q_f32(pa + 1 * d1);
                float32x4_t a2 = vld1q_f32(pa + 2 * d1);
                float32x4_t a3 = vld1q_f32(pa + 3 * d1);

                sum0 = vmlaq_lane_f32(sum0, b0, vget_low_f32(a0), 0);
                sum0 = vmlaq_lane_f32(sum0, b1, vget_low_f32(a0), 1);
                sum0 = vmlaq_lane_f32(sum0, b2, vget_high_f32(a0), 0);
                sum0 = vmlaq_lane_f32(sum0, b3, vget_high_f32(a0), 1);

                sum1 = vmlaq_lane_f32(sum1, b0, vget_low_f32(a1), 0);
                sum1 = vmlaq_lane_f32(sum1, b1, vget_low_f32(a1), 1);
                sum1 = vmlaq_lane_f32(sum1, b2, vget_high_f32(a1), 0);
                sum1 = vmlaq_lane_f32(sum1, b3, vget_high_f32(a1), 1);

                sum2 = vmlaq_lane_f32(sum2, b0, vget_low_f32(a2), 0);
                sum2 = vmlaq_lane_f32(sum2, b1, vget_low_f32(a2), 1);
                sum2 = vmlaq_lane_f32(sum2, b2, vget_high_f32(a2), 0);
                sum2 = vmlaq_lane_f32(sum2, b3, vget_high_f32(a2), 1);

                sum3 = vmlaq_lane_f32(sum3, b0, vget_low_f32(a3), 0);
                sum3 = vmlaq_lane_f32(sum3, b1, vget_low_f32(a3), 1);
                sum3 = vmlaq_lane_f32(sum3, b2, vget_high_f32(a3), 0);
                sum3 = vmlaq_lane_f32(sum3, b3, vget_high_f32(a3), 1);

                pa += 4;
                pb += 4 * d2;
            }

            vst1q_f32(pc + 0 * d2, sum0);
            vst1q_f32(pc + 1 * d2, sum1);
            vst1q_f32(pc + 2 * d2, sum2);
            vst1q_f32(pc + 3 * d2, sum3);
        }
    }
}

Cache 友好的矩阵乘法

void rsgemm_c(float *C, float *A, float *B, float *bias, int d0, int d1, int d2)
{
    int row, col, m;
    for(row = 0; row < d0; row++) {
        for(m = 0; m < d1; m++) {
            for(col = 0; col < d2; col++)  {
                C[row * d2 + col] += A[row * d1 + m] * B[m * d2 + col];
                if (0 == m) {
                    C[row * d2 + col] += bias[row * d2 + col];
                }
            }
        }
    }
}

Neon 加速版本 3

void rsgemm_neon1(float *C, float *A, float *B, float *bias, int d0, int d1, int d2)
{
    int row, col, m;
    for (row = 0; row < d0; row++) {
        for (m = 0; m < d1; m++) {

            float32x4_t a4 = vdupq_n_f32(A[row * d1 + m]);
            float *pb = B + m * d2;
            float *pc = C + row * d2;
            float *pd = bias + row * d2;

            for (col = 0; col < d2; col+=4) {
                float32x4_t b4 = vld1q_f32(pb);
                float32x4_t c4 = vld1q_f32(pc);
                float32x4_t val = vmulq_f32(a4, b4);
                val = vaddq_f32(c4, val);

                if (0 == m) {
                    val = vaddq_f32(vld1q_f32(pd), val);
                }

                vst1q_f32(pc, val);

                pb += 4;
                pc += 4;
                pd += 4;
            }
        }
    }
}

Neon 加速版本 4

void rsgemm_neon2(float *C, float *A, float *B, float *bias, int d0, int d1, int d2)
{
    int row, col, m;
    for (row = 0; row < d0; row++) {
        for (m = 0; m < d1; m+=4) {

            float *pb0 = B + (m + 0) * d2;
            float *pb1 = B + (m + 1) * d2;
            float *pb2 = B + (m + 2) * d2;
            float *pb3 = B + (m + 3) * d2;

            float *pc = C + row * d2;
            float *pd = bias + row * d2;

            float32x4_t a4 = vld1q_f32(A + row * d1 + m);
            float32x4_t a0 = vdupq_n_f32(vgetq_lane_f32(a4, 0));
            float32x4_t a1 = vdupq_n_f32(vgetq_lane_f32(a4, 1));
            float32x4_t a2 = vdupq_n_f32(vgetq_lane_f32(a4, 2));
            float32x4_t a3 = vdupq_n_f32(vgetq_lane_f32(a4, 3));

            for (col = 0; col < d2; col+=4) {
                float32x4_t c4 = vld1q_f32(pc);

                c4 = vaddq_f32(c4, vmulq_f32(a0, vld1q_f32(pb0)));
                c4 = vaddq_f32(c4, vmulq_f32(a1, vld1q_f32(pb1)));
                c4 = vaddq_f32(c4, vmulq_f32(a2, vld1q_f32(pb2)));
                c4 = vaddq_f32(c4, vmulq_f32(a3, vld1q_f32(pb3)));

                if (0 == m) {
                    c4 = vaddq_f32(vld1q_f32(pd), c4);
                }

                vst1q_f32(pc, c4);

                pb0 += 4;
                pb1 += 4;
                pb2 += 4;
                pb3 += 4;

                pc += 4;
                pd += 4;
            }
        }
    }
}

Neon 加速版本 5

void rsgemm_neon3(float *C, float *A, float *B, float *bias, int d0, int d1, int d2)
{
    int row, col, m;
    for (row = 0; row < d0; row+=4) {
        for (m = 0; m < d1; m+=4) {

            float *pb0 = B + (m + 0) * d2;
            float *pb1 = B + (m + 1) * d2;
            float *pb2 = B + (m + 2) * d2;
            float *pb3 = B + (m + 3) * d2;

            float *pc0 = C + (0 + row) * d2;
            float *pc1 = C + (1 + row) * d2;
            float *pc2 = C + (2 + row) * d2;
            float *pc3 = C + (3 + row) * d2;

            float *pd0 = bias + (0 + row) * d2;
            float *pd1 = bias + (1 + row) * d2;
            float *pd2 = bias + (2 + row) * d2;
            float *pd3 = bias + (3 + row) * d2;

            float32x4_t a0 = vld1q_f32(A + (row + 0) * d1 + m);
            float32x4_t a1 = vld1q_f32(A + (row + 1) * d1 + m);
            float32x4_t a2 = vld1q_f32(A + (row + 2) * d1 + m);
            float32x4_t a3 = vld1q_f32(A + (row + 3) * d1 + m);

            float32x4_t a00 = vdupq_n_f32(vgetq_lane_f32(a0, 0));
            float32x4_t a01 = vdupq_n_f32(vgetq_lane_f32(a0, 1));
            float32x4_t a02 = vdupq_n_f32(vgetq_lane_f32(a0, 2));
            float32x4_t a03 = vdupq_n_f32(vgetq_lane_f32(a0, 3));

            float32x4_t a10 = vdupq_n_f32(vgetq_lane_f32(a1, 0));
            float32x4_t a11 = vdupq_n_f32(vgetq_lane_f32(a1, 1));
            float32x4_t a12 = vdupq_n_f32(vgetq_lane_f32(a1, 2));
            float32x4_t a13 = vdupq_n_f32(vgetq_lane_f32(a1, 3));

            float32x4_t a20 = vdupq_n_f32(vgetq_lane_f32(a2, 0));
            float32x4_t a21 = vdupq_n_f32(vgetq_lane_f32(a2, 1));
            float32x4_t a22 = vdupq_n_f32(vgetq_lane_f32(a2, 2));
            float32x4_t a23 = vdupq_n_f32(vgetq_lane_f32(a2, 3));

            float32x4_t a30 = vdupq_n_f32(vgetq_lane_f32(a3, 0));
            float32x4_t a31 = vdupq_n_f32(vgetq_lane_f32(a3, 1));
            float32x4_t a32 = vdupq_n_f32(vgetq_lane_f32(a3, 2));
            float32x4_t a33 = vdupq_n_f32(vgetq_lane_f32(a3, 3));

            for (col = 0; col < d2; col+=4) {
                float32x4_t c04 = vld1q_f32(pc0);
                float32x4_t c14 = vld1q_f32(pc1);
                float32x4_t c24 = vld1q_f32(pc2);
                float32x4_t c34 = vld1q_f32(pc3);

                float32x4_t b0 = vld1q_f32(pb0);
                float32x4_t b1 = vld1q_f32(pb1);
                float32x4_t b2 = vld1q_f32(pb2);
                float32x4_t b3 = vld1q_f32(pb3);

                c04 = vaddq_f32(c04, vmulq_f32(a00, b0));
                c04 = vaddq_f32(c04, vmulq_f32(a01, b1));
                c04 = vaddq_f32(c04, vmulq_f32(a02, b2));
                c04 = vaddq_f32(c04, vmulq_f32(a03, b3));

                c14 = vaddq_f32(c14, vmulq_f32(a10, b0));
                c14 = vaddq_f32(c14, vmulq_f32(a11, b1));
                c14 = vaddq_f32(c14, vmulq_f32(a12, b2));
                c14 = vaddq_f32(c14, vmulq_f32(a13, b3));

                c24 = vaddq_f32(c24, vmulq_f32(a20, b0));
                c24 = vaddq_f32(c24, vmulq_f32(a21, b1));
                c24 = vaddq_f32(c24, vmulq_f32(a22, b2));
                c24 = vaddq_f32(c24, vmulq_f32(a23, b3));

                c34 = vaddq_f32(c34, vmulq_f32(a30, b0));
                c34 = vaddq_f32(c34, vmulq_f32(a31, b1));
                c34 = vaddq_f32(c34, vmulq_f32(a32, b2));
                c34 = vaddq_f32(c34, vmulq_f32(a33, b3));

                if (0 == m) {
                    c04 = vaddq_f32(vld1q_f32(pd0), c04);
                    c14 = vaddq_f32(vld1q_f32(pd1), c14);
                    c24 = vaddq_f32(vld1q_f32(pd2), c24);
                    c34 = vaddq_f32(vld1q_f32(pd3), c34);
                }

                vst1q_f32(pc0, c04);
                vst1q_f32(pc1, c14);
                vst1q_f32(pc2, c24);
                vst1q_f32(pc3, c34);

                pb0 += 4;
                pb1 += 4;
                pb2 += 4;
                pb3 += 4;

                pc0 += 4;
                pc1 += 4;
                pc2 += 4;
                pc3 += 4;

                pd0 += 4;
                pd1 += 4;
                pd2 += 4;
                pd3 += 4;
            }
        }
    }
}

C 语言中的黑魔法：宏

2024-02-02T17:36:01.000Z

之前对 C 语言中宏定义的认知十分简单，包括但不限于停留在以下浅薄的层面：

1 2	#define PI 3.14 #define add(a, b) a + b

上述代码完全是大学课本中的用法。但当我看到实际项目中宏的用法后完全是一头雾水，~~所以自己也要写出那种高逼格让别人看不太懂的代码~~。宏远远比我想象的要强大，所以本文为每个宏技巧都配备了一个实用场景。

字符串化操作符，实现一个简单的自动化测试样例
字符串连接，实现一个具备计时功能的宏
X 宏，实现根据输入执行不同的函数
特殊宏 __VA_ARGS__，实现一个简单的日志函数

字符串化操作符

#include 

#define str(a) #a

int main() {
    std::cout << str(FUNC);   // 输出 FUNC
    return 0;
}

上述宏 str 通过单井号的形式实现了字符串化操作符，将传入的参数字符串化。

简单测试框架

C 语言有一些预定义的宏，比如 __LINE__ 表示当前行号，__FILE__ 表示当前的文件名。基于这一基础，我们实现一个简单的测试程序。在测试程序时，打印测试用例、文件名、行号、以及是否通过测试。

#include 

#define LOG_INFO(format) printf(format)

#define __TO_STR__(x) #x ":"
#define __TO_REAL__(x) __TO_STR__(x)
// 文件:行号
#define __FILE_LINE__ __FILE__ ":" __TO_REAL__(__LINE__)

#define CHECK_VAL(val) \
    do { \
        LOG_INFO(__FILE_LINE__ ":calling " #val "\n"); \
        if (0 == (val)) { \
            LOG_INFO(__FILE_LINE__ ":error \n"); \
            goto fail; \
        } else { \
            LOG_INFO(__FILE_LINE__ ":passed \n"); \
        } \
    } while(0)

int test_func() {
    return 1;
}

int main() {

    int n_total = 2;
    int n_passed = 0;

    CHECK_VAL(1 == test_func());
    n_passed ++;

    CHECK_VAL(2 == test_func());
    n_passed ++;

fail:

    printf("################ summary ###################\n");
    printf("passed: %d\n", n_passed);
    printf("total: %d\n", n_total);

    return 0;
}

#val 会打印测试样例
__FILE_LINE__ 会打印当前的文件名和行号

输出如下：

demo.cpp:30::calling 1 == test_func()
demo.cpp:30::passed 
demo.cpp:33::calling 2 == test_func()
demo.cpp:33::error 
################ summary ###################
passed: 1
total: 2

为什么用 do-while(0) ？

当时我看到这一用法也比较疑惑，但 do-while(0) 的用法还是比较常见的。多用于在一个宏定义中出现多条语句的场景中，那我们来分析一下为什么要这么用。如果我们这样定义：

1
2
3

#define SS \
    stmt1; \
    stmt2;

在以下的使用场景中：

1
2
3

if (cond)
    SS;
    stmt3;

宏展开后，会变成：

if (cond)
    stmt1;
    stmt2;
    ;
    stmt3;

所以不管 cond 是真是假，stmt2 语句都会执行。而我们自己的意图肯定是，只有 cond 为真的时候，stmt1 和 stmt2 才会执行。那我们给宏加上花括号试一试：

#define SS { \
    stmt1; \
    stmt2; \
}

但是在下面这种情况下，还是会存在一些错误：

if (cond)
    SS;
else
    stmt3;

这样宏展开的结果为：

if (cond) { 
    stmt1; 
    stmt2; 
}
;
else
    stmt3;

直接导致编译错误，而出错的原因是 else 前面多一个分号。当然也可以在使用 SS 的地方后面不加分号，但是在 C 语言中通常我们习惯性的会在语句后面加一个分号。鉴于上面的这些原因，就有人想出了 do-while(0) 式的用法：

#define SS \
    do { \
        stmt1; \
        stmt2; \
    } while(0)

字符串连接

#include 

#define define_val(tag)  \
    int a_##tag = 77

int main() {
    define_val(MAX);
    std::cout << a_MAX;
    return 0;
}

上面代码的意思是，将 a_ 和传入的 tag 连接在一起，意思是：int a_MAX = 77; 的意思。上述代码中完全没有直接出现 a_MAX 这个字符串，但我们依然可以使用。

这样做的一点点好处是：比如现在有 100 个模块分散在项目的各个角落，需要给各个模块计时统计性能。那么每次都定义起始时间、结束时间，并且计算执行时间，这些操作都是重复的。为了精简重复的操作，我们可以使用这个宏技巧来实现。如下所示的代码，我们把宏放到头文件，用户在引用头文件后，只需要两行代码就可以快速完成对模块的计时功能。

测试函数执行时间的宏

#include 
#include 
#include 

typedef struct Time {
    double time;
} Time;

void GetTime(Time* T) {
    struct timeval tv;
    gettimeofday(&tv, NULL);
    T->time = (tv.tv_sec * 1000.0) + (tv.tv_usec / 1000.0);
}

#define TIME_START(tag) \
    Time tag##_start, tag##_end; \
    do { \
        GetTime(&(tag##_start)); \
    } while(0)

#define TIME_END(tag) \
    do { \
        GetTime(&(tag##_end)); \
        printf(#tag " cost %.2f \n", tag##_end.time - tag##_start.time); \
    } while(0)

void func() {
    usleep(10000);
}

int main() {

    // 记录开始时间
    TIME_START(loop_func_20);

    for (int i = 0; i < 20; i++) {
        func();
    }

    // 记录结束时间
    TIME_END(loop_func_20);
}

输出如下：

1	loop_func_20 cost 202.44ms

特殊宏

__VA_ARGS__ 是一个预处理器宏，用于表示可变参数列表。它通常用于定义可变参数的宏，例如 printf 函数。在宏定义中，__VA_ARGS__ 表示可变参数列表部分，可以在宏展开时将其替换为实际的参数列表。官方定义较为玄幻，直接看代码吧：

#include 

#define LOG(format, ...) printf(format, ##__VA_ARGS__)

int main() {
    LOG("===== info =====\n");   // 0 参数
    LOG("data is %d\n", 2);      // 1 个参数
    return 0;
}

一个简单的打日志函数

给上述代码加一些辅助信息，就可以实现一个日志函数：

#include 

#define LOG(tag, format, ...) \
    printf("[%s] [%s %s %d] " format, tag, __FILE__, __FUNCTION__, __LINE__, ##__VA_ARGS__)

int main() {
    LOG("BASE", "Nothing\n");
    LOG("BASE", " ? info diff >= %d : %.4f %d\n", 2, 0.1, 2);
    return 0;
}

对于

1	LOG("BASE", "Nothing");

宏展开为：

1	printf("[%s] [%s %s %d] " "Nothing", "Base", "demo.cpp", "main", 7);

注意，Nothing 这个信息是在 format 中，因此第一个 %s 对应的是 tag，所以最终输出为：

1	[BASE] [test.cpp main 8] Nothing

同理，第二个宏展开后的输出为：

1	[BASE] [test.cpp main 7] ? info diff >= 2 : 0.1000 2

注意：代码中使用 ##__VA_ARGS__ 而不是 __VA_ARGS__，这是因为 ##__VA_ARGS__ 用于在可变参数列表为空时删除前面的逗号。在 C 语言中，如果可变参数列表为空，则在逗号之后没有参数，这会导致编译错误。

X 宏的使用

通过宏定义的方式，根据指令执行不同的函数。比如输入的指令是 CMD_LED_ON，执行的函数是 led_on；输入的指令是 CMD_LED_OFF，执行的函数是 led_off。首先定义这两个函数：

static void led_on(void* p)
{
    printf("%s \r\n", (char *)p);
}

static void led_off(void* p)
{
    printf("%s \r\n", (char *)p);
}

将这两个指令 CMD_LED_ON 和 CMD_LED_OFF 定义到一个枚举变量中，不过是以宏的形式：

#define MACROS_TABLE                    \
    X_MACROS(CMD_LED_ON,  led_on)       \
    X_MACROS(CMD_LED_OFF, led_off)      \

/*定义命令列表*/
typedef enum
{
    #define X_MACROS(a, b) a,
    MACROS_TABLE
    #undef X_MACROS
    CMD_MAX
} cmd_e;

#define X_MACROS(a, b) a 表示取出 (a, b) 中的第一个元素 a，则宏展开后的代码为：

typedef enum
{
    #define X_MACROS(a, b) a,
    X_MACROS(CMD_LED_ON,  led_on)       \
    X_MACROS(CMD_LED_OFF, led_off)      \
    #undef X_MACROS
}

继续把 X_MACROS 展开得到：

/*定义命令列表*/
typedef enum
{
    CMD_LED_ON,
    CMD_LED_OFF,
    CMD_MAX
} cmd_e;

#define X_MACROS(a, b) b, 表示取出宏的第二个元素。使用同样的方法，在定义一个函数数组：

typedef void (*func)(void* p);
const func func_table[] =
{
    #define X_MACROS(a, b) b,
    MACROS_TABLE
    #undef X_MACROS
};

宏展开为：

const func func_table[] =
{
    led_on,
    led_off
};

此时，func_table[CMD_LED_ON] 指向了 led_on 函数，func_table[CMD_LED_OFF] 指向了 led_off 函数，就实现了简单的根据不同的输入指令执行不同的函数。完成代码如下：

#include 

#define MACROS_TABLE                    \
    X_MACROS(CMD_LED_ON,  led_on)       \
    X_MACROS(CMD_LED_OFF, led_off)      \

/*定义命令列表*/
typedef enum
{
    #define X_MACROS(a, b) a,
    MACROS_TABLE
    #undef X_MACROS
    CMD_MAX
} cmd_e;

/*定义字符串列表用作Log打印*/
const char* cmd_str[] =
{
    #define X_MACROS(a, b) #a,
    MACROS_TABLE
    #undef X_MACROS
};

typedef void (*func)(void* p);

static void led_on(void* p)
{
    printf("%s \r\n", (char *)p);
}

static void led_off(void* p)
{
    printf("%s \r\n", (char *)p);
}

const func func_table[] =
{
    #define X_MACROS(a, b) b,
    MACROS_TABLE
    #undef X_MACROS
};

static void cmd_handle(cmd_e cmd)
{
    if(cmd < CMD_MAX)
    {
        func_table[cmd]((void*)cmd_str[cmd]);
    }
}

int main()
{
    cmd_handle(CMD_LED_ON);
    cmd_handle(CMD_LED_OFF);
    return 0;
}

参考

X-宏的用法

一次不太愉快的软件开发

2024-02-02T17:19:02.000Z

整体的开发感受是：缺乏一个合理的、完整的软件开发流程或规范。

合理是指：大多需求都是由领导拍脑门、飞书、现场沟通传达。尤其在面临这种前路未知、需求多变的任务时，由于背景知识的缺乏，沟通会更加吃力。最大的缺点是难以记录，不利于软件的维护、更新等。需要加什么功能，改什么功能，为什么这么做，无从查起。
完整是指：什么时候开会和立项，什么时候讨论，怎么样算完成，软件如何发布，如何维护，这些东西没有任何规范。一个软件的生命周期，从需求分析到维护，这些都没有。整体感受和学生时代的大作业没啥区别。
沟通效率很低。
- 逐字、逐标点符号对文档十分没有必要，应该关注大纲。需要知道目标是什么，有哪些场景即可
- 以为刷新一下就实现的东西，说快速让我实现一下。但需要很复杂的数据传输与解析，脑子幻想的东西实现起来也许很费力
- 一开始不要讨论代码，浪费时间。一开始的讨论都是基于颅内 debug，到后面会发现之前讨论的代码很可能无法实现，或者说并不是最优的实现方式。代码写到那里，自然而然的会发现更好、更便捷的实现方法，回过头来发现前期的讨论除了浪费时间和耽误进度外，没有任何价值。

应用场景，用户需求没有任何调研。
- 未调研用户的需求，并没有得到他们的反馈。只是在满足领导想象出来的需求。假设有 50 人用软件，领导说你软件写的不行，不符合他的要求，一直提需求导致软件迟迟没有发布，项目一直 delay，自己很着急，老板很失望。我想写小而美的软件，后面慢慢添加功能；领导希望一次性支持全部功能，这仿佛真的很难实现。比如今天 AI 组又提了一个新需求，超出了我们最开始的规划，真的很难一次性实现全部需求。
- 其实呢，也许你的软件 20 人用着是满意的，20 人用着是觉得凑合的，9人觉得还需要改进，只有领导觉得这里不行，应该这样显示；那里不行，应该加个隐藏按钮。但也许 30 人觉得那个隐藏按钮多此一举，10个人觉得千万不要加隐藏按钮，只满足一个人的需求是没有意义的。换句话说，领导该把控大的方向，而不是纠结是否添加一个隐藏按钮。

临时添加功能过于繁琐。
- 想临时看一下峰值内存、想临时加一下 unknown 函数调用、想取消 unknown 的函数调用、想随便生成一个表看看界面什么样子。这些至少还是能应付的，改几行代码去应付即可，只不过累一些。而这些繁琐的临时需求，会发现写完之后不在需要，只会一点一点的消耗耐心，浪费宝贵的积极性。
- 后续再安排新任务时，会下意识的质疑任务的合理性，以及是否有必要去实现，产生一点排斥心理。

需求不明确
- 当软件过于庞大，输入、功能、需求、应用场景其中之一发生严重变化时，这绝对不是改几行代码能搞定的。只有两条路可走：继续维护屎山代码，或者重写代码。
- 所以一开始，最好讨论清楚目标是什么，功能是什么，支持的用户范围，最重要的是：做到什么程度就到此为止，哪些功能不需要实现，哪些用户不需要支持。等一切都清晰后，再开始去写代码。一开始被领导叫去写代码，还被要求实现很多的功能。后面和老板讨论后发现一些功能不用实现，一些功能需要改。看着手里的屎山代码，我选择了重写。
- 如果功能发生大的变化，一定是前期的目标出了问题。作为领导，应该只要求大的方向，而不该关注和过分追求细节：比如按钮在哪个位置，信息如何提示给用户，文件命名等。比如文件名是日期+版本号，还是版本号+日期。小细节前期讨论会很浪费精力，后期修改又会更浪费时间、消耗耐心、浪费经历，十分没有必要。

~~如果某天我当了领导~~，我大概率会说：先调研，有无现有的高性能实现方案，是写异步函数还是同步函数。然后写技术方案，和我沟通后我确定做的方向与内容，细节你们决定。

如何维护？

需要修复一些紧急的 bug，立刻发布
大家提了一些共性的需求，库会周期性发布，一次性多实现几个功能
个别需求不考虑实现

提问和发布暂定使用 gitlab，将软件管理起来。第一次管理软件的维护和发布，处于探索阶段，还需要学习。功能实现或紧急 bug 修复后，关闭对应的 issue。

前后端全栈开发：0 基础搭建 UI 界面和提供数据服务

2024-01-03T14:12:54.000Z

写在前面。希望你不会有快速搭建 UI 界面为他人服务这种迫切的需求。虽然这是我的博客，但是我并不希望你搜到他。对于完全未知的领域，快速搭建、快速学习、不会就去学、不会就查、速成，通过这种方式写出来的代码一定是不好的，心累的，事倍功半的，也一定存在多多少少的 bug 和无法实现的逻辑。

但也有一个好消息，如果你完全不会前端后端，只会 Python，看了本文也能搭建完成的前后端服务，但距离入门的全栈工程师还差很远。

前端开发

在开发初期，我真的以为是弄一些简单的图表就结束，所以没放在心上。但是越往后项目越大，我的 js 和 html 水平实在驾驭不了，工作时也不会给我足够的时间让我从头学这些东西。每天晚上都在给之前的同学打电话询问：这种交互逻辑该怎么实现。在她帮我写了整体架构后，我便在架构上修修改改，查 api，整体是能满足需求的。

但是后续，项目又变大了，要求这个，要求那个，要求各种各样的 UI 界面和交互。0 前端基础的我实在应付不了，麻烦同学也不是长久之计，于是开始使用 amis 搭建前端界面。

选择低代码框架 amis

以上内容摘自百度 amis 的官方文档：

在经历了十几年的发展后，前端开发变得越来越复杂，门槛也越来越高，要使用当下流行的 UI 组件库，必须懂 npm、webpack、react/vue，必须熟悉 ES6 语法，最好还了解状态管理，比如 Redux，如果没接触过函数式编程，入门都很费劲。而入门之后会发现它还有巨大的生态，相关的库有 2347 个，很多功能相似，挑选成本高。然而前端技术的发展不会停滞，等学完这些后可能会发现大家都用 Hooks 了、某个打包工具取代 Webpack 了……
用 amis 只需要几百行 JSON 配置，不需要了解 React/Vue、Webpack，甚至不需要了解 JavaScript，即便没学过 amis 也能猜到大部分配置的作用，只需要简单配置就能完成所有页面开发。
可以借助 amis 的可视化编辑器，快速完成页面的开发。对于大部分常用页面，应该使用最简单的方法来实现，甚至不需要学习前端框架和工具。
amis 在百度内部得到了广泛使用，在 6 年多的时间里创建了 5 万页面，从内容审核到机器管理，从数据分析到模型训练，amis 满足了各种各样的页面需求。

下载 amis 并使用

下载链接中的 sdk.tar.gz，解压放到本地文件夹。目录结构：

1 2	sdk/ index.html

index.html 中的内容，重点是 14，15，33 行中的 sdk 路径，需要正确的指定。index.html 中的内容：

html>
<html lang="zh">
  <head>
    <meta charset="UTF-8" />
    <title>amis demotitle>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <meta
      name="viewport"
      content="width=device-width, initial-scale=1, maximum-scale=1"
    />
    <meta http-equiv="X-UA-Compatible" content="IE=Edge" />
    <link rel="stylesheet" href="./sdk/sdk.css" />
    <link rel="stylesheet" href="./sdk/helper.css" />
    
    
    
    <style>
      html,
      body,
      .app-wrapper {
        position: relative;
        width: 100%;
        height: 100%;
        margin: 0;
        padding: 0;
      }
    style>
  head>
  <body>
    <div id="root" class="app-wrapper">div>
    <script src="./sdk/sdk.js">script>
    <script type="text/javascript">
      (function () {
        let amis = amisRequire('amis/embed');
        // 通过替换下面这个配置来生成不同页面
        let amisJSON = {
          type: 'page',
          title: '表单页面',
          body: {
            type: 'form',
            mode: 'horizontal',
            api: '/saveForm',
            controls: [
              {
                label: 'Name',
                type: 'text',
                name: 'name'
              },
              {
                label: 'Email',
                type: 'email',
                name: 'email'
              }
            ]
          }
        };
        let amisScoped = amis.embed('#root', amisJSON);
      })();
    script>
  body>
html>

用浏览器打开 index.html，就能看到一个简单的页面。当然，也可以打开百度提供的前端编辑器，以拖拉拽的形式完成前端界面的开发即可，类似 qtdesigner 或者 C# 开发 .NET FrameWork 的操作。

友情提示：和任何 UI 开发一样，建议为每个组件提供 flex 布局或者容器，后期容易调整样式，开发出来的 UI 界面也更好看。开发完成之后，点击这个按钮获取 json 文件：

待补充图片

然后拷贝到 index.html 中的 let amisJSON = 字段，就完成了 UI 界面的开发。注意：这里只是完成了 UI 界面开发，并没有和后台的数据相关联，并没有捕捉用户的动作，完成交互和响应需要单独写代码。需要在下图的位置添加事件：

待补充图片

如果你有幸搞过 Qt 或者 .NET FrameWork 的开发，那么一定对这个东西不陌生。熟练使用事件可以让界面的响应更加流畅。下面开始介绍事件的使用，并和后端相关联。

后端

结语

说实话，入职 3 个月培训结束后，一直在被安排干前后端开发的活，为他人提供一些网站服务。然而实际是我是一个算法工程师，每天到工位都感觉自己像个傻逼。

在 python 操作大文件时节省内存

2023-12-26T15:09:44.000Z

没想到有一天写 python 的时候也会想着如何去节省内存。平时写 python 的时候根本不会关注这些，变量什么的直接创建和使用就完了，也不用考虑内存的释放，反正有垃圾回收机制。只不过这次数据量过大，debug 的时候发现内存一直在申请，导致系统彻底的卡死。

可能也是从事算法的优化工作养成了职业病，每次写代码的时候都会想，这些代码消耗的时间怎么样，占用的空间怎么样，数据结构是否可以继续优化，这些逻辑有没有更优雅的写法。

注：本文程序中使用 psutil 库来监测进程使用的内存大小，需要 pip install psutil一下。

背景

需要解析一个很大的日志文件，日志文件中含有一些无用的信息，像下面这样：

有用信息1
无用信息1
有用信息2
有用信息3
无用信息2
...
有用信息N

解析文件的时候，需要从文件中解析并提取出有用的信息，存入一个对象中，完成后续的处理。
但是呢，对于某些特殊的任务和需求，发现文件只解析一次是不行的，也就是需要对文件进行二次解析。

所以为了避免重复的解析文件，在第一次文件解析完毕后，直接把有用的核心信息序列化出去，这样二次解析的话就不用重新读取源文件在解析，直接读取序列化后的核心数据就好了。

序列化导出

最开始的方案是使用一个 list 持续追加解析得到的核心数据，文件解析完毕后把这个很大的 list 序列化出去。监测到进程占用的内存大小为：700MB。

import random
import pickle
import time
import psutil
import os

data = []

for i in range(10000000):
    data.append(str(random.randint(10000, 109070987)))

with open("data.pkl", "wb") as f:
    pickle.dump(data, f)

# 获取当前 Python 进程占用的内存
memory_info = process.memory_info()

# 打印占用的内存大小，rss 单位为字节
print(memory_info.rss / 1024 / 1024, "MB")

而如果使用序列化追加的方式，仅用 15MB，耗时增加 2s，毕竟每次序列化的时候都需要打开文件并在末尾追加内容：

1
2
3

with open("data.pkl", "ab") as f:
    for i in range(10000000):
        pickle.dump(str(random.randint(10000, 109070987)), f)

这里可以设置一个 buffer 进行优化，buffer 达到一定大小后在统一序列化出去。

class SeriesModel:
    def __init__(self) -> None:
        self._buf = []

    def series(self, stack, finish=False):
        self._buf.append(stack)
        if 100 < len(self._buf) or finish is True:
            with open(config.SERIES_PATH, "ab") as f:
                for item in self._buf:
                    pickle.dump(item, f)
                self._buf = []

序列化读入

在二次解析的时候，需要把序列化的数据 load 进来。如果加载序列化的文件并且直接处理数据，同样需要使用 700MB 的内存。这种一次性创建所有元素的行为是没有必要的。

with open("data.pkl", "rb") as f:
    data = pickle.load(f)

    for i in data:
        i += " "

可以使用惰性计算来解决这一问题，只有在真正需要这个变量的时候才去创建，而不是一开始就创建所有的变量。考虑到生成器表达式的局限性，我们直接使用 yield 关键字创建一个生成器函数。

yield 语句类似 return 会返回一个值，但它会记住这个返回的位置，下次迭代的时候就从这个位置继续执行，返回下一个元素。这样就消耗内存 15MB。

def read(file):
    with open(file, "rb") as f:
        data = pickle.load(f)
        for i in data:
            yield i

# data 是生成器
data = read("data.pkl")
for i in data:
    i += " "

引申

任何一个生成器都会定义一个名为 __next__ 的方法，这个方法要在最后一个元素之后需抛出 StopIteration 异常。next() 函数的本质就是调用对象的 __next__()。这个方法要么返回迭代的下一项，要么引起结束迭代的异常 StopIteration，下面的示例揭示了生成器的本质。

class FibGenerator():
    def __init__(self, n):
        self.__n = n

        self.__s0 = 0
        self.__s1 = 1
        self.__count = 0

    def __next__(self):  # 用于内建函数 next()
        if self.__count < self.__n:
            ret = self.__s0
            self.__s0, self.__s1 = self.__s1, (self.__s0 + self.__s1)
            self.__count += 1
            return ret
        else:
            raise StopIteration

    def __iter__(self):  # 用于 for 循环语句
        return self

fg = FibGenerator(5)
print(type(fg))
print(isinstance(fg, Iterable))
for i in fg:
    print(i, end=' ')

>>>
<class '__main__.FibGenerator'>
True
0 1 1 2 3

示例中如果没有定义 __iter__() 方法则只能使用 next() 函数进行迭代，当它定义后，就可以使用 for 和 in 语句访问了，同时定义了这两种方法的对象称为迭代器。生成器表达式和生成器函数产生生成器时，会自动生成名为 __iter__ 和 __next__ 的方法，所以生成器也是一种迭代器。

参考链接

https://pythonhowto.readthedocs.io/zh-cn/latest/iterator.html

如何写出更好的程序二：尽可能减少代码的修改

2023-11-17T15:50:00.000Z

职场新人兼新手程序员斗胆开了新坑「如何写出更好的程序」，所见所得都是来自实际写代码时自己的思考，且已脱敏。这一系列不包含任何复杂的技术，也不包含任何难懂的代码。只是将核心问题暴露出来，针对这些场景，如何写出可维护性更高、更简洁优雅的代码。

目前仅包括 python 装饰器的使用，等某天遇到其他技术也可以减少代码的修改时，会追加到本文。

使用 Python 装饰器

背景

一开始写代码的时候，都在想着要尽可能的支持全部功能，要获取各种信息并反馈给用户。于是我写了一大堆代码，创建了各种类、各种数据结构，以及实现了各种方法。

class A:
    def func1(): ...
    def func2(): ...
    def func3(): ...


class B:
    def func4(): ...
    def func5(): ...
    def func6(): ...

为了高效的获取信息，一些数据可以复用，一些逻辑可以跳过，这样写出来的代码也会错综复杂：

def main():
    a = A()
    a.func1()
    b = B()

    val = some_func()
    
    if val < 100:
        a.func3()
    else:
        b.func4()

某天忽然遇到一个新需求：需要增加一个轻量版的代码，只得到 3 个核心信息就好了，其他信息直接忽略掉。这时我回首我的代码发现：为了得到各种信息，之前的代码十分庞大，有很多类，也有很多方法，复杂的逻辑修改起来并不是件很容易的事。

为了实现轻量版的代码，重写代码肯定是不值得的，毕竟一些代码逻辑和数据结构可以复用。重写代码势必会导致代码文件增加，冗余代码增多。
如果复用代码，会发现这个类可以不用创建，这个逻辑可以跳过，一些类的成员方法可以不用执行。

坏代码

如果在代码中手动添加 lite 这一轻量化参数，遇到不需要执行的代码就根据 lite 写 if else 分支给代码加岔路口，代码结构会十分繁杂。比如有 lite 选项时，我们需要创建 A 这个类，根据临时结果判断是否需要执行 b.func4()，那么上述代码修改为：

def main():
    lite = True
    a = A()
    if not lite:
        a.func1()
    b = B()
        
    val = some_func()
    
    if val < 100 and lite:
        a.func3()
    else:
        b.func4()

对于 1000 多行更加复杂的代码，手动添加 lite 分支并修改逻辑，这是很累的工作，写出来的代码也不好看，通用性也随之变差。

装饰器优化

此时我们可以使用装饰器来完成这一工作，如果不知道装饰器是什么东西可以参考我之前的文章。在装饰器中首先传入 self 参数，如果检测到类的 lite 属性为 true，直接跳过这一函数不执行。此时我们只需要打开需要改动的类，增加 lite 属性。

如果确定这个方法可以不执行，给方法增加装饰器即可。而对于 main 函数中的代码，是不需要任何修改的，也不需要增加大量的 if else 分支，减少代码结构的修改和破坏。逻辑处理部分的代码如下所示，相比坏代码部分精简了很多，且 a.func1 和 a.func3 都是不会执行的。

def use_lite(func):
    def wrapper(self, *args, **kwargs):
        if self.is_lite:
            pass
        else:
            return func(self, *args, **kwargs)
    return wrapper

class A:
    def __init__(self, lite=False):
        self.lite = True
    @use_lite
    def func1(): ...


def main():
    a = A(True)
    a.func1()
    b = B()
        
    val = some_func()

    if val < 100:
        a.func3()
    else:
        b.func4()

补充：@use_lite(self.lite) 是会报错的，因为装饰器是外部方法，并不是类的成员，也就无法捕捉类对象。

如何写出更好的程序一：用好配置文件和减少硬编码

2023-10-18T15:15:26.000Z

以 python 为例，本文的主要内容包括：如何使用配置文件，以及如何减少代码中的硬编码，引申到了代码的组织架构和可维护性上。

如何使用好配置文件

针对一个代码文件使用配置文件的情况

假设只有在 main.py 中需要读取配置文件，将配置文件的部分变量以传参的形式交给其他函数使用，这是最简单的场景。举个简单的例子，如果是生产环境，那么 env=debug；如果是开发环境，那么 env=release，当然这是从配置文件里读取得到的。考虑复杂一些的情况，如果是用户 DIY 使用，可能需要的变量并不在配置文件中。

对于这一场景，建议将配置文件写到 config.py 中，并且用一个类进行封装，变量就是类的成员。当需要根据生产或开发环境执行不同的代码时，只需要在类内进行判断即可。当用户需要增加其他变量时，由用户继承这一个类并添加自己的变量和方法就好。

class Data:
    def __init__(self):
        self.env1 = ...
        self.env2 = ...
        self.__setup()

    def __setup(self):
        if self.env1 == "1":
            func1()
        else:
            func3()

        if self.env2 == "2":
            func2()
        else:
            func4()

针对多个文件使用配置文件的情况

如果此时有几十个代码文件都需要读取配置文件，获取其中的变量并执行对应的代码，总不能每个文件都创建一个类对象并初始化吧。你说参数传递？如果函数的传参很困难又该怎么办呢？具体而言，当开发后端的时候，main.py 读取配置文件并得到了 env=debug，此时打开了网页，点击一些按钮完成一些交互，则 web 端会通过 js 发起了一个 post 请求，告诉你需要执行某些代码，这个请求被 handler.py 拦截到。

此时存在一个问题：handler.py 中的 get 方法拦截到 web 端请求，并不是 main.py 直接将请求发送到 handler.py。所以此时不能直接传递参数，handler.py 也并不知道 env=debug，所以可能不知道执行哪些代码。再去重新实例化一个类？几十个代码文件都去实例化同一个类，未免浪费空间。

简单的参数可以加到 post 请求的 url 里，但是当参数高达十几个时，传参和接收参数这会很麻烦。何况配置文件就在那里，handler.py 直接获取会方便很多。这个时候建议将配置文件写到 config.py 中，但不是以类的形式，而是直接写入变量并赋值，如 ENV="DEBUG"。当任何文件需要读取这一变量时，直接 import config; config.ENV 便可获取。有点类似 C 语言中的 #define。

yaml 或者 json？

还有一些通过读取 yaml，json 等配置文件来生成变量的，但是这会不可避免的增加代码中的硬编码，而且只能获取变量。根据变量去判断执行哪些方法需要单独实现，所以没有考虑使用。具体而言：

对于情景一中的代码，用类实现配置文件的话可以直接调用类内的 __setup() 方法。如果是 yaml 文件，从文件加载到 env1, env2 后，需要单独去写情景一例子中的 __setup() 方法，不如封装到类内方便。
对于情景二，如果几十个代码文件都去执行 import yaml; yaml.load() 来获取配置文件中的变量，这又会造成大量的文件 IO，没有意义。这也是我不考虑使用 yaml,json 作为配置文件的原因。

减少代码的硬编码

在有了配置文件后，可以有效减少代码中的硬编码，增强代码的可维护性。比如创建了一个字典：

1
2
3

data["name"]     = ...
data["value"]    = ...
data["children"] = ...

但是此时后台的接口忽然发生了变化，children 这个名字忽然改成了 subfunc，后台解析只认 data["subfunc"] 这个字段，上面的写法需要去所有代码文件里一个个的搜索 "children" 并替换为 "subfunc"，显然是很累又不得不干的活。这个时候可以使用配置文件：

config.py
CHILDREN = "children"

main.py
import config
data[config.CHILDREN] = ...

如果再遇到 children 名字改成了 subfunc，只需要在 config.py 里修改 CHILDREN 的取值就可以了，只需要修改一次，比上面的实现优雅一些。

重灾区：函数返回值

另一个硬编码重灾区是函数的返回值，众所周知 python 函数是可以有多个返回值的，对于暂时不需要的返回值可以用下划线忽略掉。

def func():
    return name, info, value, key, address, flag, context

name, info, value, key, address, _, context = func()

其实上面获取函数返回值的形式更像列表的切片：

def func():
    return name, info, value, key, address, flag, context

return_val = func()
name = return_val[0]
info = return_val[1]
value = return_val[2]
key = return_val[3]
address = return_val[4]
context = return_val[6]

可以看到，如果要调用 func 函数，就必须牢记返回值的顺序，当代码文件很多时并不友好，也不优雅。当需要增加或减少返回值的数量时，切片访问函数返回值的形式也很难处理。比如当不需要返回 name 字段时，或者需要增加一个 param 参数，下标都需要修改。增加返回值时，别说把这个返回值放到所有函数返回值的最后，这只是为了代码能运行起来做的妥协，没意思。以上情况对于调用 func 的函数而言都需要一个个手动修改，简直是一场灾难。

这个时候建议使用类对象或者字典，道理是一样的：

def func():
    return {
        "name": name,
        "info": info
    }

这样，就在也不需要记住返回值的顺序，也不必担心函数增加或减少返回值，甚至不用关注返回值的顺序。都可以直接通过字典的 key 访问。你说 "name", "info" 这样的硬编码不好？可以用前面讲述的配置文件避免掉它呀。

C 这种语言并不支持函数返回多个变量，需要返回多个变量时都是使用结构体来完成，这种想法值得借鉴。对于 python 语言，字典也好，类对象也罢（对象的话就是通过成员访问），取决于具体的适用场景，但是都可以避免通过切片这样的硬编码方式去获取函数的返回值。

使用类规范函数返回值

对于一个函数，接受原生的数据 raw_data 完成解析，并返回各种信息数据：

1
2
3

def func(raw_data):
    ...
    return info1, info2, info3, info4, info5, info6

但是其他函数使用返回值时，info1到info6这些信息并不是全部都需要使用。有时候仅仅需要使用 info1 和 info4，很烂的写法有两种：

1. 
info1, _, _, info4, _, _ = func(raw_data)

2.
data = func(raw_data)
info1 = data[0]
info4 = data[3]

上述写法，当 func 函数发生变化，如：增加其他返回值、删除无用的返回值时，对于代码维护而言都是一场灾难。千万不要假设需求不会变化，也不要假设针对接口编程时接口始终不变，永远不知道会面临什么新的鬼需求和变动。就算是针对接口编程，每个函数的返回值是什么，返回值的顺序都需要记住，是一种很累的事情。

除了上文讲述的使用字典或者类之外，还有一种其他方法：

class Info:
    def __init__(self):
        self.__idx = {
            "info1" : 0,
            "info2" : 1,
            "info3" : 2,
            "info4" : 3,
            "info5" : 4,
            "info6" : 5,
        }

    def get_item(self, data, args):
        return_val = []
        for i in args:
            return_val.append(data[self.__idx[i]])
        if len(return_val) == 1:
            return return_val[0]
        return return_val

info = Info()
info1, info2 = info.get_item(func(raw_data), ["info1", "info2"])

只需要创建一个对象，在 get_item 这个函数的参数中指定自己想要获取的参数和顺序即可。即使函数 func 的返回值发生了顺序、数量等方面的变化，也只需要修改一下 __idx 成员即可。

仿佛不如字典简单？确切来说，这种方法有自己的适用场景：当 A 函数获取 info.get_item 信息后需要进行 postA 的后处理，当 B 函数获取 info.get_item 信息后需要进行 postB 的后处理。这样，就可以把 postA 和 postB 放入到 class Info 中，将分散到各地的相同逻辑的代码整合到一起。至于 "info1" 和 "info2" 这种硬编码，也可以用前面讲的东西规避掉。

需要注意的是，这种实现是比较耗时的。如果这个方法到处被调用，会增加程序的执行时间。耗时这一点是通过 py-spy + speedscope 这两个工具发现的，推荐一下这两个工具，用来观察 python 代码中的性能瓶颈。

关于代码的组织架构

文件、文件夹都要做好各司其职，不要怕麻烦，写好 __init__.py，不要把很多文件胡乱的扔到单个文件夹里随意的调用，甚至没有文件夹。时间长了或者当别人用的时候，真的很乱。这次任务我实现了经典的 MVC 模式。

model 就是数据解析，存储和维护一些数据结构，如果想要的数据不能直接获取，也可以在 model 里增加一些获取数据的接口。建议将 model 封装为一个类，在一个方法里读取文件，解析得到数据结构，并放到类成员中，方便接口调用获取数据，也避免重复读文件和数据传来传去带来的拷贝开销。交由一个对象去维护数据，由对象的接口去操作数据。而不是将数据读取放到全局变量，任由各个代码、各个函数随意操作。
view 是数据的展示，以什么形式和结构展示给用户，显示界面、写出文件或命令行输出等形式；
control 是交互的控制，用于捕捉用户请求，按照请求访问 model 的接口并获得想要的数据，再调用 view 接口反馈给用户。

当需要获取很多种类型的数据时，开发重点在 model 部分，因为 control 只是调用获取数据的接口，view 只是展示数据。当需要 A 类型的数据时，control 调用 model 的 getA() 方法即可，当需要 B 类型的数据时，调用 model 的 getB() 方法。

重点就是这两个方法去如何实现，如何设计高效的数据结构去维护数据，来减少数据的拷贝和优化获取数据的效率。总不能 getA() 的时候重新读文件，getB() 的时候再去读文件，对吧。这就需要在 model 部分下工夫，比如这次就用到了数据结构中经典的 dfs+树的后根法快速解析了数据。~~leetcode 没白刷了属于是~~

关于代码维护

额外的，在开发 model 时也有其他的收获：写代码尽可能将各个模块独立封装，写出高内聚，低耦合的传说级代码。虽然当函数很多时会很看着有些乱，怎么到处是函数？但是也有重要的优点：代码和数据重用方便。比如要增加一个新功能，只需要写一点函数，其他函数也许已经实现了，我们直接调用就好，而且不易出错。

如果写一个大函数完成一个功能 A，在写另外一个大函数完成功能 B，这两个大函数操作的变量会有重叠，也会有一些重复的逻辑。当其中的逻辑过于复杂时，难免出错。十分建议将功能剥离开来。

这种低耦合+配置文件的形式也可以灵活的解决一些暂时不确定的场景。领导告诉你说：暂时有 A，B，C，D，E 这五种类型，需要分类处理，后面可能会有改动。你兴冲冲的把这些类型作为字典的 key 完成了分类处理。

某天领导又说，把 A，B，C 归类为类型 1，把 D，E 归类为类型 2，根据不同的类型创建不同的文件夹，但是后面可能还会变动。不到半小时，又收到通知说把 D 归为类型 1，A 的名字改为 Afunc，删除类型 2，并增加 F，G，H 为类型 3。既要修改类型，又要映射关系，去大段的代码函数里修改这些内容真的很累的，也很容易出错。这个时候可以在配置文件里写一个映射函数，每次修改这个小函数并调用就可以了。

def map(name):
    if name in ["Afunc", "B", "C", "D"]:
        return 1
    elif name in ["F", "G"， "H"]:
        return 3
    else:
        return -1

总结，不要假设需求是不变的，这样写出来的代码很烂；需求发生改变时，代码修改难度也很大。

它就应该是这样，不存在其他情况；
这种情况不会出现，就先不考虑了；

程序员最好杜绝以上想法，不然写代码一时爽，改代码火葬场。场景会发生变化，需求永远是在变化。异常情况做好处理，减少代码的硬编码，降低代码功能的耦合度，针对接口编程，学过的设计模式也都可以用起来。避免需求发生变化时大量的修改代码，尽可能通过增加新接口和新函数来适应新的需求。

git 实操记录

2023-09-13T15:16:44.000Z

2023.7.10 入职距今已经两个月零 3 天了，培训课程十分紧张也没来得及做一些技术的思考和整理。~~主要是下班回家后只想躺着玩手机，周末持续性出去撒欢。~~ 但只学习不思考和整理是程序员的忌讳。培训课程结束后，会对这两个月的培训时间进行思考，同时对未来该怎么更好的工作也进行一个思考，甚至包括如何更好的休息锻炼来保持充沛的精力。

回到正文，git 是程序员写框架和交流代码时的必要工具，而过于贫瘠的实操经验导致我真的不会这玩意。尤其是多人协作 pull, merge 或者 reset 时，时常把代码搞的乱七八糟。所以在这里记录 git 的踩坑记录。

git 操作时很大程度受限于实际的情景，本地基于什么分支进行了什么修改，是否暂存，是否提交，是否有冲突等等等等。出问题后去网上搜索时，网上的例子和本地的例子不一定很符合，或者说只有一半符合。往往不知道该执行哪些命令，是否会把文件弄的很乱无法撤回。

这个时候建议把实际情景描述一下，去问问 GPT，以我的使用经验，得到的回答 99.9% 都是可用的。

`git` 开发时，A 分支的代码泄漏到了 B 分支？

问题背景

当时想实现 master 分支只有 README.md, .gitignore, 3rdparty 等公共文件。

对于任务一，新建 dev1 分支，并在 dev1 文件夹里面写代码
对于任务二，新建 dev2 分支，并在 dev2 文件夹里面写代码

这样 dev1 和 dev2 分支的代码位于不同文件夹，互不干扰。最后全部合并到 master 分支的时候，也不会产生冲突。

错误操作

在实现期间出现了一个漏洞，当完成 dev1 任务的代码后，直接在 dev1 分支下 git checkout -b dev2，这样就会发生：dev2 分支下有 dev1 的代码，不是很优雅。

当时培训课程的进度比较紧张，也没有刻意去关注这个问题。只是在 dev2 分支下手动删除了 dev1 文件夹的代码，这样在 git status 的时候会看到很多 delete 信息，且会随着 dev2 分支的提交而提交到 gitlab 中，merge 时会看到很多无用的删除文件信息。

正确做法

随着课程的陆续学习，框架规模越来越大，代码文件也越来越复杂。由于自己的 git 实操很少，担心 git 误操作后导致分支或文件过于混乱。又回过头来重新看这一问题，在本地进行一些简单的实验后发现了正确做法。

在完成 dev1 分支的代码并提交后，应该 git checkout master，在 master 分支下新建 dev2 分支，这样才能实现 dev2 分支不含 dev1 的代码，保证提交代码时的信息足够干净。

记一次代码污染

背景

起因：需求是将本地 local 分支提交到 develop 分支。我理解成了将本地的 local 分支提交到 develop 分支，并向 master 提交 PR。于是执行了：

1	git push -u origin local:develop

这样就导致了代码污染。因为可能有其他人基于 develop 分支开发代码，而我的 local 代码直接覆盖了远程的 develop 代码。

其他人提交代码的时候，会导致代码冲突；
其他人获取 develop 代码时，会获取到我的 local 代码，但是我的 local 代码没有经过检查和测试，负责模块整合的人也没有处理我这个模块可能存在的异常。所以很可能在运行期间存在错误。

正确做法

1	git push -u origin local

这样远程仓库中就会有一个 local 分支，提交 PR 时将 local 分支提交到 develop 分支即可。为什么要添加 -u 参数？

如果你在本地仓库中使用 git clone 命令克隆了一个远程仓库，并在本地仓库中使用 git checkout -b A 命令创建了一个名为 A 的新分支，并使用 git push A 命令将该分支推送到远程仓库，那么远程仓库将会有一个名为 A 的分支。

但是在使用 git push 命令时，你需要指定要推送的分支和远程仓库的名称。如果你使用 git push A 命令，git 将会尝试将本地仓库中名为 A 的分支推送到远程仓库中名为 A 的分支，但是如果远程仓库中不存在名为 A 的分支，git 将会报错。

因此，如果你想要将本地仓库中的 A 分支推送到远程仓库，并且希望在远程仓库中创建一个名为 A 的分支，应该使用以下命令：

1	git push -u origin A

这将会将本地仓库中的 A 分支推送到名为 origin 的远程仓库，并在远程仓库中创建一个名为 A 的分支。

使用代码回撤来解决代码污染

但是现在已经做错了，需要使用代码回撤来修复污染。可以使用 git reflog 命令查看本地仓库的提交历史，找到 develop 分支的提交记录。使用git reset 命令将代码重置到 develop。

$ git reflog

...
HEAD@{1}: commit: 
HEAD@{2}: commit: 
HEAD@{3}: commit: 
HEAD@{4}: commit: 
HEAD@{5}: commit: 
HEAD@{6}: commit: 
HEAD@{7}: commit: 
...

找到最后一个 develop 分支的提交记录，记下该提交的哈希值。运行 git reset 命令将本地仓库的 develop 分支重置到该提交记录。例如，如果最后一个 develop 分支的提交记录的哈希值为 abc123，则可以运行以下命令：

1	$ git reset --hard abc123

运行 git push --force 命令将本地仓库的 develop 分支强制推送到远程仓库。请注意，这将覆盖远程仓库中的 develop 分支，因此请确保已经找到了正确的提交记录。这样就能恢复 develop 分支之前的代码。

1	$ git push --force origin develop

git 实用命令

一般的开发流程

首先克隆仓库

1	git clone git@xxx.git

创建本地分支，并对应远程分支

1
2
3

git branch -a         // 查看分支
git checkout -b local_branch remote_branch // 切换分支并对应远程分支

获取新分支

clone 仓库的 1 天后，有新分支提交到了远程仓库，所以本地没有这个分支。为了查看新分支的代码，需要更新分支：

1	git remote update origin -p

暂存修改

在新分支开发代码时，遇到紧急任务需要切换到其他分支修复漏洞。但是新分支的代码才写了一点点还没有 commit，如果直接 git checkout 会报错，因为新分支的修改没有被存下来或提交。此时可以暂存修改：

1 2	git stash // 暂存当前未提交的更改 git checkout // 切换到另一个分支

当你完成其他工作并切换回原分支时，可以使用以下命令还原暂存的更改：

1	git stash pop

不建议以下的操作，因为这会直接放弃当前分支的修改：

1	git checkout -f // 切换到另一个分支并丢弃未提交的更改

git 丢弃本地的修改

代码改的乱七八糟不想要了：

1	git reset --hard HEAD

临时代码推送

临时创建了一个文件夹复现了某个问题，需要把这份代码提交到某个仓库。在 git init 之后增加远程仓库：

1	git remote add origin git@xxx:xxx.git

因为是临时新建的仓库，所以目前处于 master 分支。执行下面命令，将本地的 master 分支推送到远程的 test 分支（远程没有的话会自动创建）：

1	git push origin master:test // 不加 master: 会报错，因为本地没有 test 分支

修改错别字，不值得重新 commit

首先修改小错误，然后：

1 2	git add . git commmit --amend

如果此时直接 push 会报错，因为 git status 显示并没有新的内容。如果是提交到自己的分支，在不影响他人的开发的情况下可以直接：

1	git push origin master:test -f

这样仓库上只显示一次 commit 记录。如果不是强制推送，那么会遇到下面的问题：

To git@github.xxxx.git
 ! [rejected]        master -> main (non-fast-forward)
error: failed to push some refs to 'git@github.xxxx.git'
hint: Updates were rejected because a pushed branch tip is behind its remote
hint: counterpart. Check out this branch and integrate the remote changes
hint: (e.g. 'git pull ...') before pushing again.
hint: See the 'Note about fast-forwards' in 'git push --help' for details.

起因是在这次 push 之前有一次 git commit --amend 修改错别字的操作，当时这个修改是没有提交的。所以再次修改代码并提交时，就遇到了冲突。因为同一文件同样的位置有不同的内容，无法自动合并，所以 push 的时候报错。

此时需要手动 git pull 一下，由用户自己手动 merge 处理冲突。如果是 vscode 的话，看一下哪里修改，如果保留当前版本，点击 accept current change 即可。再次 git add commit push 就没问题了。

代码写到一半，需要同步同事的代码

此时只需要在当前分支下 pull 代码。把自己的代码完成后，再次提交到分支。假设远程分支叫 B，基于 B 分支 checkout -b 出 A 分支，在 A 分支写代码。远程分支有更新， merge 了一些修改，让 A 获取到 B 的更新：

1	git pull origin B

git 查看本地分支对应的远程分支名

1	git branch -vv

git 查看分支差异

git 基于 B 分支创建了分支 A，并在 A 分支进行了修改和提交，提交后，vscode 等编辑器内无法看到修改内容。可以通过下述命令查看 A 分支和 B 分支的差异，也就是看 A 分支都改动了哪里。

1	git diff A B file_path

多次 `commit` 记录合并

为了保证提交信息的整洁，可以使用 git rebase 命令来将多个 commit 合并成一个，并保留代码的修改。以下是具体步骤：

使用 git log 命令查看你想要合并的 commit 记录的哈希值，例如将以下 3 个 commit 记录合并成一个：
1
2
3
4
$ git log --oneline
3a2b1c3 Add feature A
2b3c4d5 Fix bug B
1c2d3e4 Implement feature C
使用 git rebase -i HEAD~3 命令来打开交互式 rebase 编辑器，其中 HEAD~3 表示要合并的 commit 记录数量。在编辑器中，将第二个和第三个 commit 记录的操作改为 squash，表示将它们合并到第一个 commit 记录中。例如：
1
2
3
pick 3a2b1c3 Add feature A
squash 2b3c4d5 Fix bug B
squash 1c2d3e4 Implement feature C
保存并关闭编辑器。

pick 操作会将一个提交应用到当前分支，而 squash 操作会将一个提交合并到前一个提交中，从而将多个提交合并成一个。

git 会自动打开另一个编辑器，让你编辑合并后的 commit 信息。你可以保留第一个 commit 记录的信息，或者修改为新的 commit 信息。保存并关闭编辑器。
使用 git push --force 命令将修改后的 commit 记录推送到远程仓库。注意，由于使用了 --force 参数，这会覆盖远程仓库中的历史记录，因此请确保你的操作不会影响其他人的工作。

git reset 用法

git reset 命令用于将当前分支的 HEAD 指针移动到指定的提交，同时可以选择是否修改暂存区和工作目录。--hard 和 --soft 是 git reset 命令的两个选项，它们的区别在于是否修改暂存区和工作目录。

--hard 选项会将 HEAD 指针、暂存区和工作目录都重置为指定的提交。这意味着所有未提交的更改都会被丢弃，工作目录中的文件会被覆盖为指定提交中的文件。
--soft 选项只会将 HEAD 指针移动到指定的提交，而不会修改暂存区和工作目录。这意味着所有未提交的更改都会保留在工作目录中，可以通过 git status 命令查看它们的状态。

一般来说，如果你想完全撤销所有未提交的更改并回到指定的提交，可以使用 --hard 选项。如果你只是想将 HEAD 指针移动到指定的提交，但保留未提交的更改，可以使用 --soft 选项。

这个命令我用的不多，实际场景用到时在补充。

优雅的解决 hexo 推送 index.html 内容为空的奇奇怪怪

2023-07-04T10:52:48.000Z

某天闲来无聊的时候，恍惚的发现我竟然还有个博客？主要是太忙了。 ~~其实是自己过于懈怠没学新东西，休息了半年多也没缓过来~~。尝试推送了一下，也许是某次滚动更新 Linux 的时候升级了 Node.js ，结果 Node.js 版本过高和 hexo 版本不匹配。这就导致博客推送后， github 仓库中全部的 html 文件内容为空。网上绝大多数博客都是写的降级 Node.js，但这总不是办法，所以不如升级 hexo 来解决问题。

也许在大学的时候遇到过：代码或者软件无法跑通的情况，去问学长或者老师的时候他们就会说，你用的版本太新了，新版本不好用，换成旧版本和我一样就没问题了。总会有人因为可以方便的向老师或者学长提问而屈服于选择旧软件。但从软件开发和维护的角度而言，软件在不断的更新，旧版本无人维护或功能不全。事物在不断的发展，古人都知道不要刻舟求剑，为何抱着老旧软件不放而不选择新软件呢？对于个人使用而言，咬咬牙解决一些 bug 或者版本冲突，问题也就解决了。扯远了，一共两种解决方案，分别是 Node.js 降级或者 hexo 升级，本文推荐后者。

hexo 与 Node.js 的版本对应关系

打开 hexo 的官方文档可以看到 hexo 与 Node.js 的版本对应关系：

`hexo` 版本	最低版本 (`Node.js` 版本)	最高版本 (`Node.js` 版本)
6.2+	12.13.0	latest
6.0+	12.13.0	18.5.0
5.0+	10.13.0	12.0.0
4.1 - 4.2	8.10	10.0.0
4.0	8.6	8.10.0
3.3 - 3.9	6.9	8.0.0
3.2 - 3.3	0.12	未知
3.0 - 3.1	0.10 或 iojs	未知
0.0.1 - 2.8	0.10	未知

由于我的博客是在 20 年初迁移到新电脑的，hexo 是 3.9.0 的旧版本，而 Node.js 被更新到 20.3.1，也就是版本不匹配，导致博客一波被清空，各种 html 文件没有任何内容。

Plan1：Node.js 降级

打开浏览器搜索，这个就是绝大多数的解决方案。这里建议使用 nvm 管理 Node.js 的版本，之后对 nvm 换源，并安装各个版本的 Node.js。

1
2
3

sudo pacman -Ss nvm  // 安装
export NVM_Node.js_ORG_MIRROR=https://npm.taobao.org/mirrors/node/  // 换源
nvm install 12.0.0 // 选择适配 3.9.0 的 nodejs 版本

通过上述命令，如果没有遇到其他奇怪的 bug 的话，Node.js 12.0 版本就被安装成功了。由于 hexo 默认使用系统安装的 Node.js，而不是 nvm 安装的 Node.js。所以在每次更新博客时需要调用 nvm 切换 Node.js 版本进行推送：

1 2	nvm use 12.0.0 // 切换版本 hexo g --d // 推送博客

而且由于 hexo 默认使用系统安装的 Node.js，这个版本的 Node.js 不被 nvm 所管理，所以每次推送必须使用 use 命令来切换版本，这个就很繁琐，不够优雅。下述命令是无法起作用的：

1	nvm alias default 12.0.0

此时虽然能推送博客，但由于 hexo 版本过低，在推送时仍然会提示有异常信息：ERROR Plugin load failed: hexo-cli，反正就看着很不爽。

此外，我使用了 fish 终端，这个终端安装和使用 nvm 有些许的费劲，这里给个教程，防止未来某天我自己忘掉。

Plan2：hexo 升级

如上所述，软件升级是不可避免的，每次推送博客需要使用 nvm 去切换版本也过于繁琐。那不如直接升级 hexo 一劳永逸？

我当时是卸载了全部的 npm，Node.js hexo 重新安装。备注：nvm 是 Node.js 的版本管理工具，npm 是 Node.js 下面的库安装工具，类似 python 的 pip：

npm uninstall hexo-cli          // 卸载 hexo
sudo pacman -Rsc -n nodejs      // 卸载 nodejs
sudo pacman -Sy nodejs          // 重新安装 nodejs
sudo pacman -Sy npm             // 重新安装 npm

之后，给 npm 换源，并安装 hexo 即可，备注：如果安装无响应或无权限，给下面的命令加个 sudo 即可。

1 2	npm config set registry https://registry.npm.taobao.org // 换源 npm install -g hexo-cli // 安装 hexo

但是呢我发现，安装后的 hexo 依然是 3.9.0 的旧版本，所以我选择给 hexo 升级，同样，下面的命令如果无法执行时，就加个 sudo。

npm cache clean -f     //清除缓存
// 进入 Hexo 根目录，执行如下命令
npm install -g npm-check       // 检查之前安装的插件，都有哪些是可以升级的 
npm install -g npm-upgrade     // 升级系统中的插件
npm-check
npm-upgrade

npm update     // 更新 Hexo 及所有插件

这样，就升级了 hexo，本文升级到了 6.3.0，正好适配最新的 Node.js，推送博客没有任何问题。

由于我的博客主题配置文件好多年没有更新，而最新的 hexo 和博客的 _config.yaml还有一个冲突：external_link 报错，只需要打开博客配置文件 _config.yaml，找到：

1	external_link: true # Open external links in new tab

修改为：

external_link:
  enable: true # Open external links in new tab
  field: site # Apply to the whole site
  exclude: ''

至此，hexo 推送博客时没有任何报错，清清爽爽。

一些彩蛋

当时本人对于如何解决这个问题也是一头雾水，胡乱的查阅各种文档，走了很多弯路，试了很多错，在无数次卸载重装后解决了问题。期间一个手滑把 node_modules 给删除了，后面重新安装了数学渲染的库，但 equation 和 aligned 这种环境依然无法被正确渲染，处于乱码的状态，按照这一文章可以正确修复行间公式无法渲染的漏洞。

该上班了，学到新知识后也许博客可以勤快的更新起来？哦对还有，查阅文档时看到的一个乐子：

参考

一个不是很规范的致谢

2023-03-03T09:18:27.000Z

写一个正经的致谢吧，作为学生时代的一个小结尾。毕业论文里的致谢太八股了，前一半内容一定要大幅的感谢老师，感谢老师给的机会和培养。后四分之一写实验室同学，在后面写父母。不能感谢自己，最后一段感谢论文评委，过于官方的东西没意思的很。所以写一些不能放到论文里面的致谢。

想来想去一时间不知道从哪里开始谢起，先感谢一下 Carol 老师吧，写的 xduts 模板和接口过于强大，让我能愉快的使用 TeX 写硕士毕业论文，不用再花费过多的精力去调整复杂的格式，使用期间也没有遇到任何排版上问题和困难，还耐心的解答了我的各种疑问。Carol 老师原话：毕业论文除内容外的所有东西他都会，比如 pdf 裁边这种很微小但又很细节的东西。在邻近毕业的时候，我没有在微信上走任何形式去感谢任何人，唯独卡老师是个例外。当时说：希望毕业后在工作中还能遇到你这样的人，这大概是我能想到的最高赞扬了。当时还说等我工作赚钱了一定去打赏 xduts。在某天忽然想起来时，陆陆续续打赏了 800 大洋，就当赞助用爱发电的开源项目了。

想起来 2020 年研究生入学的时候，那时候充满了惶恐和焦虑。当时年轻也不知道如何去选择一个好组和一个好老师，听说了老师的各种事迹后焦虑到呼吸困难。入学后直线加深了我的焦虑，时常担忧未来而在夜里无法入眠。感谢我亲爱的 ykc 师兄不知道和我们在夜里交流了多少次，研一很多次，研二很多次，研三很多次，在实验室，在操场，在小饭馆。虽然他也肩负很大的压力，但也尽可能的舒缓我们的情绪，每次和他聊完都感觉身心安定，坚定了读下去的心。也感谢大师兄 wz，帮我们顶住了老师的压力，每次都尽力的和我们讨论问题，帮我们度过一次次的难关，在其他生活琐事和医食住行等方面也给了我们很多帮助。

在 21 年 11 月的时候，步入了人生的低谷，整日浑浑噩噩沉迷于无所事事。感谢我的师弟 wzb，和我一起开发华为算子中的难点，帮我分担了很大的压力。在今年的 1 月和 2 月帮我跑毕业论文中的部分实验，再次帮我分担压力和焦虑，让我有时间和经历去写毕业论文。真的十分感谢，我当时还在想，毕业后要不要给师弟买个 PS5。

除此之外，由于进的组人数极少且没有任何形式的合作和交流，我更多的社交也都在互联网上了。感谢一个水群的网友，来自五湖四海但因写代码相识，和你们聊天消耗了我日常 70% 的话语，代码技术聊到人生哲学，甚至偶尔搞搞黄色和八卦，让我感觉没那么孤独。

十分感谢给予我经济援助的小伙伴们。研一下半年的经济状况过于贫困，也不好意思去找家里要钱，每天都在芹菜、豆芽、粉条、白菜、西葫芦、豆腐和西红柿之间轮换，因为很便宜。连续吃了几个月之后导致我现在看到这些食物依然反胃，迫于无奈选择了靠程序辅导去赚点钱，感谢你们一笔一笔的经济援助和支持，让我有足够的钱去吃肉、买新衣服、回家能坐高铁，让我活的更加体面。你们人都很好，也希望你们在告别短暂的计算机编程之后，能迎来更好的人生。

尤其感谢期间认识的 tcr 小姐姐，2022 年的 8 9 月份，找工作压力很大期间还生了一次大病，她不断的安慰和鼓励我，每次都发很多很多的话和语音，给我很多建议，希望我坚持下去打败困难，对于我理解不了的内容还打电话特意解释。大恩不言谢，日后必定请吃饭，请最贵的那种。之后感谢 qq，hkx 和 bmh，不嫌弃和我这样的发疯人士聊天，承担了我大多数孤独和压抑的情绪，在我多次发疯后依然不介意尝试去疏导我的情绪和压力。hkx 在听说我读研的遭遇后，二话不说给我买了很多零食，qq 在知道我失眠后给我邮寄了酸枣仁，原来我还不是孤魂野鬼。

昨晚在写论文摘要的时候，想起来一件事情。18 年打比赛的时候，最后一天的凌晨 4 点累的不知道自己是谁，就去跟老师说，我写不动了，你能帮我写下摘要吗？老师说行。我直接睡了过去，再次醒来就是 8 点了。老师 40 多岁，还是通宵帮我把所有事情都弄好，我永远像个孩子一样。后来每次写论文摘要的时候，都会想起他的样子。我很感谢我的本科老师，他把我带入了新的生活和世界，让我学到了编程和建模，从此走上了不一样的道路。我还记得他说过的话：学以致用。我还记得最感动的一次，大三的时候我在犹豫要不要去打比赛，他说：如果我要去，他就把最后一个名额留给我，人我随便挑；如果我不去，最后一个名额也不准备带别人了，当时感动了很久。那年全校 100 多个队伍参赛，只有 4 个一等奖，我是其中之一，那年我的获奖证书被放到学校招新的海报中，也一步步的保研成功。

也许，人生大部分时候都是痛苦的，只有少数的幸福时刻，就像河面上的少许的波光粼粼。但就是这些少许的亮光，能让河流看起来更美，能照亮绝大多数的平庸或难熬时刻，温暖着我们继续走下去。

甚至还想感谢 XM，给我提供了人生的第一份工作，开了极具诱惑力的薪资，还是我很向往的工作方向。本科学的 A 方向，对 B 方向感兴趣，研究生学的 C 方向，对 E 方向感兴趣，但没有 E 方向的相关知识储备和项目经验，所以找工作准备的 D 方向。最后 XM 提供的工作方向是 E，兜兜转转还是遇到了最喜欢的方向，真的十分满足。其实还有一些宿命论的味道，我第一门学习的编程语言大一开设的 C++ 课程，之后对编程萌发了兴趣转专业去学计算机，未来的工作方向也是 C++，很长一段时间内都要靠它吃饭了。

2022, 随便写点

2022-12-02T14:14:21.000Z

6年前的12月1号
体育课下课后在操场跑了几圈
背着当时的初中用过来的破旧书包，去兰园一楼吃了顿鸭扒饭
晚上去自习室学高数，分部积分
之后每年的12.1都会回忆起那普通的一天，宣告着这一年还有最后一个月
今年也不例外

12岁的时候，觉得动画片这么好看大人怎么不喜欢看呢。总以为20岁以后时间密度和快乐会和童年一样，不断打开的新鲜生活是应接不暇的，每一件事都会历历在目，念念不忘，生活也一定五彩斑斓，总有新领域等待我去玩耍。

20岁后的这几年才明白，因为各种主客观的壁垒，成年以后的人生在收窄，只能在一个地方永远停留下去，重复的事物越来越多，时间在重复里飞速进行，总觉得根本没做什么一年就过去了。

人不能同时拥有青春和感受青春，也大概理解了年轻真好的意思，年轻人还有时间去改变一些东西，成年人如果想去改变自己的现状，可以，但会付出很大很大的成本与代价。

年历仍是在更迭的，但每年都像被水浸泡过一般，界限逐步模糊，无法像幼时那样能一一分得清楚，有期待感。只觉得这几年里都是循环的情绪，堆砌的熟稔，往复的麻木，仿佛依靠惯性在活着。即便偶遇意外的惊喜或猝然的悲恸，事后冷静想想，也好像都是从前早已领教过的二手货。

今年去西安的时候，下了大雪，我寻思着瑞雪兆丰年；今天完成了找工作的最后一步，寄三方，又下了大雪；两场大雪，也许宣告了青春的结束。

之前不顺心的时候，总是想着努努力忍一忍，以后去个好地方永远的告别这里，高中是这样，研究生也是这样。

最近在忙毕设，学校的压迫程度，资本家都自叹不如，期望在毕业之前我的博客还能有所技术产出。

秋招结束

2022-10-22T16:06:26.000Z

寒气逼人的惨淡秋招终于 tnnd 的结束了，4月中旬开始投递，10月中旬拿到 offer，耗时6个月。就业形式异常艰难，简历挂，笔试挂，面试挂，感谢信收割机。一种被累垮的感觉。

大家仿佛都是在 3 月份开始了背八股文，我当时觉得没啥意思就顺手参加了个比赛。本人找的算法岗，由于懒惰和各种原因，在第一场面试开始的时候，我都没有背八股，连梯度消失这样的问题偶没有回答上来。拖延到6月下旬才开始背八股，背的时间不长，断断续续的一个月，每次面试前看看笔记就行，剩下的随缘发挥。

但同组的就不一样了，他们投的 java 开发，从 java 基础，多线程，JVM，框架，分布式，数据库，网络，系统等等等等他们都要背，如果说我要掌握的知识一周就可以背完，他们的知识至少要背十周。找工作的时候，他们是睡在实验室的。

最艰难的时候是从7月30号开始的，我清楚的记得那天能投10家公司，除了快手通知我面试外，其余全挂，可惜快手也是一面就挂。在8月的某天下午和晚上连开四场笔试，极限操作，头晕脑胀，手在颤抖，从8月到9月，持续一个月不间断的面试和笔试。这辈子也不想在回忆这种头晕的感觉。

来形容一下某头部大厂的面试，开局两个 hard 级别的 leetcode 题，我写上来了。结果以为后面会很顺畅，结果呢，面试全程就三个字，嗯，啊，好，面试结束。后来才知道他想用代码题来劝退我，早知道我就不写了。在形容一下某硬件大厂的面试：你了解过XX吗，我说没有；你用过XX吗，我说不好意思只听说过。面试直接结束，全程不到5分钟，至于简历里写了什么，你是做什么的一概不问。

京东，网易和腾讯的题目都是令人劝退的难度。如果说数学不会还能写个解，编程不会甚至不能写个空格。我还清楚的记得今年的网易，京东和百度都在围绕 red 这个字符串出题，红色意味着警告，可能告诉我们今年形式很严峻吧。蚂蚁笔试干脆交了白卷，后续的笔试也没有参加，不是看不上蚂蚁，是我真的累了；字节笔试一个不会，瞪着屏幕发呆两小时的感觉很难受。7月投了多少公司，8月就收了多少感谢信。

我在17年因为喜欢代码转专业到了计算机。但是秋招的很长一段时间内患上了代码 PTSD，一看到代码题目就头晕，想睡，本人十分厌恶刷题，找不到丝毫写代码的乐趣，也没有学习的乐趣，一股为了学习而学习的中学味，令人呕吐。以至于后来面试的时候，明明很简单的题，我的下意识反应都是我不会，很简单的题我会想的很复杂。比如求最长回文子串，明明是一个很简单的暴力模拟题，我看到最这个字就往动态规划那边去想，结果写出来的程序又臭又长，我自己都看不下去，写到一半干脆说了不会。

就像准备了很久的高考，上了考场发现自己害怕，不会，也不敢动笔。百度是这样，快手是这样，滴滴也是这样；我是这样，同组得这样，舍友也是这样，大家都被拖的很累。经济形势不好，今年的就业形势到处是槽点。百度和快手的面试官态度是最好的，夸一下。

今年最大的意外就是：本科学的A方向，研究生是B方向，准备的C方向，最后的工作是D方向。至于我能拿offer跟我实力没有半毛钱关系，计算机卷的起飞，我被挤到了芯片，医疗，金融，VR等各个方向，没有一个和计算机相关。面试凭实力？错，全凭运气，有的厂的笔试很简单大二学生都会，面试也能聊得来；有的令人想直接关了屏幕再你妈的见。如果可以，我还是想回到大学的校园里，好好补补基础课。面到最后发现还是大学课程的基本功，可惜大学的黄金时光被我荒废。

感谢各位大哥的帮助，尤其是田学姐数次救我狗命于水火之中。

从 0 开始的 TorchScript

2022-10-02T16:04:09.000Z

上一次正儿八经写博客是今年 2 月，5 月做了个比赛总结，其余的博客竟然都是刷题和算法，实属无聊。艰难的日子已经过去，准备学点模型部署相关的东西以及参与一个实际的开源项目，争取数据、算法和工程全链路打通。众所周知，对于一个不是很常用的东西，学完就忘，如 spark, Go 等学过的但很少用的东西，已经被我抛到九霄云外了。所以，这次学完模型的 trace 之后，尝试部署一些能实际运行的软件。

基本概念

TorchScript 是 PyTorch 的 JIT 实现。JIT 全程是 Just In Time Compilation，也就是即使编译。在深度学习中 JIT 的思想更是随处可见，最明显的例子就是 Keras 框架的 model.compile 创建的静态图。

静态图需要先构建再运行，优势是在运行前可以对图结构进行优化，比如常数折叠、算子融合等，可以获得更快的前向运算速度。缺点也很明显，就是只有在计算图运行起来之后，才能看到变量的值，像 TensorFlow1.x 中的 session.run 那样。
动态图是一边运行一边构建，优势是可以在搭建网络的时候看见变量的值，便于检查。缺点是前向运算不好优化，因为根本不知道下一步运算要算什么。动态图模型通过牺牲一些高级特性来换取易用性。

那么那到底 JIT 有哪些特性，使得 torch 这样的动态图框架也要走 JIT 这条路呢？或者说在什么情况下不得不用到 JIT 呢？下面主要通过介绍 TorchScript 来分析 JIT 到底带来了哪些好处。

JIT 是 Python 和 C++ 的桥梁，我们可以使用 Python 训练模型，然后通过 JIT 将模型转为语言无关的模块，从而让 C++ 可以非常方便得调用，从此「使用 Python 训练模型，使用 C++ 将模型部署到生产环境」对 PyTorch 来说成为了一件很容易的事。而因为使用了 C++，我们现在几乎可以把 PyTorch 模型部署到任意平台和设备上：树莓派、iOS、Android 等等。不然每次都要通过 python 调用模型，性能会大打折扣。

既然是为部署生产所提供的特性，那免不了在性能上面做了极大的优化，如果推断的场景对性能要求高，则可以考虑将模型（torch.nn.Module）转换为 TorchScript Module，再进行推断。有两种方式可以转换：

使用 TorchScript Module 的更简单的办法是使用 Tracing，Tracing 可以直接将 PyTorch 模型（torch.nn.Module）转换成 TorchScript Module。「 trace 」顾名思义，就是需要提供一个「输入」来让模型 forward 一遍，以通过该输入的流转路径，获得图的结构。这种方式对于 forward 逻辑简单的模型来说非常实用，但如果 forward 里面本身夹杂了很多流程控制语句，就会存在问题，因为同一个输入不可能遍历到所有的逻辑分枝。而没有被经过的分支就不会被 trace 。
可以直接使用 TorchScript Language 来定义一个 PyTorch JIT Module，然后用 torch.jit.script 来将他转换成 TorchScript Module 并保存成文件。而 TorchScript Language 本身也是 Python 代码，所以可以直接写在 Python 文件中。对于 TensorFlow 我们知道不能直接使用 Python 中的 if 等语句来做条件控制，而是需要用 tf.cond，但对于 TorchScript 我们依然能够直接使用 if 和 for 等条件控制语句，所以即使是在静态图上，PyTorch 依然秉承了「易用」的特性。

简单例子

trace 方法

首先定义一个简单的模型：

import torch

class MyDecisionGate(torch.nn.Module):
    def forward(self, x):
        # 分支判断
        if x.sum() > 0:
            return x
        else:
            return -x

class MyCell(torch.nn.Module):
    def __init__(self):
        super(MyCell, self).__init__()
        self.dg = MyDecisionGate()
        self.linear = torch.nn.Linear(4, 4)

    def forward(self, x, h):
        y = torch.tanh(self.dg(self.linear(x)) + h)
        return y

my_cell = MyCell()
print(my_cell)
x, h = torch.rand(1, 4), torch.rand(1, 4)
print(my_cell(x, h))

我们可以绑定输入对模型进行 trace：

import torch

class MyDecisionGate(torch.nn.Module):
    def forward(self, x):
        if x.sum() > 0:
            return x
        else:
            return -x

class MyCell(torch.nn.Module):
    def __init__(self):
        super(MyCell, self).__init__()
        self.dg = MyDecisionGate()
        self.linear = torch.nn.Linear(4, 4)

    def forward(self, x, h):
        y = torch.tanh(self.dg(self.linear(x)) + h)
        return y

my_cell = MyCell()
x, h = torch.rand(1, 4), torch.rand(1, 4)
trace_model = torch.jit.trace(my_cell, (x, h))
print(trace_model(x, h))
print(trace_model.code)
# def forward(self,
#     x: Tensor,
#     h: Tensor) -> Tensor:
#   dg = self.dg
#   linear = self.linear
#   _0 = torch.add((dg).forward((linear).forward(x, ), ), h)
#   return torch.tanh(_0)

可以看到没有出现 if-else 的分支， trace 做的是：运行代码，记录出现的运算，构建 ScriptModule，但是控制流就丢失了。然后流程丢失并不是好事，在 trace 只会对一个输入进行处理的情况下，对不同的输入得到的结果是不一样的，因为输入只会满足一个分支，因此 trace 的程序也只包含一个分支。

import torch

class MyDecisionGate(torch.nn.Module):
    def forward(self, x):
        if x.sum() > 0:
            return x
        else:
            return -x

my_cell = MyDecisionGate()
x = torch.tensor([-0.1, 0.05]) # 这两个 x trace 到的代码是不一样的
# x = torch.tensor([0.1, -0.05])
trace_model = torch.jit.trace(my_cell, (x))
print(trace_model(x))
print(trace_model.code)

因此，我们认为这样的 trace 没有泛化能力。而这种现象普遍发生在动态控制流中，即：具体执行哪个算子取决于输入的数据。

if x[0] == 4: x += 1 是动态控制流
model: nn.Sequential = ... [m(x) for x in model] 不是

class A(nn.Module):
  backbone: nn.Module
  head: Optiona[nn.Module]
  def forward(self, x):
    x = self.backbone(x)
    if self.head is not None:
        x = self.head(x)
    return x

不是

在之后的文章中，会介绍如何使 trace 具备泛化能力。

script 方法

script 方法直接分析 python 代码进行转换：使用他们提供的 script 编译器，将 python 的代码进行语法分析，并重新解释为 TorchScript。

import torch

class MyDecisionGate(torch.nn.Module):
    def forward(self, x):
        if x.sum() > 0:
            return x
        else:
            return -x

class MyCell(torch.nn.Module):
    def __init__(self, dg):
        super(MyCell, self).__init__()
        self.dg = dg
        self.linear = torch.nn.Linear(4, 4)

    def forward(self, x, h):
        new_h = torch.tanh(self.dg(self.linear(x)) + h)
        return new_h, new_h

scripted_gate = torch.jit.script(MyDecisionGate())
print(scripted_gate.code) # 含有流程控制
my_cell = MyCell(scripted_gate)
traced_cell = torch.jit.script(my_cell)
print(traced_cell.code)

TorchScript 代码可以被它自己的解释器（一个受限的 Python 解释器）调用。这个解释器不需要获得全局解释锁GIL，这样很多请求可以同时处理。
这个格式可以让我们保存模型到硬盘上，在另一个环境中加载，例如服务器，也可以使用非 python 的语言。
TorchScript 提供的表示可以做编译器优化，做到更有效地执行。
TorchScript 可以与其他后端/设备运行时进行对接，他们只需要处理整个项目，无需关心细节运算。

Trace 和 Script 谁更好？

通过上文我们可以了解到：

trace 只记录走过的 tensor 和对 tensor 的操作，不会记录任何控制流信息，如 if 条件句和循环。因为没有记录控制流的另外的路，也没办法对其进行优化。好处是 trace 深度嵌入 python 语言，复用了所有 python 的语法，在计算流中记录数据流。
script 会去理解所有的 code，真正像一个编译器一样去进行词法分析语法分析句法分析，形成 AST 树，最后再将 AST 树线性化。script 相当于一个嵌入在 Python/Pytorch 的 DSL，其语法只是 Pytorch 语法的子集，这意味着存在一些 op 和语法 script 不支持，这样在编译的时候就会遇到问题。此外，script 的编译优化方式更像是 CPU 上的传统编译优化，重点对于图进行硬件无关优化，并对 if、loop 进行优化。

在大模型的部署上 trace 更好，因为可以有效的优化复杂的计算图，如下所示：

class A(nn.Module):
  def forward(self, x1, x2, x3):
    z = [0, 1, 2]
    xs = [x1, x2, x3]
    for k in z: x1 += xs[k]
    return x1
model = A()
print(torch.jit.script(model).code)
# def forward(self, x1: Tensor, x2: Tensor, x3: Tensor) -> Tensor:
#   z = [0, 1, 2]
#   xs = [x1, x2, x3]
#   x10 = x1
#   for _0 in range(torch.len(z)):
#     k = z[_0]
#     x10 = torch.add_(x10, xs[k])
#   return x10
print(torch.jit.trace(model, [torch.tensor(1)] * 3).code)
# def forward(self, x1: Tensor, x2: Tensor, x3: Tensor) -> Tensor:
#   x10 = torch.add_(x1, x1)
#   x11 = torch.add_(x10, x2)
#   return torch.add_(x11, x3)

因为 script 试图忠实地表示 Python 代码，所以即使其中一些是不必要的。例如：并不能对 Python 代码中的某些循环或数据结构进行优化。如上例，所以它实际上有变通方法，或者循环可能会在以后的优化过程中得到优化。但关键是：这个编译器并不总是足够聪明。对于复杂的模型， script 可能会生成一个具有不必要复杂性且难以优化的计算图。

tracing 有许多优点，事实上，在 Facebook/Meta 部署的分割和检测模型中，tracing 是默认的选择，仅当必要的时候使用 scripting。因为 trace 不会破坏代码质量，可以结合 script 来避免一些限制。

python 是一个很大很动态的语言，编译器最多只能支持其语法功能和内置函数的子集，同理，script 也不例外。这个编译器支持 Python 的哪个子集？一个粗略的答案是：编译器对最基本的语法有很好的支持，但对任何更复杂的东西（类、内置函数、动态类型等）的支持度很低或者不支持。但并没有明确的答案：即使是编译器的开发者，通常也需要运行代码，看看能不能编译去判断是否支持。

所以不完整的 Python 编译器限制了用户编写代码的方式。尽管没有明确的约束列表，但可以从经验中看出它们对大型项目的影响：script 的问题会影响代码质量。很多项目只停留在了代码能 script 成功这一层面，使用基础语法，没有自定义类型，没有继承，没有内置函数，没有 lambda 等等的高级特性。因为这些高级的功能编译器并不支持或者部分支持，就会导致在某些情况下成功，但在其他情况下失败。而且由于没有明确的规范哪些是被支持的，因此用户无法推理或解决故障。因此，最终用户会仅仅停留在代码成功搬移，而不考虑可维护性和性能问题，会导致开发者因为害怕报错而停止进一步的探索高级特性。

如此下去，代码质量可能会严重恶化：垃圾代码开始积累，因为优良的代码有时无法编译。此外，由于编译器的语法限制，无法轻松进行抽象以清理垃圾代码。该项目的可维护状况逐渐走下坡路。如果认为 script 似乎适用于我的项目，基于过去在一些支持 script 的项目中的经验，我可能会出于以下原因建议不要这样做：

编译成功可能比你想象的更脆弱（除非将自己限制在基本语法上）：你的代码现在可能恰好可以编译，但是有一天你会在模型中添加一些更改，并发现编译失败；
基本语法是不够的：即使目前你的项目似乎不需要更复杂的抽象和继承，但如果预计项目会增长，未来将需要更多的语言特性。

以多任务检测器为例：

可能有 10 个输入，因此最好使用一些结构/类。
检测器有许多架构选择，这使得继承很有用。
大型、不断增长的项目肯定需要不断发展的抽象来保持可维护性。

因此，这个问题的现状是：script 迫使你编写垃圾的代码，因此我们仅在必要时使用它。

Trace 细节

trace 让模型的 trace 更清楚，对代码质量有很少的影响。

如果模型不是以 Pytorch 格式表示的计算图，则 script 和 trace 都不起作用。例如，如果模型具有 DataParallel 子模块，或者如果模型将张量转换为 numpy 数组并调用 OpenCV 函数等，则必须对其进行重构。除了这个明显的限制之外，对 trace 只有两个额外的要求：

输入/输出格式是 Tensor 类型时才能被 trace。但是，这里的格式约束不适用于子模块：子模块可以使用任何输入/输出格式：类、kwargs 以及 Python 支持的任何内容。格式要求仅适用于最外层的模型，因此很容易解决。如果模型使用更丰富的格式，只需围绕它创建一个简单的包装器，它可以与 Tuple[Tensor] 相互转换。
shape。tensor.size(0) 是 eager 模式下的整数，但它是 tracing mode 下的 tensor。这个差异在 trace 时是必要的，shape 的计算可以被捕获为计算图中的算子。由于不同的返回类型，如果返回的一部分是 shape 是整数则无法 trace ，这通常可以简单的解决。此外，一个有用的函数是 torch.jit.is_tracing，它检查代码是否在 trace 模式下执行。

我们来看个例子：

>>> a, b = torch.rand(1), torch.rand(2)
>>> def f1(x): return torch.arange(x.shape[0])
>>> def f2(x): return torch.arange(len(x))
>>> # See if the two traces generalize from a to b:
>>> torch.jit.trace(f1, a)(b)
tensor([0, 1])
>>> torch.jit.trace(f2, a)(b)
tensor([0])  # WRONG!
>>> # Why f2 does not generalize? Let's compare their code:
>>> print(torch.jit.trace(f1, a).code, torch.jit.trace(f2, a).code)
def f1(x: Tensor) -> Tensor:
  _0 = ops.prim.NumToTensor(torch.size(x, 0))
  _1 = torch.arange(annotate(number, _0), dtype=None, layout=0, device=torch.device("cpu"), pin_memory=False)
  return _1
def f2(x: Tensor) -> Tensor:
  _0 = torch.arange(1, dtype=None, layout=0, device=torch.device("cpu"), pin_memory=False)
  return _0

在 trace f2 函数时，lex(x) 是一个定值而非 tensor，这样在传入其他长度的数据时就回报错。除了 len()，这个问题也可能出现在：

.item() 将张量转换为 int/float。
将 Torch 类型转换为 numpy/python 原语的任何其他代码。

tensor.size() 在 trace 期间返回 Tensor，以便在图中捕获形状计算。用户应避免意外将张量形状转换为常量。使用 tensor.size(0) 而不是 len(tensor)，因为后者是一个 int。这个函数对于将大小转换为张量很有用，在 trace 和 eager 模式下都可以使用。对于自定义类，实现 .size() 方法或使用 .__len__() 而不是 len()，不要通过 int() 转换大小，因为它们会捕获常量。

这就是 trace 所需要的一切。最重要的是，模型实现中允许使用任何 Python 语法，因为 trace 根本不关心语法。

Trace 的泛化问题

Trace 和 Script 混合

>>> def f(x):
...   return torch.sqrt(x) if x.sum() > 0 else torch.square(x)
>>> m = torch.jit.trace(f, torch.tensor(3))
>>> print(m.code)
def f(x: Tensor) -> Tensor:
  return torch.sqrt(x)

注意这种代码在 trace 时不会报错，只有 warning 的输出，因此我们要特别关注。trace 和 script 都有各自的问题，最好的方法是混合使用他们。避免影响代码质量，主要的部分进行 trace，必要时进行 script。如果有一个 module 里面有很多选择，但是我们不希望在 TorchScript 里出现，那么应该使用 tracing 而不是 scripting，这个时候，trace 将内联 script 模块的代码。

import torch

class MyDecisionGate(torch.nn.Module):
    def forward(self, x):
        if x.sum() > 0:
            return x
        else:
            return -x

class MyCell(torch.nn.Module):
    def __init__(self, dg):
        super(MyCell, self).__init__()
        self.dg = dg
        self.linear = torch.nn.Linear(4, 4)

    def forward(self, x, h):
        new_h = torch.tanh(self.dg(self.linear(x)) + h)
        return new_h, new_h

class MyRNNLoop(torch.nn.Module):
    def __init__(self, scripted_gate, x, h):
        super(MyRNNLoop, self).__init__()
        # 对控制流进行 trace
        self.cell = torch.jit.trace(MyCell(scripted_gate), (x, h))

    def forward(self, xs):
        h, y = torch.zeros(3, 4), torch.zeros(3, 4)
        for i in range(xs.size(0)):
            y, h = self.cell(xs[i], h)
        return y, h

x, h = torch.rand(2, 4), torch.rand(2, 4)
scripted_gate = torch.jit.script(MyDecisionGate())
rnn_loop = torch.jit.script(MyRNNLoop(scripted_gate, x, h))
print(rnn_loop.code)
print(rnn_loop.cell.code)

我们简化一下：

1 2	model.submodule = torch.jit.script(model.submodule) torch.jit.trace(model, inputs)

对于不能正确 trace 的子模块，可以进行 script 处理。但是并不推荐，更建议使用 @script_if_tracing，因为这样修改 script 仅限于子模块的内部，而不影响模块的接口。使用 @script_if_tracing 装饰器，在 torch.jit.trace 时，@script_if_tracing 装饰器可以通过 script 编译。通常，这只需要对前向逻辑进行少量重构，以分离需要编译的部分（具有控制流的部分）：

def forward(self, ...):
  # ... some forward logic
  @torch.jit.script_if_tracing
  def _inner_impl(x, y, z, flag: bool):
      # use control flow, etc.
      return ...
  output = _inner_impl(x, y, z, flag)
  # ... other forward logic

只 script 需要的部分，代码质量相对于全部 script 被破坏的很少，被 @script_if_tracing 装饰的函数必须是不包含 tensor 模块运算的纯函数。因此，有时需要进行更多重构：

# Before:
if x.numel() > 0:  # This branch cannot be compiled by @script_if_tracing because it refers to `self.layers`
  x = preprocess(x)
  output = self.layers(x)
else:
  output = torch.zeros(...)  # Create empty outputs

# After:
if x.numel() > 0:  # This branch can now be compiled by @script_if_tracing
  x = preprocess(x)
else:
  x = torch.zeros(...)   # Create empty inputs
# Needs to make sure self.layers accept empty inputs.
# If necessary, add such condition branch into self.layers as well.
output = self.layers(x)

同样的，我们可以在 script 中嵌套 trace：

1 2	model.submodule = torch.jit.trace(model.submodule, submodule_inputs) torch.jit.script(model)

这里的子模块是 trace，但是实际中并不常用，因为会影响子模块的推理（当且仅当子模块的输入和输出都是 tensor 时才适用），这是很大的限制。但是 trace 作为子模块的时候也有很试用的场景：

class A(nn.Module):
  def forward(self, x):
    # Dispatch to different submodules based on a dynamic, data-dependent condition:
    return self.submodule1(x) if x.sum() > 0 else self.submodule2(x)

@script_if_tracing 不能处理这样的控制流，因为它只支持纯函数。如果子模块很复杂不能被 script，使用 trace trace 子模块是很好的选择，这里就是 self.submodule2 和 self.submodule1，类 A 还是要 script 的。

Script 优势

事实上，对于大多数视觉模型，动态控制流仅在少数易于编写 script 的子模块中需要。script 相对于 trace，有两个有点：

一个数据有很多属性的控制流，trace 无法处理
trace 只支持 forward 方法，script 支持更多的方法

实际上，上述两个功能都在做同样的事情：它们允许以不同的方式使用导出的模型，即根据调用者的请求执行不同的运算符序列。下面是一个这样的特性很有用的示例场景：如果 Detector 是 script 化，调用者可以改变它的 do_keypoint 属性来控制它的行为，或者如果需要直接调用 predict_keypoint 方法。

class Detector(nn.Module):
  do_keypoint: bool

  def forward(self, img):
      box = self.predict_boxes(img)
      if self.do_keypoint:
          kpts = self.predict_keypoint(img, box)

  def predict_boxes(self, img): pass

  def predict_keypoint(self, img, box): pass

这种要求并不常见。但是如果需要，如何在 trace 中实现这一点？我有一个不是很优雅的解决方案：Tracing 只能捕获一个序列的算子，所以自然的方式是对模型进行两次 Tracing：

1 2	det1 = torch.jit.trace(Detector(do_keypoint=True), inputs) det2 = torch.jit.trace(Detector(do_keypoint=False), inputs)

然后我们可以为它们的模型设置别名（以不重复存储），并将两个 trace 合并到一个模块中以编写 script：

det2.submodule.weight = det1.submodule.weight
class Wrapper(nn.ModuleList):
  def forward(self, img, do_keypoint: bool):
    if do_keypoint:
        return self[0](img)
    else:
        return self[1](img)
exported = torch.jit.script(Wrapper([det1, det2]))

单元测试

还可以使用单元测试来判断 trace 是否成功：

1	assert allclose(torch.jit.trace(model, input1)(input2), model(input2))

程序优化

此外，还可以通过优化程序，避免掉不必要的特殊情况：

if x.numel() > 0:
  output = self.layers(x)
else:
  output = torch.zeros((0, C, H, W))  # Create empty outputs

设备

此外还需要注意设备问题，在 trace 期间会记录使用的设备，而 trace 不会对不同的设备进行泛化，但是部署时都会有固定的设备，这个问题不用担心。

>>> def f(x):
...   return torch.arange(x.shape[0], device=x.device)
>>> m = torch.jit.trace(f, torch.tensor([3]))
>>> print(m.code)
def f(x: Tensor) -> Tensor:
  _0 = ops.prim.NumToTensor(torch.size(x, 0))
  _1 = torch.arange(annotate(number, _0), dtype=None, layout=0, device=torch.device("cpu"), pin_memory=False)
  return _1
>>> m(torch.tensor([3]).cuda()).device
device(type='cpu')  # WRONG!

结论

trace 有明显的局限性：本文大部分时间都在讨论 trace 的局限性以及如何解决它们。我实际上认为这是 trace 的优点：它有明确的限制和解决方案，所以你可以推断它是否有效。相反， script 更像是一个黑匣子：在尝试之前没有人知道它是否有效。

trace 具有较小的代码破坏范围： trace 和 script 都会影响代码的编写方式，但 trace 的代码破坏范围要小得多，并且造成的损害要小得多：

它限制了输入/输出格式，但仅限于最外层的模块。
在 trace 中混合 script，但可以只更改受影响模块的内部实现，而不是它们的接口。

另一方面， script 对以下方面有影响：

涉及的每个模块和子模块的接口，接口需要高级语法特性，针对接口编程时，千万别在接口设计上妥协。
这也可能最终影响训练，因为接口通常在训练和推理之间共享。

这也是为什么 script 会对代码质量造成很大损害的原因。Detectron2 支持 script，但不推荐其他大型项目以可 script 且不丢失抽象为目标，因为这实在有点难度，除非它们也能像阿里巴巴那样得到 PyTorch 团队的支持。

PyTorch 深受用户喜爱，最重要的是编写 Python 控制流。但是 Python 的其他语法也很重要。如果能够编写 Python 控制流（使用 script ）意味着失去其他优秀的语法，我宁愿放弃编写 Python 控制流的能力。事实上，如果 PyTorch 对 Python 控制流不那么执着，并且像这样（类似于 tf.cond 的 API）为我提供了诸如 torch.cond 之类的符号控制流：

1 2	def f(x): return torch.cond(x.sum() > 0, lambda: torch.sqrt(x), lambda: torch.square(x))

然后 f 可以正确 trace，不再需要担心 script。

保存和加载模型

traced.save('wrapped_rnn.pt')

loaded = torch.jit.load('wrapped_rnn.pt')

print(loaded)
print(loaded.code)

参考

基本概念，https://zhuanlan.zhihu.com/p/370455320
两者的优势，https://zhuanlan.zhihu.com/p/410507557
trace vs script，https://ppwwyyxx.com/blog/2022/TorchScript-Tracing-vs-Scripting/

算法系列：双指针

2022-08-06T15:26:44.000Z

这几天接连遇到了一些双指针的问题，但是说实话，并没有从这些题中看到一种通用的东西，也就不是能很好的做一个总结，但不得不说双指针是一个很神奇的东西，所以做一道记一道吧。

快慢指针

快慢指针也是双指针，但是两个指针从同一侧开始遍历数组，将这两个指针分别定义为快指针（fast）和慢指针（slow），两个指针以不同的策略移动，直到两个指针的值相等（或其他特殊条件）为止，如fast每次增长两个，slow每次增长一个。

常用于链表问题，如：slow开始移动，由于移动速度是 fast 的一半，那么 fast 移动到链表的末尾时，slow 就位于链表的中央，可以用这这种方法求链表的中点。

26. 删除有序数组中的重复项

给你一个升序排列的数组 nums，请你原地删除重复出现的元素，使每个元素只出现一次，返回删除后数组的新长度。元素的相对顺序应该保持一致。

由于在某些语言中不能改变数组的长度，所以必须将结果放在数组 nums 的第一部分。更规范地说，如果在删除重复项之后有 k 个元素，那么 nums 的前 k 个元素应该保存最终结果。将最终结果保存到 nums 的前 k 个位置后返回 k 。

不要使用额外的空间，你必须在原地修改输入数组并在使用 $O(1)$ 额外空间的条件下完成。

这个题乍一看还真不会，于是果断看了题解：

fast 和 slow 初始为 1，因为就算数组内全是重复元素，那么 1 也可以表示其中不重复的数量
如果 fast 和 fast-1 对应的元素相等，表示有重复元素，此时 fast++，继续搜索后面的元素
如果 fast 和 fast-1 不相等，表示没有重复元素，且，不重复的元素是 nums[fast]，此时我们让 nums[slow]=nums[fast]，slow 和 fast 同时向后移动即可

class Solution {
public:
    int removeDuplicates(vector<int>& nums) {
        int slow = 1, fast = 1;
        int n = nums.size();
        while (fast < n) {
            if (nums[fast] != nums[fast-1]) {
                nums[slow] = nums[fast];
                slow++;
            }
            fast++;
        }
        return slow;
    }
};

剑指 Offer II 022. 链表中环的入口节点

给定一个链表，返回链表开始入环的第一个节点。从链表的头节点开始沿着 next 指针进入环的第一个节点为环的入口节点。如果链表无环，则返回 null。

为了表示给定链表中的环，我们使用整数 pos 来表示链表尾连接到链表中的位置（索引从 0 开始）。如果 pos 是 -1，则在该链表中没有环。注意，pos 仅仅是用于标识环的情况，并不会作为参数传递到函数中。

1
2
3

输入：head = [3,2,0,-4], pos = 1
输出：返回索引为 1 的链表节点
解释：链表中有一个环，其尾部连接到第二个节点。

首先明确一点，使用哈希存储地址肯定可以做出来，但这里是为了熟悉双指针。

假设 fast 指针和 slow 指针在紫色节点处相交
对于 fast 指针，走过的距离为 $a+n(b+c) + b$，$n$ 为任意整数
对于 slow 指针，走过的距离为 $a+m(b+c) + b$，$m$ 为任意整数

由于 fast 移动的距离是 slow 的二倍，因此：

\brgin{equation}
a+n(b+c)+b = 2 [a+m(b+c) + b] \\
\Rightarrow a = (n-2m)(b+c) - b
\end{equation}

也就是说，$a$ 的长度等于整数倍的环的长度减去 $b$ 的长度。得到这个等式后，我们让一个指针从 head 出发，slow 指针从相交处出发，两者相交时，就是环的入口节点。

class Solution {
public:
    ListNode *detectCycle(ListNode *head) {
        ListNode *slow = head, *fast = head;
        while (fast != nullptr) {
            slow = slow->next;
            if (fast->next == nullptr) {
                return nullptr;
            }
            fast = fast->next->next;
            if (fast == slow) {
                ListNode *ptr = head;
                while (ptr != slow) {
                    ptr = ptr->next;
                    slow = slow->next;
                }
                return ptr;
            }
        }
        return nullptr;
    }
};

对撞指针

对撞数组适用于有序数组、利用数组两侧求最值、只用数组内的两个元素等问题，应该第一时间想到用对撞指针解题。

11. 盛最多水的容器

给定一个长度为 n 的整数数组 height 。有 n 条垂线，第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。找出其中的两条线，使得它们与 x 轴共同构成的容器可以容纳最多的水。返回容器可以储存的最大水量。

双指针，左指针位于左侧，右指针位于右侧，求一次能存储的最大水量
如果左边低，为了能求存储的最大水量，就需要将左指针向右移动，同理，如果右边低，就需要将右指针向左移动
每次移动的时候求极值就可以了

class Solution {
public:
    int maxArea(vector<int>& height) {
        int n = height.size();
        int l = 0, r = n - 1;
        int res = 0;
        while (l < r) {
            int t1 = height[l];
            int t2 = height[r];
            res = max(res, min(t1, t2) * (r - l));
            if (t1 < t2) {
                l++;
            } else {
                r--;
            }
        }
        return res;
    }
};

881. 救生艇

给定数组 people 。people[i] 表示第 i 个人的体重，船的数量不限，每艘船可以承载的最大重量为 limit。每艘船最多可同时载两人，但条件是这些人的重量之和最多为 limit。返回承载所有人所需的最小船数。示例：

1
2
3

输入：people = [3,2,2,1], limit = 3
输出：3
解释：3 艘船分别载 (1, 2), (2) 和 (3)

我们假设一种极端情况，数组排序后是 [1, 2, ..., n-2, n-1]，而船能容纳的极限是 n。那么，最佳分配就是让 1 和 n-1 在一起，2 和 n-2 在一起。此时只用两条船。虽然 1 可以和 2 在一起，那么要承载 n-2 和 n-1，就需要 3 条船。

基于贪心的思想，我们应该尽可能的把轻的和重的分配到一起，来减少船的使用数量，首先对数组排序：

设立双指针，l=0, r=n-1
因为船只能坐两个人，因此，如果 nums[l] + nums[n-1] <= limit，就让这两个人坐一起，此时 l++
而无论如何，都需要 r--，因为数组末尾的必须上一个人，而数组左侧的人选择性上或不上

class Solution {
public:
    int numRescueBoats(vector<int> &people, int limit) {
        int ans = 0;
        sort(people.begin(), people.end());
        int light = 0, heavy = people.size() - 1;
        while (light <= heavy) {
            if (people[light] + people[heavy] <= limit) {
                ++light;
            } 
            --heavy;
            ++ans;
        }
        return ans;
    }
};

红白球

给定一个长度为 $n$ 的字符串，其中，W 表示白色的球，R 表示红色的球，如果把红色的球放到一起，请问最少移动多少次？示例：

输入：s = "WRRWRW"
输出：1
输入：s = "WWRWWWRWR"
输出：4，"WWRWWWRWR" -> "WWWRWWRWR" -> "WWWWRWRWR" -> "WWWWWRRWR" -> "WWWWWWRRRW"

一个很经典的双指针题目，注：2022年微软秋招笔试题原题。这个题解有点长，日后完善。

class solution{
    int num(string& s) {
        int red_count = 0;
        for (char c : s) {
            if (c == 'R') red_count++;
        }
        int left = 0, right = s.size() - 1, result = 0;
        while (left < right) {
            if (s[left] == 'R' && s[right] == 'R') {
                red_count -= 2;
                result = right - left - 1 - red_count;
                ++left;
                --right;
            } else if (s[left] != 'R') {
                left++;
            } else {
                right--;
            }
        }
        return result;
    }
};

由内存分配引发的回忆

2022-07-11T08:52:39.000Z

闲来无事，在面经上看到了一个问题：在物理机只有 1G 内存的情况下，能否 malloc 出 4G 大小的数组。奇怪的是，这个问题在网上搜不到特别好的解答，于是突发奇想试着解答一下。

内存分布

先直接给出结论，malloc 的内存位于堆区，顺便简单了解下 C/C++ 的内存分布。对于 C/C++ 语言，程序内存分布如下：

栈区(stack)：由编译器自动分配释放，存储函数的参数值，局部变量值等，其操作方法类似于数据结构中的栈
堆区(heap)：一般由程序员申请和释放，与数据结构中的堆没有任何关系，分配方式类似于链表
全局/静态区(static)：全局变量和静态变量是存储在一起的，在程序编译时分配
文字常量区：存储常量字符串
程序代码区：存储函数体(类的成员函数、全局函数)的二进制代码

重点是其中的栈区和堆区：

栈区：程序自动向操作系统申请分配以及回收，速度快，使用方便，但是程序员无法控制。如果分配的内存超过了栈区的最大空间，会抛出栈溢出错误。const 局部变量也存储在栈区，栈区向地址减小的方向增长。系统为变量在栈上申请内存后，CPU 需要不断地判断变量是否已结束使用的生命周期，如果生命周期结束，系统就会释放为这个变量申请的栈内存，这样一来随着在栈上申请的变量增多，会对 CPU 造成额外的消耗。
堆区：程序员向操作系统申请一段内存，当系统收到程序的申请时，会遍历一个记录空内存结点的链表，找到第一个空间大于或等于所申请空间的堆结点，将该空闲结点从链表中删除，并将该结点的空间分配给程序，如果链表中空闲结点的空间大于申请空间的大小，系统会自动将对于的部分放入空闲链表中，故容易造成内存的碎片化，分配速度较慢，地址不连续。且堆区的内存由程序员申请，也必须由程序员负责管理和释放，否则会导致内存泄漏，堆的增长方向与内存地址的增长方向相同，因此在堆区上申请空间理论上是没有大小限制的，但是受安装内存条的大小和系统以及其他程序的占用，不是无限大的。不像栈上的变量那样，需要消耗 CPU 资源判断变量的生命周期，所以不会对 CPU 造成额外的消耗，这也是程序员申请堆上内存的优点。

对于栈来讲，是由编译器自动管理，无需我们手工控制；对于堆来说，释放工作由程序员控制，容易产生内存泄露。碎片问题：对于堆来讲，频繁的 malloc/free 势必会造成内存空间的不连续，从而造成大量的碎片，使程序效率降低。对于栈来讲，则不会存在这个问题，因为栈是先进后出的队列，他们是如此的一一对应，以至于永远都不可能有一个内存块从栈中间弹出，在他弹出之前，在他上面的后进的栈内容已经被弹出。

1G 内存 4G 数组

在了解 malloc 分配到的堆区大小取决于内存剩余的空闲空间后，再来研究能不能分配出大于空闲空间的数据。先给出结论，在虚拟内存足够大的情况下，1G 大小的内存可以开辟出 4G 的数组。虚拟内存是一个假象的内存空间，在程序运行过程中虚拟内存空间中需要被访问的部分会被映射到物理内存空间中。虚拟内空间大只能表示程序运行过程中可访问的空间比较大，不代表物理内存空间占用也大。

malloc 可以申请到超出机器物理内存的大小，为什么说是一部分呢，因为可申请的内存不仅和已占用的内存相关，还和机器的 swap space （虚拟内存）相关，事实上在你给你机器装 Linux 系统的时候应该碰到过，那就是磁盘分区的时候会有一个 swap设定，只需要知道它是一种挂载在物理硬盘上，用来存放一些不太频繁使用的内存，是一种低速的物理内存的扩展。

当物理内存不够用时，原先一些物理内存中不常访问的内容会被转移到这里以让出空间给其它进程。所以 swap 空间也可以被 malloc 申请到。malloc 这个时候申请了内存，但没有完全申请，这就涉及到一个叫做 Lazy Allocation 的东东，当你使用 malloc 时，系统并没有真正从物理内存中分配，而是等到进程要操作时才提供 allocation。

因此，正是因为虚拟内存的存在，通过虚拟内存可以让程序可以拥有超过系统物理内存大小的可用内存空间。

虚拟内存扩展

这是我研究生第一节课老师讲述的内容（顿时我就觉得那老师才是真正的计算机学者）：虚拟内存为每个进程提供了一个一致的、私有的地址空间，它让每个进程产生了一种自己在独享主存的错觉。使用虚拟寻址，CPU 需要将虚拟地址翻译成物理地址，这样才能访问到真实的物理内存。程序可以使用一系列相邻的虚拟地址来访问物理内存中不相邻的大内存缓冲区，不同进程使用的虚拟地址彼此隔离。一个进程中的代码无法更改正在由另一进程或操作系统使用的物理内存，如果各个进程之间没有独立的地址空间，一个进程由于执行错误指令或是恶意代码都可以直接修改其它进程的数据，甚至修改内核地址空间的数据，这是操作系统所不愿看到的。

算法系列：链表反转问题

2022-06-24T13:44:00.000Z

本文集中写链表的反转问题，因为其他的链表相交、链表数量等问题比较简单，即使没啥算法经验也能写个差不多，而链表反转也算一种经典的递归问题。这个文章的文字描述太乱了，有时间回来补图。

206. 反转链表

给你单链表的头节点 head ，请你反转链表，并返回反转后的链表。反转链表有两种实现方式，一种是迭代式实现，一种是通过递归实现。先来看通过迭代实现：迭代的反转需要使用三个指针，pre，cur 和 nxt，核心思想就是 cur 不断的向后移动过程中，让 cur 指向 pre。而这一过程分为四步：

nxt = nxt->next，先让 nxt 向后移动，因为 cur 指向 pre 之后，需要通过 nxt 找到下一个节点
cur->next = pre，实现指针的反转，让 cur 指向上一个指针
pre = cur，为下一次反转做准备，pre 就是在反转中要被指向的节点
cur = nxt，cur 指向下一个节点，为下一次反转做准备

通过以上四点，我们可以在推出一些细节：

pre 的初始值应该是 null，因为任何一个链表的末尾节点应该是空节点，而第一次反转时 cur 指向了 pre，因此 pre 也就是链表的末尾，因此 pre 初始为空
cur 的初始值就是 head 节点，nxt 的初始值也是 head 节点，因为这样才能让 nxt = nxt->next 和 cur->next = pre 有意义
如果 nxt 指向 null，说明此时链表反转完毕，而 cur 指向的就是 nxt，因此最后要返回 pre 指针

class ListNode {
public:
    int val;
    ListNode* next = nullptr;
    ListNode() = default;
    ListNode(int x) : val{x} {};
};

class Solution {
public:
    ListNode* reverseList(ListNode* head) {
      ListNode* pre = nullptr;
      ListNode* cur = head;
      ListNode* nxt = head;
      while (nxt != nullptr) {
        nxt = nxt->next;
        cur->next = pre;
        pre = cur;
        cur = nxt;
      }
      return pre;
    }
};

至于递归方法就简单了很多：

如果这个节点是原链表的尾部节点，那么直接将其返回，而且每一层递归函数的返回值都是它。而尾部节点的判断方式就是 head->next == null。因此先写出部分程序：如下的程序中，任何一个递归函数返回的都是链表的尾部节点。

class Solution {
public:
    ListNode* reverseList(ListNode* head) {
        if (head == nullptr || head->next == nullptr) {
            return head;
        }
        ListNode* last = reverseList(head->next);
        return last;
    }
};

在找到尾部节点后，将其余节点依次反转即可。而且一定是在找到尾部节点后反转，如果在找到尾部节点之前就反转，链表就无法向下递归。

class Solution {
public:
    ListNode* reverseList(ListNode* head) {
        // 模板
        if (head == nullptr || head->next == nullptr) {
            return head;
        }
        ListNode* last = reverseList(head->next);
        head->next->next = head; // 后面的节点指向自己
        head->next = nullptr; // 自己的下一个节点是 nullptr
        return last;
    }
};

92. 反转链表 II

给你单链表的头指针 head 和两个整数 left 和 right ，其中 left <= right 。请你反转从位置 left 到位置 right 的链表节点，返回反转后的链表。

我决定以后用递归了，如果用迭代去写，涉及的变量和程序都比较繁琐。基于上面的递归反转：和反转全部链表不同，部分反转链表，需要在反转后，将链表的尾部指向原链表不反转部分的下一个元素。之前指向的是 nullptr，那么这里就需要指向原链表不反转部分的第一个元素。并返回反转链表后的第一个节点。

class Solution {
public:
    ListNode* p = nullptr;
    ListNode* reverse(ListNode* node, int right) {
        // right=1 的时候，下一个元素就是不需要反转的链表的第一个元素
        if (right == 1) {
            p = node->next;
            return node;
        }
        ListNode* last = reverse(node->next, right - 1);
        node->next->next = node;
        // 之前指向 nullptr，现在指向 p
        node->next = p;
        return last;
    }

    // 返回的是链表的头部
    ListNode* reverseBetween(ListNode* head, int left, int right) {
        // 反转前 k 个链表
        if (left == 1) {
            return reverse(head, right);
        }
        // 递归，head->next 移动一次，left 和 right 都递减
        // head->next 指向链表的第一个元素，无论反转或不反转，也是递归的精髓
        head->next = reverseBetween(head->next, left-1, right-1);
        return head;
    }
};

25. K 个一组翻转链表

给你链表的头节点 head ，每 k 个节点一组进行翻转，请你返回修改后的链表。k 是一个正整数，它的值小于或等于链表的长度。如果节点总数不是 k 的整数倍，那么请将最后剩余的节点保持原有顺序。你不能只是单纯的改变节点内部的值，而是需要实际进行节点交换。

和上一题一样，反转后的链表末尾元素需要指向不需要反转的链表的第一个元素。第一题，反转链表的末尾元素指向 nullptr，所以需要和 nullptr 判断关系，这里同理，只是不是 nullptr 了。

/**
 * Definition for singly-linked list.
 * struct ListNode {
 *     int val;
 *     ListNode *next;
 *     ListNode() : val(0), next(nullptr) {}
 *     ListNode(int x) : val(x), next(nullptr) {}
 *     ListNode(int x, ListNode *next) : val(x), next(next) {}
 * };
 */
class Solution {
public:

    ListNode* reverse(ListNode* p1, ListNode* p2) {
        // 指向谁，就和谁判断，第一题的 nullptr 也是如此
        if (p1 == p2 || p1->next == p2) {
            return p1;
        }
        ListNode* last = reverse(p1->next, p2);
        p1->next->next = p1;
        p1->next = p2;
        return last;
    }

    // 返回的是反转链表的头
    ListNode* reverseKGroup(ListNode* head, int k) {
        if (head == nullptr)
            return nullptr;
        ListNode* p1 = head;
        ListNode* p2 = head;
        // 如果不够反转，就不用反转
        for (int i = 0; i < k; i++) {
            if (p2 == nullptr)
                return head;
            p2 = p2->next;
        }
        // 第一次链表反转，的第一个元素一定是最后链表的头，因此要返回
        ListNode* last = reverse(p1, p2);
        // 头指针变成局部链表的尾指针，串起整个链表
        head->next = reverseKGroup(p2, k);
        return last;
    }
};

算法系列：优先遍历

2022-05-30T13:42:03.000Z

主要收录深度优先遍历和宽度优先遍历，深度优先遍历一般可以与回溯、递归、树等方法联用，达到优雅遍历的效果，而宽度优先搜索可以用到最短路问题的求解中。

为什么不用 bfs 去遍历？第一是因为 bfs 写起来麻烦，不如 dfs 直观。第二是在某些查找到满足情况即可退出的应用而言，bfs 需要一层一层的去检查，效率很低。
为什么不用 dfs 去求最短路？如上所示，bfs 可以一层一层的检查，相对 dfs 更容易查到最短路。

dfs

岛屿问题

130. 被围绕的区域

给你一个 m x n 的矩阵 board ，由若干字符 'X' 和 'O' ，找到所有被 'X' 围绕的区域，并将这些区域里所有的 'O' 用 'X' 填充。

那么如何填充内部的 O 呢？这里就要用到 dfs，首先遍历 board，如果遇到了 O，那个和这个 O 相邻的 O 也要被填充，此时就要使用 dfs 来查找相邻的 O
由于只填充被 X 包围的 O，因此，边界上的 O 不能被填充。那么我们预先把和边界相连的 O 都填充为其他符号，在处理完 board 内部的 O 的时候，在把其他符号替换为 O 即可。

class Solution {
public:
    int n, m;
    void solve(vectorchar>>& board) {
        n = board.size();
        m = board[0].size();
        // 替换边界
        for (int i = 0; i < n; i++) {
            dfs(i, 0, board, '+');
            dfs(i, m-1, board, '+');
        }
        for (int i = 0; i < m; i++) {
            dfs(0, i, board, '+');
            dfs(n-1, i, board, '+');
        }
        // 填充内部的 O
        for (int i = 0; i < n; i++) {
            for (int j = 0; j < m; j++) {
                if (board[i][j] == 'O') {
                    dfs(i, j, board, 'X');
                }
            }
        }
        // 替换回来
        for (int i = 0; i < n; i++) {
            for (int j = 0; j < m; j++) {
                if (board[i][j] == '+') {
                    board[i][j] = 'O';
                }
            }
        }
    }

    // dfs 查找相连的 O
    void dfs(int r, int c, vectorchar>>& board, char pad) {
        if (r < 0 || c < 0 || r >= n || c >= m) {
            return;
        }
        if (board[r][c] == 'O') {
            board[r][c] = pad;
            dfs(r + 1, c, board, pad);
            dfs(r - 1, c, board, pad);
            dfs(r, c + 1, board, pad);
            dfs(r, c - 1, board, pad);
        }
    }
};

bfs

111. 二叉树的最小深度

给定一个二叉树，找出其最小深度。最小深度是从根节点到最近叶子节点的最短路径上的节点数量。说明：叶子节点是指没有子节点的节点。

求二叉树或者多叉树中根节点到叶子节点的最短路径，一般都是 bfs 遍历算法。给出 bfs 的模板：

queue.push(root);
while (queue.size()) {
    int s = queue.size();
    for (int i = 0; i < s; i++) {
        auto node = queue.top();
        queue.pop();
        if (node->left != null)
            queue.push(node->left);
        if (node->right != null)
            queue.push(node->right);
    }
}

在进入 bfs 之前先处理一些极端的特殊情况，比如根节点为空，根节点就是目标节点等
在处理完特殊情况后，之后就是 bfs 遍历，如果遍历期间的节点满足目标情况，返回结果即可。

/**
 * Definition for a binary tree node.
 * struct TreeNode {
 *     int val;
 *     TreeNode *left;
 *     TreeNode *right;
 *     TreeNode() : val(0), left(nullptr), right(nullptr) {}
 *     TreeNode(int x) : val(x), left(nullptr), right(nullptr) {}
 *     TreeNode(int x, TreeNode *left, TreeNode *right) : val(x), left(left), right(right) {}
 * };
 */
class Solution {
public:
    int minDepth(TreeNode* root) {
        if (root == nullptr)
            return 0;
        if (root->left == nullptr && root->right == nullptr)
            return 1;
        int depth = 1;
        deque q;
        q.push_back(root);
        while (q.size()) {
            int s = q.size();
            for (int i = 0; i < s; i++) {
                auto node = q.front();
                q.pop_front();
                // 找到了叶子节点，直接返回深度
                if (node->left == nullptr && node->right == nullptr) {
                    return depth;
                }
                if (node->left != nullptr)
                    q.push_back(node->left);
                if (node->right != nullptr)
                    q.push_back(node->right);
            }
            depth += 1;
        }
        return depth;
    }
};

752. 打开转盘锁

你有一个带有四个圆形拨轮的转盘锁。每个拨轮都有 10 个数字： ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’, ‘9’ 。每个拨轮可以自由旋转：例如把 ‘9’ 变为 ‘0’，’0’ 变为 ‘9’ 。每次旋转都只能旋转一个拨轮的一位数字。

锁的初始数字为 ‘0000’ ，一个代表四个拨轮的数字的字符串。列表 deadends 包含了一组死亡数字，一旦拨轮的数字和列表里的任何一个元素相同，这个锁将会被永久锁定，无法再被旋转。

字符串 target 代表可以解锁的数字，你需要给出解锁需要的最小旋转次数，如果无论如何不能解锁，返回 -1 。示例:

输入：deadends = ["0201","0101","0102","1212","2002"], target = "0202"
输出：6
解释：
可能的移动序列为 "0000" -> "1000" -> "1100" -> "1200" -> "1201" -> "1202" -> "0202"。
注意 "0000" -> "0001" -> "0002" -> "0102" -> "0202" 这样的序列是不能解锁的，
因为当拨动到 "0102" 时这个锁就会被锁定。

寻找最短路径时，同样需要使用 bfs 算法。我们把这个问题看成一个多叉树问题，如果 00 是根节点，那么叶子节点就是 01, 10, 09, 90，同理，也能得到 0000 为根节点时对应的叶子节点
同样，先处理极端情况，如根节点被死锁，以及根节点就是目标的特殊情况
之后，以 0000 为根节点开始 bfs 算法，我们手写两个函数，分别为 _up 和 _down 来对 0000 的每一位进行转动进而得到子节点，如果子节点满足要求，返回此时的深度即可
与二叉树不同的是，二叉树使用 root->left, root->right 能保证不会遍历重复节点，而对于此问题，很有可能从 0000 查找到 5555，又从 5555 查找回 0000，因为只要一直转动下去，0000 也是 5555 的子节点。因此，在遍历期间需要设置一个 map，将遍历过的节点添加进去，保证不会重复遍历一个节点，不走回头路。

class Solution {
public:

    string _up(string node, int idx) {
        string s = node;
        if (s[idx] == '9')
            s[idx] = '0';
        else
            s[idx] += 1;
        return s;
    }

    string _down(string node, int idx) {
        string s = node;
        if (s[idx] == '0')
            s[idx] = '9';
        else
            s[idx] -= 1;
        return s;
    }

    int openLock(vector& deadends, string target) {
        deque q;
        q.push_back("0000");
        unordered_mapint> m;
        for (auto i : deadends)
            m[i] = 10;
        if (m["0000"] == 10)
            return -1;
        int cnt = 1;
        if (target == "0000")
            return 0;
        while (q.size()) {
            int s = q.size();
            for (int i = 0; i < s; i++) {
                auto node = q.front();
                q.pop_front();
                for (int i = 0; i < 4; i++) {
                    string s1 = _up(node, i);
                    if (s1 == target)
                        return cnt;
                    if (m[s1] != 10) {
                        m[s1] = 10;
                        q.push_back(s1);
                    }
                    string s2 = _down(node, i);
                    if (s2 == target)
                        return cnt;
                    if (m[s2] != 10) {
                        m[s2] = 10;
                        q.push_back(s2);
                    }
                }
            }
            cnt += 1;
        }
        return -1;
    }
};

Just for Life.

CUFX(CUDA Framework eXtended)： CUDA 计算框架

目录结构

TODO

重返C++：从 ref 挖到移动语义，在从 forward 挖到可变参数模板

std::ref 用法

用于 bind

用于线程传参

左值和右值

左值示例

右值引用与移动语义

左右值重载

完美转发

万能引用

引用折叠

完美转发

构造函数的扩展

可变参数模板

函数相关

参数包

参数包展开

递归展开

逗号表达式展开

参考

任务流水：加快程序运行和减少内存占用我全都要

Python 线程池

多级流水

适用场景

多级流水

移动端算法优化

矩阵乘法

常规矩阵乘法

Neon 加速版本 1

Neon 加速版本 2

Cache 友好的矩阵乘法

Neon 加速版本 3

Neon 加速版本 4

Neon 加速版本 5

C 语言中的黑魔法：宏

字符串化操作符

简单测试框架

为什么用 do-while(0) ？

字符串连接

测试函数执行时间的宏

特殊宏

一个简单的打日志函数

X 宏的使用

参考

一次不太愉快的软件开发

如何维护？

前后端全栈开发：0 基础搭建 UI 界面和提供数据服务

前端开发

选择低代码框架 amis

下载 amis 并使用

后端

结语

在 python 操作大文件时节省内存

背景

序列化导出

序列化读入

引申

参考链接

如何写出更好的程序二：尽可能减少代码的修改

使用 Python 装饰器

背景

坏代码

装饰器优化

如何写出更好的程序一：用好配置文件和减少硬编码

如何使用好配置文件

针对一个代码文件使用配置文件的情况

针对多个文件使用配置文件的情况

yaml 或者 json？

减少代码的硬编码

重灾区：函数返回值

使用类规范函数返回值

关于代码的组织架构

关于代码维护

git 实操记录

git 开发时，A 分支的代码泄漏到了 B 分支 ？

问题背景

`git` 开发时，A 分支的代码泄漏到了 B 分支？

多次 `commit` 记录合并