黑猫的小站
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

使用NV的toolkit对算子进行debug与性能测试

Nsight Systems VS Nsight Compute VS Pytorch profiler参考知乎/Nvidia forum与MC帮助界面: Nsight System(nsys)提供的是系统级别、High-level对应用程序的CPU+GPU交互与负载分析。对于nsys来说,其重点是关注一个CUDA应用程序的CPU执行情况与GPU执行情况,提供诸如内核发射延迟、内存拷贝延
2025-12-03
编程随笔 > AI相关
#Artificial Intelligence #CUDA

使用Model-opt对模型进行剪枝(Prune)与子网搜索(NAS)

何为prune与NAS
2025-12-03
编程随笔 > AI相关
#Artificial Intelligence

自定义pytorch算子并导出可推理的onnx文件

何为自定义算子自定义算子(custom operaotors)其实在pytorch内并没有一个特别明确的定义,使用Pytorch提供的自定义算子指南内的定义: An operator is glue code for the PyTorch runtime that tells it about the computation. A single operator can
2025-12-02
编程随笔 > AI相关
#Artificial Intelligence

理解Linux内的iptables

iptables的原理与发展历史iptables作为linux内核防火墙的命令行配置工具包,已经被广泛集成在各大Linux发行版本内。诸如Arch这类鼓励用户自定义linux kernel的发行版也自己默认集成了iptables,最小化安装完Arch之后也可以使用iptables修改与配置firewall。 理解iptables的用途无需去看某些博客,直接去Arch Wiki或Wikipedia英
2025-12-01
编程随笔 > 瞎折腾Linux
#Linux

在阿里云/腾讯云上使用docker配置pptp VPNserver

需求和同学联机打游戏有个vps可以方便很多,联机玩minecraft/饥荒/terraria/l4d/CS2什么的基本上都可以用frp内网穿透解决。但是前几天联机Stellaris的时候发现想配置一个群星dedicate server还是有些困难的,和饥荒类似这种游戏都是先走steam的联机api再连入主机,相当于steam帮忙做了一层内网穿透。不同于饥荒的
2025-10-30
编程随笔 > 瞎折腾Linux
#Linux

CV中常用的骨干网络简述与其量化方式

骨干网络简述目前工业中常用的cv网络可以分为三种: 基于卷积的网络(CNN) 基于transformer的网络 上述两者的混合 目前在较为复杂的场景,为了提高网络泛化,即便是CNN也会有较深的网络出现,一整个模型可能包含了多个子模型,每个小模型(或module)可能负责特征提取,可能负责多尺度特征融合,可能负责视角变换,可能负责分类。参考YOLO的基本架构,骨干网络即Backbone是网络中的
2025-10-14
编程随笔 > AI相关
#Artificial Intelligence

在Arch Linux内安装NVIDIA驱动与CUDA

安装NVIDIA驱动参考官网WIKI给出的文档,在Arch Linux内安装NVIDIA驱动并不复杂,首先明确自己的卡是NIVIDIA的哪个系列的: 1lspci -k -d ::03xx 参考文档里的表格,大部分个人用卡都是NV160/TUXXX系列的,大部分arch用户都可以直接选择下载安装nvidia-open package。在安装之前首先记得更新一下pacman的datab
2025-10-10
编程随笔 > 瞎折腾Linux
#CUDA #Linux

图床选择与搭建

写在开头开坑写博客之后发现急需要一个图床. 写markdown的人都知道用本地路径当做图片地址是不太可行的. 图床就成为了承载图片流量的不可或缺内容. 一般来说, 衡量一个图床是否能满足要求可以参考以下维度: 使用便捷程度 费用与可持久性 国内外访问速度 同时, 常见的图床搭建或选择可以有以下几种方式: 直接使用现有的第三方图床供应商/网站 使用云服务供应商的对象存储/N
2025-10-09
个人建站
#Other

Arch Linux安装踩坑记录

碎碎念在大学本科的时候就自己搭了linux个人主机,用了七八年一直都在用ubuntu发行版没换过,甚至小版本号都没换过永远是22.04。前几天被别人说都5025年了还在用ubuntu于是打算换个发行版。正好前几天在reddit看到了一篇帖子来探讨使用各种发行版的程序员的刻板印象,感觉很有趣,于是就了解了图中的多个发行版并且关注了他们的区别。原图如下(纯娱乐,请勿当真): 图中涉及到的distro
2025-10-09
编程随笔 > 瞎折腾Linux
#Linux

量化友好的SR-STE稀疏化训练

N:M稀疏化简介概念N:M sparsity是目前在深度网络内常用的一种优化策略,用于削减参数量减轻显存消耗并提高推理速度。其中,N:M代表在M个连续参数内只有有N个参数不为0。目前稀疏可以采用在各种layer内, 包括切不限于GEMM/Liner/Conv等. 与剪枝的区别稀疏化也可以算作prune的一种,与一般的结构化剪枝例如channel prune不同的是,稀疏化可以看
2025-09-16
编程随笔 > AI相关
#Artificial Intelligence
12

搜索

@2025 迷途黑猫
Powered by GreenCloud & Cloudflare & Hexo Fluid
萌ICP备20260814号