站在2024年,回看表格数据表示学习(tabular representation learning, TRL)进展和趋势

tabular representation learning概念和背景Tabular 数据(表格数据)是最常见的结构化数据形式,广泛存在于金融、医疗、零售、制造等领域。其承载形式主要是关系数据、online spreadsheet、csv、excel等。然而,与图像、文本、语音等领域相比,使用深度学习模型对表格数据的大规模应用起步较晚,这是由于其研究具有以...

Read More

Driving Database Innovations by GPU Accelerator

GPU database// todo Reference[1] https://www.heavy.ai/[2] https://kineticadynamics.com/[3] The Design and Implementation of CoGaDB: A Column-oriented GPU-accelerated ...

Read More

数据库中的乐观锁与悲观锁初步

数据库与并发业务并发业务是一种非常常见且重要的业务场景。比较典型的业务场景是电商业务,尤其是秒杀场景,这里面会涉及到非常多的并发事务,像金融业务等等交易相关的业务也都是如此。这在数据库的应用中称之为TP场景的业务,与AP业务相对应。当前主流的互联网业务架构大致可以分为三层,第一层是前端层,主要与用户产生交互式关系;第二层可以认为是业务层,所有的业务处理逻辑,...

Read More

大规模数据处理系统的最新技术与应用(2020年前的旧视角)

当我们看到这个标题后,不知道大家会先想到什么。我们可能识别到的几个关键字是:架构、大规模、数据处理、最新。那么,实际上我们在这里希望探讨的话题就是最新的数据处理技术,以及这些最新的数据处理技术给实际生产带来的基于与挑战。 从数据处理说起我首先提出一个命题——“IT 系统最核心的内容便是数据处理”,互联网尤甚。熟悉 Web 架构的读者可以知道,当前互联网架构大...

Read More

IO 多路复用的 select, poll, epoll 之间的区别和联系总结

IO 多路复用select, poll 和 epoll 都是 IO 多路复用的模型,所以在深入了解这三个系统调用之前,需要先简单介绍一下 IO 多路复用。IO 多路复用是一种复用技术,复用 (multiplexing) 技术很普遍,例如通信中有多路时分复用(OFDM)、频分复用、码分复用。再例如我们一个办公室的人可以共用办公室的一台打印机,大家在不同的时段使...

Read More

基于Php的webshell自动检测刍议

本文最早发表于乌云知识库中,后来,由于某些众所周知的原因,乌云知识库无法再访问。重载文章,内容有修改。 0x01 关键词检测利用正则表达式等对一些常见的 Webshell 关键词进行扫描,从而判断出该文件是否为 Webshell. 这种检测方法非常太暴力了,但是也最为简单可控。显而易见,这样简单粗暴地检测会产生较高的误报率,而且对于一些加了密或者变形的 We...

Read More