lmdb数据库

LMDB 全称为 Lightning Memory-Mapped Database,就是非常快的内存映射型数据库,LMDB使用内存映射文件,可以提供更好的输入/输出性能,对于用于神经网络的大型数据集( 比如 ImageNet ),可以将其存储在 LMDB 中。 LMDB效率高的一个关键原因是它是基于内存映射的,这意味着它返回指向键和值的内存地址的指针,而不需要像大多数其他数据库那样复制内存中的任何内容。 存到lmdb数据库 将图片和对应的文本标签存放到lmdb数据库: import lmdb image_path = ‘./cat.jpg’ label = ‘cat’ env = lmdb.open(‘lmdb_dir’) cache = {} # 存储键值对 with open(image_path, ‘rb’) as f: # 读取图像文件的二进制格式数据 image_bin = f.read() # 用两个键值对表示一个数据样本 cache[‘image_000’] = image_bin cache[‘label_000’] = label with env.begin(write=True) as txn: fo...

数据集:CIFAR-10

下载 进入:https://www.cs.toronto.edu/~kriz/cifar.html 选择:CIFAR-10 python version 开始下载,建议获取下载链接后用迅雷下载,速度更快。   使用(windows系统) 将下载到的rar解压,放在/data目录下,结构如下    

数据集总结 | 机器学习 深度学习

数据源 1. UCI Center for Machine Learning and Intelligent Systems 链接:https://archive.ics.uci.edu/ml/index.php   2. kaggle 链接:https://www.kaggle.com/datasets?topic=trendingDataset   3. 阿里天池 链接:https://tianchi.aliyun.com/dataset 图像分割数据集 PASCAL VOC PASCAL 视觉对象类 (VOC) 挑战赛提供公开可用的图像数据集和注释。 PASCAL VOC 是计算机视觉中最流行的数据集之一,带注释的图像可用于 5 个任务——分类、分割、检测、动作识别和人物布局。 已经在该数据集上评估了大量流行的分割算法。 对于分割任务,PASCAL VOS 支持 21 类对象标签:车辆、家庭、动物、飞机、自行车、船、公共汽车、汽车、摩托车、火车、瓶子、椅子、餐桌、盆栽植物、沙发、电视/显示器、鸟、猫、牛、狗、马、羊和人。 如果像素不属于这些类别中的任何一个,则将它们标记为背景。PASCAL VOC...

数据挖掘中对数据集的典型要求

可扩展性:许多聚类算法在包含少于数百个数据对象的小型数据集上都能很好地工作;但是,大型数据库可能包含数百万甚至数十亿个对象,尤其是在Web搜索方案中。仅在给定大型数据集的样本上进行聚类可能会导致结果有偏差。因此,需要高度可扩展的聚类算法。 能够处理不同类型的属性:许多算法旨在对数字(基于时间间隔)数据进行聚类。但是,应用程序可能需要对其他数据类型进行聚类,例如二进制,标称(分类)和序数数据,或这些数据类型的混合。最近,越来越多的应用程序需要用于复杂数据类型(例如图形,序列,图像和文档)的聚类技术。 发现具有任意形状的聚类:许多聚类算法根据欧几里得距离或曼哈顿距离度量来确定聚类。基于这种距离测度的算法往往会找到具有相似大小和密度的球形簇。但是,群集可以是任何形状。例如,考虑经常用于环境监视的传感器。传感器读数的聚类分析可以发现有趣的现象。我们可能希望使用聚类来查找正在发生的森林大火的边界,而森林大火通常不是球形的。开发可检测任意形状的簇的算法非常重要。监控此类ML系统被证明是一项艰巨的任务,这就是为什么有公司(例如Deepchecks)专用,可以帮助您节省大量时间和金钱。 确定输入参数所需的领域知识:许多聚类算法要求用户以输...

数据集:ImageNet

官网:http://image-net.org/index ImageNet项目是一个大型视觉数据库,用于视觉目标识别软件研究。该项目已手动注释了1400多万张图像[1][2],以指出图片中的对象,并在至少100万张图像中提供了边框[3]。ImageNet包含2万多个典型类别[2],例如“气球”或“草莓”,每一类包含数百张图像[4]。尽管实际图像不归ImageNet所有,但可以直接从ImageNet免费获得标注的第三方图像URL[5]。2010年以来,ImageNet项目每年举办一次软件竞赛,即ImageNet大规模视觉识别挑战赛(ILSVRC)。挑战赛使用1000个“整理”后的非重叠类[6],软件程序比赛正确分类和检测目标及场景。 历史 AI研究员李飞飞从2006年开始研究ImageNet的想法。在大多数AI研究专注于模型和算法的时候,李飞飞则希望扩展和改进可用于训练AI算法的数据[7]。2007年,李飞飞与普林斯顿大学教授克里斯蒂安·费尔鲍姆(Christiane Fellbaum)会面讨论了该项目,他是WordNet的创建者之一。之后李继续从WordNet的单词数据库开始构建ImageNet,并使用了其许多功能[8]...

“Found 0 files in subfolders of:”|datasets.ImageFolder|PyTorch

图片存放位置 img_dir |_class1 |_a.jpg |_b.jpg |_class2 |_a.jpg |_b.jpg bug出现位置 from torchvision import datasets test_dataset = datasets.ImageFolder(test_folder, transform=trans) 其中: test_folder 为 img_dir/class1 错误描述 RuntimeError: Found 0 files in subfolders of: ./data/image Supported extensions are: .jpg,.jpeg,.png,.ppm,.bmp,.pgm,.tif,.tiff,.webp 修改方法 test_folder 修改为 img_dir