OSC开源社区

导读一个问题往往是由多个小的不规范或错误累积而成的。本文记录了作者发现问题、现象分析、排查过程、最后解决问题的全历程。项目背景我所在的项目组主要负责对店铺招牌拍摄，我负责App客户端的开发工作。此项目从立项之初到现在已经有很长的历史了。现在出现了一个问题：用户在拍摄照片时，会出现照片损坏的情况，这个问题在线上环境出现了有一段时间了，再加上自己接手时，此问题已经出现了，就没有深入排查过产生原因。暂时的解决策略是让用户手动删除损坏的照片，上传图片时，服务端也会进行一次文件损坏检测。我们会下发各种拍摄任务类型，有的任务只需要拍摄几张照片即可，有的任务需要拍摄上千张图片，此问题就会更容易暴露。在同事的建议下，决定要找到问题的根源。现象之前只是知道有此问题，没有仔细研究过。经过自测+了解，初步明确了以下现象：现象1：不同任务类型都有此问题目前项目内的不同任务类型都共用同一个拍照存储模块。此现象可以明确，出错范围是在底层拍照存储模块，而不是在上层的业务逻辑。现象2：1/200的概率稳定出现图片损坏通过与同事的共同复现，发现连续拍摄200多张的时候，就会出现一张损坏的图片。这中间我们复现好多次，出现频率都很符合预期，甚至有一丝诡异，因为这个bug出现频率太稳定了，反而有些不正常了。面对此现象，当时想到了2种可能的情况：概率和1/256(16进制的FF转为十进制的值，2的8次方，一字节[Byte]的大小)很接近，是不是由于在解析到某一字节时，出现了异常。每拍摄200多张，此时就出现重GC+手机温度过高导致降频，导致了卡顿，造成某一步执行超时或者失败。以上只是猜测，完全没有任何证据，只是当时的思考方向。现象3：仅webp格式会出现此问题目前拍摄的图片有两种存储格式，分别是jpeg和webp格式。项目之前都是使用JPEG作为存储格式，后来为了减小图片的大小，开始改用webp格式进行存储。当我们把存储格式改为jpeg时，此问题不会出现；换为webp格式时，就是出现此问题。统计了这两者的整体耗时（从图片字节流到存储到文件中），webp的用时大概是jpeg耗时的5倍；jpeg的存储大小是webp大小的1.5倍左右。面对此现象，当时的想法是处理图片耗时久，因而导致锁（线程锁、IO锁）竞争激烈，某一瞬间发生了数据冲突。排查过程首先熟悉了一下项目代码，下面是整个存储过程的流程图：整个流程还是比较简单易懂的，按照我当时的怀疑方向，制定了以下排查顺序：摄像头生成webp图片时出错了。代码调用逻辑出错。加密算法本身就有问题。排查方向1：压制照片时出错摄像头输出的图片在压制为webp照片的时候，就出现损坏了，而jpeg压制时不会损坏。该问题排查比较简单，只需要把未加密的原始webp图片也存储下来，与加密后无法解密的图片进行对照即可。实践之后，发现损坏的加密图片，对应的原始webp照片都是可以正常展示的。因此可以明确排除手机摄像头和压制webp图片的问题。排查方向2：加密流程产生问题调用AES加密算法的时候，调用可能会出错。比如：由于偶然情况，同一个图片被连续调用了两次加密算法。要排查此问题，需要深入阅读此部分的代码，并进行梳理。先查阅了AES加密算法的相关资料。AES是高级加密标准，在密码学中又称Rijndael加密法，是美国联邦政府采用的一种区块加密标准。这个标准用来替代原先的DES，目前已经被全世界广泛使用，同时AES已经成为对称密钥加密中最流行的算法之一。AES支持三种长度的密钥：128位，192位，256位。自己总结了一下：AES算法属于对称加密，加密和解密只需要一个相同的密钥；AES算法在对明文加密的时候，并不是把整个明文一股脑加密成一整段密文，而是把明文拆分成一个个独立的明文块，每一个明文块长度128bit；在没有填充的情况下，密文和原文长度相等。先重点看了一下线程安全问题，排查一圈，认真看了在此过程中所有涉及的共享变量，没有发现任何问题。下面梳理了加密解密流程，发现了一个很严重的问题。此问题发生在预览图片部分，代码如下：public

8月10日下午 10:44

其他

Python霸权地位已无可争议

指数并不代表编程语言的好坏或编写代码的多少。该指数可以用来检查你的编程技能是否还能跟上时代的步伐，或者在开始建立一个新的软件系统时，基于指数对采用何种编程语言做出决策。TIOBE

8月8日上午 11:50

其他

这款开源PHP应用服务器看着有点新潮了：采用Go编写、支持Early Hints

应用服务器能够突破传统的束缚赋予你的项目前所未有的性能和灵活性？那么，FrankenPHP

8月6日下午 10:49

其他

美国国防部建议将C代码转换为Rust——而且是用AI

以外不需要手动内存管理的语言。这些消息也引起了拥有大量遗留代码的美国政府公共部门的注意，并促使白宫和美国网络安全和基础设施安全局（CISA）鼓励使用内存安全编程语言

8月5日下午 11:10

其他

Go团队“话事人”Russ Cox宣布卸任，还cue了一下曾经是“BDFL”的龟叔

“BDFL”（终身仁慈独裁者）模式，因为这对于个人或项目来说是不健康的。它不会为新领导者创造空间，也没有给项目提供成长的空间，这是单点故障。他还认为

8月2日上午 11:09

其他

“不可变”发行版Vanilla OS 2发布稳定版：彻底重写、改变使用Linux的方式

允许用户从其他发行版档案中安装软件包。为此，它为每个发行版创建了一个容器，并将安装在其中的应用程序与基本系统集成在一起。子系统应用程序像其他应用程序一样工作，可以从

8月1日下午 3:47

其他

桌面虚拟机并没消亡——甲骨文对VirtualBox进行重大更新：采用全新现代化UI、更换Logo

“Expert”），用于配置不同的界面功能。Basic：简化了界面，减少了显示的选项、设置和详细信息的数量Expert：将

7月31日下午 4:16

其他

“甲骨文牌”Java正在死亡

的基础设施寻求更具成本效益、更灵活和更开放的解决方案。”延伸阅读Java是最能打的编程语言“业界毒瘤”Oracle买下Java已有15年——埃里森才是它的伯乐？价格暴涨，甲骨文推出全新Java

7月30日下午 5:03

其他

瑞士已进入next level——要求所有政府软件开源

瑞士最近通过了「履行政府任务电子手段使用联邦法案（EMBAG）」，要求所有公共机构披露其开发或为其开发的软件源代码，除非涉及第三方权益或安全问题。此举旨在增强政府运作的透明度、安全性和效率。据悉，这项法案的通过历经了多年的政治和法律斗争，最终于今年通过。2011

7月29日下午 5:49

其他

Node.js支持原生运行TypeScript——自动将TS代码转译为JS代码

foo.ts。”详细路线图查看：https://github.com/nodejs/loaders/issues/217相关阅读：ECMAScript

7月25日下午 4:41

其他

Arm旗下开源物联网项目Mbed即将EOL

提供的许多功能变得更加广泛和易于访问。官方认为，现在更广泛的生态系统可以最好地满足这些需求，而无需

7月25日上午 11:48

其他

“开源模型是智商税” v.s. “开源AI是前进的道路”

拥有悠久的开源项目和成功历史。我们通过开放计算项目发布我们的服务器、网络和数据中心设计，并让供应链在我们的设计上实现标准化，从而节省了数十亿美元。我们通过开源领先的工具（如

7月24日下午 5:31

其他

我用十条优化措施，将Redis费用降本46万/月

存储成本大幅攀升。另一方面，随着业务的发展，当业务进入发展后期，数据量已经形成一定规模，而数据的访问频度则慢慢降下来，资源使用率普遍偏低

7月23日下午 5:31

其他

程序员应该掌握的三种编程语言——有Zig无Rust？

是麻省理工学院的一个研究小组设计的一种新型编程语言，旨在支持灵活的控制流和多样化的数据结构。它为程序员进行结构化数组编程提供了一种全新的编程方式。其创建者表示：“Finch

7月20日下午 10:56

其他

美国安全软件更新导致“微软蓝屏”——Linux用户和马斯克都在看乐子

用户除外，他们还有闲情逸致在看乐子。事实上，这次事故非常严重。国内外许多行业，包括银行、支付系统、机场、航空公司、证券交易所甚至便利店、售货机等都受到了影响。这应该是近几年来最严重的

7月19日下午 6:02

其他

Crowdstrike更新导致全球Windows大面积蓝屏死机

和其他操作系统设计，提供全面的安全保护。它提供了针对病毒、恶意软件、勒索软件、网络攻击和其他恶意活动的高级保护。该问题似乎很普遍，影响运行不同

7月19日下午 2:43

其他

一个AI从业者的十年

作者：DrChuck来源：雪球原文：https://weibo.com/ttarticle/p/show?id=23094050571528460046002015年，我刚参加工作，第一个任务是识别图片里的物品。传统做法是，找到物品的特征，用机器学习设计特征工程，做成模版，拿着模版进行特征匹配。做了几个月，效果差强人意。突然一则新闻吸引了我的注意力，谷歌旗下的DeepMind开发了一款围棋程序AlphaGo，要与世界冠军李世石对弈。赛前大家并不看好AI，甚至人工智能专家李开复也觉得AI赢不了。事实让众人大跌眼镜，AlphaGo以4:1大胜李世石。这个结果给了我极大震撼，因为中国人知道围棋的难度。19乘19的棋盘，状态空间复杂度高达10的171次方，远大于宇宙中原子的个数，单靠近似穷举不可能解出答案。我疯了一般去寻找背后的故事。原来，AlphaGo的核心是卷积神经网络。这是杨乐昆在1989年提出的一种图像识别算法。为什么这个技术在二十多年后才被人重视？因为数据和算力不足。直到2012年，深度学习之父辛顿的两名学生在李飞飞主导的ImageNet超大规模视觉识别挑战赛上一鸣惊人，人们才终于见识到威力。他俩基于吴恩达的工作，创造性的将英伟达的GPU用于训练一个600万参数的深度神经网络AlexNet。AlexNet在学习了1000万张李飞飞团队辛苦标注的图片后，将图像识别的准确率提高了10%以上，遥遥领先于亚军。在AlexNet的基础上，科学家们再接再厉，提出了一个又一个更深更大的网络，ZFNet，VGGNet，GoogleNet，每年都在进步。到了2015年，华人学者何恺明，曾经的广东高考状元，提出了152层的极深网络ResNet，参数量过千万，至此，AI的图像识别准确率终于超过了人类。了解到这些背景，我兴奋得浑身发抖。开发人员再也不需要手工设计图像特征，深度网络通过海量数据学到的特征，远胜资深专家的多年经验。为了深入学习，我开始使用亚马逊云服务AWS，很快就被英伟达的CUDA惊艳到了。CUDA非常高效，吸引了众多研究员和工程师，英伟达的开发人员也热心解答各种Bug问题。渐渐的，越来越多的算法首发在CUDA上，更多的改进算法为了超越前者也只能用CUDA，形成了网络效应，用的人越多越好用。当年还没有现在这么完善的深度学习框架，我入门靠的是华人学者贾扬清在写毕业论文之余开发的Caffe。这位大神慷慨开源了他基于CUDA的研究框架，又在博士毕业后成为谷歌的TensorFlow和Meta的PyTorch两大当今最流行框架的主要贡献者。有了这些武器，我总算可以把图像识别算法换成深度卷积网络，效果显著，准确率飞升。但我知道永远不能自满，这是个眨眼十年的领域。得益于科学家们的开源精神，网络的架构不断进化。2017年，谷歌提出了Transformer自注意力架构。所谓自注意力，简单说就是只关心输入之间的关系，而不再关注输入和输出的关系，这是一个颠覆性的变化。这篇论文发布之前，虽然深度学习已经取得长足进展，但AI的各个分支，视觉，语音，语言理解等，还是相对割裂的，每个领域有自己的模型。之后，则是Transformer一统天下，各领域专家的知识整合以及多模态融合变得愈加轻松。李飞飞的高徒安德烈，甚至惊叹，也许人类偶然窥见了和自然界类似的强大架构，造物主沿着这个路径复制，造就了今天的大千世界。Transformers让GPU并行运算的效率进一步大幅提升，2018年，OpenAI和谷歌相继发布了参数量过亿的GPT和BERT模型。2020年初，OpenAI发表了著名的Scaling

7月17日下午 7:45

其他

开源独角兽GitLab将被“卖身”

达成出售协议仍需数周时间，不过目前还不确定是否能达成协议。由于此事属于机密，因此消息人士要求匿名。路透社表示，GitLab

7月17日下午 4:28

俄罗斯中国总商会会长：与俄罗斯的支付谈判将很快有结果

为摆平强奸案，派出所所长改笔录称自愿发生性关系

金磊：我们长效在踏踏实实地在做所有的适应症

环球时报驻美记者评 青岛公安通报：偏袒女司机过于明显

青岛路虎女：嚣张女妖是那个大神的坐骑？

环球时报驻美记者评青岛公安通报：偏袒女司机过于明显