华为手机操作系统往事

  IT 之家 5 月 18 日消息 华为心声社区在 5 月 16 日发布了一篇《华为手机操作系统往事》的文章,并且昨天被余承东转发到微信朋友圈,并评论“除了自己的芯片,还有操作系统的核心能力打造”。在《华为手机操作系统往事》的文章中,CBG 软件部总裁王成录在文章中讲述了让软件成为华为手机的硬实力心路历程,特别是他们刚刚发布的“华为方舟编译器”。

  王成录表示,编译器是将程序开发用的高级语言转换成机器指令的软件,可以理解成软件与硬件之间的桥梁。那方舟编译器会带来怎样的价值?简单点说,是解决现有安卓这座桥梁并不顺畅的顽疾,是对安卓深度的优化与革新。

  王成录表示,而这只是华为一系列软件创新的最新成果。今天,从市场与用户的反馈来看,越来越多的消费者认可华为手机长期使用后依然流畅,对用华为手机玩游戏体验不佳的吐槽也越来越少。这既归功于华为手机芯片和硬件能力的快速提升,更离不开软件全栈的深度优化与技术创新。

  下面是《华为手机操作系统往事》全文:

4 月 11 日,CBG 总裁余承东在上海发布了 P30 系列手机。发布会后,一个听上去有点晦涩的新名词——“方舟编译器”迅速登上了知乎社区的热搜榜,引发了 IT 从业者、数码博主、资深码农乃至普通消费者的极大关注和广泛热议。“编译器是什么?”“华为方舟编译器和安卓原生的 AOT/JIT(Ahead of Time/Just in Time)有什么区别?” “方舟编译器对安卓生态有何意义?”等,网友对各种深浅不一问题的讨论不亦乐乎,诸多跟帖评论精彩纷呈,不得不说高手在民间。

其中一位网友的评论很有代表性:“昨天的华为发布会,让我感到惊喜的是,在如今这个年代,会有一家国内消费电子公司把编译器作为一大亮点来介绍。华为在基础研发上的持续高投入,加上手机终端市场占有率向全球第一迈进,使得‘自建生态’的梦想,对一家中国公司而言首次成为可能。”

编译器是将程序开发用的高级语言转换成机器指令的软件,可以理解成软件与硬件之间的桥梁。那方舟编译器会带来怎样的价值?简单点说,是解决现有安卓这座桥梁并不顺畅的顽疾,是对安卓真正深度的优化与革新,可以说为安卓产业注入了新的生命力。

而这只是华为一系列软件创新的最新成果。今天,从市场与用户的反馈来看,越来越多的消费者认可华为手机长期使用后依然流畅,对用华为手机玩游戏体验不佳的吐槽也越来越少。这既归功于华为手机芯片和硬件能力的快速提升,更离不开软件全栈的深度优化与技术创新。

我们深知,任何软硬件的技术优化和创新探索都必须瞄准用户体验。服务近 5 亿在网用户的华为手机操作系统 EMUI 是如何围绕用户体验,不断进行深层创新,推出硬核技术的?

故事还得从几年前说起。

面向消费者的软件怎么做

3 年前,我在负责 2012 实验室的中央软件院,7 月份,余总的一个电话,让我有机会来到 CBG 负责终端软件的研发工作。当时的心情既兴奋又忐忑。兴奋在于,从进公司伊始,我一直从事和软件紧密相关的工作。在我心目中,完成大规模工业化的软件研发,不啻以虚拟世界的 0 和 1 为建筑材料,去设计建造一座宏伟的殿堂。而如何能让我们的建造成果和过程都达到世界级,给我们的用户和合作伙伴带来价值,一直是我的追求与梦想。

忐忑也随之而来。虽然都是软件研发,但是智能手机操作系统对于我是一个全新的领域。首先是标准化程度大不相同,电信设备软件有非常完备的行业标准,ITU、3GPP、IETF 等,实际上把网络架构和网元架构标准化了。研发需要做的就是根据标准协议,遵从一定的开发流程规范,比如 IPD(集成产品开发),以及合理的项目管理来实现相应的交付目标。同时,电信设备软件的需求也是相对清晰和汇聚的,全球几百家运营商的需求百分之七十以上几乎是一致的,而且设备的日常维护主体是经过专业化训练,具有相当技术水平的运维人员,可以相对清晰准确地反馈设备使用中的各种问题。

而面向消费者的软件则大为不同。广泛流行的智能手机操作系统最终只留下了 iOS 和安卓。与封闭的 iOS 框定一切来保证体验不同,安卓是由谷歌主导的 AOSP 社区开源,但原生安卓实际上是 Design Reference(设计参考),具体到每一个功能如何取舍和扩展,与海量的第三方 APPs 如何交互,并没有详细而统一的标准可以遵从,都是各个手机厂家根据自己的硬件平台、产品定位和目标用户群,做大量的适配和优化修改,生态碎片化严重。一切只能以消费者体验为准绳。

在安卓开放的大环境下,怎么做才能实现最好的用户体验?在 iOS 已经通过多年的积累树立了牢固的领先形象时,怎样才能让 EMUI 被越来越多的消费者认可,是我和整个软件团队面临的最大挑战。

聚焦最大的用户痛点 “在飞行中换引擎”

我们决定将“用户体验最佳”作为终端软件追求的目标。而首要解决的问题就是,什么最影响用户体验?经过大量的调查和访谈,团队很快发现,最为安卓用户诟病的,是长期使用后的卡顿,这也是影响消费者体验的第一大障碍。

一个热爱电子产品的同事和我讲述过他的智能手机使用经历。在安卓手机进入大屏年代后,2013 年他购买了当时做得最好的安卓手机S和H,用的还是顶级配置,但用了一年多后,即使每晚不做任何操作,都会消耗百分之十几的电量;更让他无法忍受的是,卡顿、死机几乎成了家常便饭,必须要不断重启和清理内存才能勉强使用。用他的话说,不是我在用手机,而是手机在用我。

为什么即便拥有很高的硬件配置,即便是当时最好的安卓手机,也会面临更多的稳定性和流畅性问题?是哪些因素导致了长期使用后的卡顿和死机?我们决定“啃”下卡顿这个最大的硬骨头。EMUI 团队成立了专门的“特战组”集中攻关。特战组详细分析了安卓系统下四百多台几十种机型的手机,经过反复的问题重现和软硬件的全栈分析,共发现以下四个导致卡顿、死机的主因:

  • 安卓系统的松散管理,应用对资源的使用缺少规则,就像建了很多道路却没有交通规则,最终是拥塞和混乱;

  • 系统硬件资源协同缺乏,仅仅靠增加 RAM(运行内存)资源不能解决问题,而是要更有效地调度与使用资源;

  • 存储碎片累积效应,随着使用时间的增加,存储碎片化日益严重,数据读写速度明显下降,系统卡顿频繁、加重;

  • APP 膨胀严重,特别是头部应用功能不断堆积,导致产生的数据急剧增长,抢占系统资源严重,拖累系统运行速度。

这些问题,几乎涉及到从芯片到软件全栈,如果只是见招拆招被动应对,是不可能真正解决问题的。必须全面系统分析,才能拿出全面彻底的解决方案。但安卓系统本身极其庞大,代码行数过亿,在这么庞大的系统上“动手术”,挑战可想而知。会不会在优化的同时导致其它兼容性的问题?有没有足够能力实现预定的目标?

但是,带着有问题的引擎勉强飞行,只会酿成更大的事故。畏缩不前不如放手一搏。通过大量细致的分析和研判,我们决心破釜沉舟——干!最终,经过专家的反复诊断和讨论,拿出了 5 大“药方”来一一解决上述问题。

简单来说,人工智能是核心,对应用侧智能分析,判断应用的资源需求特征(计算密集型、RAM 密集型、IO 密集型等);对硬件资源侧,感知 CPU、内存、IO(Input/Output)、存储等资源状态,通过 AI 算法实现应用需求与硬件资源的最佳匹配,并及时合理地整理和回收空闲资源,解决上面提到的硬件资源协同和 APP 占用空间过度膨胀的问题。

“天生快一生快”系统原理图

“抽屉式”替换为安卓注入新的生命力

对于存储碎片化的问题,我们采取了一个比较激进的方案——替换了安卓原生文件系统。

安卓从诞生之初就直接架构在 Linux 基础上,其文件系统最初并未考虑碎片文件的快速整理。长时间以来,安卓手机都是从 Linux 继承文件系统,这个文件系统对智能手机上的 Flash 存储并不友好,也是碎片化的主因。我们决定用 F2FS(Flash Friendly File System)文件系统来替换原生的文件系统,不仅因为 F2FS 是为 Flash 量身定做,还因为它可以使手机极大程度上避免文件碎片。

F2FS 是由友商S公司原创并开源的。但S公司自己并没有率先使用。因为文件系统决定存储上所有文件的存储与访问方式,好比器官移植手术,替换文件系统的复杂度和风险是巨大的。

我们虽然在实验室仔细验证了半年多,但替换文件系统的高复杂度和高风险,仍然是决策的最大顾虑。软件管理团队和技术团队多次分析后,最终果断拍板,并和 CBG 签订了军令状,承诺搞不定或出了问题就“军法处置”。

得益于团队胆大心细的执行力,F2FS 文件系统最终替换成功,成为解决卡顿顽疾全方案中最重要的组成部分。

2016 年,伴随着 Mate 9 系列发布的 EMUI5.0,我们为这个解决安卓卡顿的方案取了一个简单易懂的名字,叫做“天生快一生快”,同时承诺消费者“18 个月不卡顿”,这个当时看似“吹牛”的承诺,今天已经成为现实。从市场反应和消费者反馈来看,在安卓阵营里,华为手机率先甩掉了“卡顿”的帽子。

2018 年,谷歌将 F2FS 吸收到安卓原生版本中,所有安卓厂商因此受益,对安卓生态是很有价值的贡献。至今,谷歌的自研手机 Pixel 3 也使用了 F2FS 文件系统。

基于理性的技术判断和果断决策,让我们领先了所有安卓厂商一步。更难能可贵的是,为了实现安全替换,逼迫我们的团队没有退路地仔细分析了原生系统的底层,边战边练,让我们的团队积累了非常宝贵的经验,也尝到了深度优化安卓的甜头。第一道考题,我和软件团队初步获得了 CBG 管理团队的信任,有了一个好的起点。

走向生态协同的“深水区”

在解决卡顿这个顽疾的过程中,我们就发现安卓生态的松散是一个挑战,这并不能通过技术来解决,但又和用户体验息息相关。

相较于 iOS 对生态的严格管控,安卓生态主要依赖玩家的自律自觉。打个不恰当的比方,安卓原生系统好比谷歌修好的一条高速公路,谷歌设想上路的自然是遵守交通规则的机动车,而实际情况却是,不但机动车上路了,各种牛车、马车、三轮车和行人都来了,加上没有交警(优先级调度系统)负责管理,拥堵就成了常态。

这种状况在国内尤甚。手机厂家不断投入的技术,只是把端侧的运行环境做得越来越高效、整洁。但应用市场的鱼龙混杂对用户体验影响巨大,各安卓手机厂家不仅拥有自家的应用市场,还有种类繁多的第三方应用市场,再加上通过浏览器链接就能下载安装 App,还有各种木马 App、恶意软件,互相引导安装、伪装后台、无限制申请手机系统资源等,带来的问题就是 Apps 对安卓系统资源的使用极不规范,甚至是恶意使用。

“病从口入”,导致的结果就是,用户体验不断受损。华为面临一个选择,是随大流,还是牵头竖起大旗,联合重量级生态玩家,逐步规范、净化安卓生态,把优质的体验还给消费者?仅仅依靠手机厂家自身的持续技术投入和优化已然不够,走向生态协同的“深水区”是华为终端软件必须要迈出的一步。

经过大量的前期沟通讨论,2016 年 11 月 14 日,在上海的 Mate 9 系列发布会上,华为联合阿里巴巴、百度、腾讯、网易四家企业共同发起了安卓绿色联盟。作为一个开放的非盈利性组织,希望共同构建中国安卓绿色应用环境,打造安全、可靠、可信、健康的应用生态,把极致的应用体验带给消费者。

安卓绿色联盟成立后,集中发起厂家的经验和智慧,陆续推出了《安卓绿色联盟应用体验标准》的 1.0 和 2.0 版本,涵盖了应用安装与运行的兼容性、稳定性、安全、功耗和性能标准。同时发展会员企业超过 1000 家,覆盖 80% 的主流应用。

在安卓绿色联盟平台上,华为提供了超过 3 千台测试真机,免费向所有安卓应用开发者开放,只要远程登录,即可申请到相应的测试资源并执行测试;同时,华为把安卓最新版本的变化及时分享给国内开发者,大大提升了安卓应用在新版本上的适配效率。

对于通过了《安卓绿色应用体验标准》的应用打上“绿色应用”标记,让消费者在应用下载时对应用质量的了解一目了然,可以安心使用。通过 2 年多的协作,绿盟已帮助超过 20 万开发者进行免费测试、牵引 Top 3000 安卓应用降低了高功耗与权限滥用行为。消费者、应用开发者、互联网厂商和手机厂家都因此受益。整个安卓生态的参与者,都愿意在这个平台上共享经验、共同创新。2018 年还成立了 AI 开放生态合作、AI 安全设计方案、AR、游戏加速四大创新工作组。

我们将和伙伴一起把安卓绿色联盟持续的发展壮大下去,希望她能成为整个产业的一盏明灯,优胜劣汰,为所有安卓用户带来极致的应用体验。

“吓人”的 GPU Turbo 背后

2018 年 6 月,余总在北京发布“吓人的技术”GPU Turbo,不但引起了其他厂商对于“吓人”和“Turbo”的跟风,也在一些主要的科技论坛引起了关于背后技术的大讨论。

游戏产业在手机上的迅猛发展超乎很多人的预料,几乎一半以上的用户都是手游用户。早在 2016 年,国内的手游已经占据了游戏市场的半壁江山,而且如王者荣耀、吃鸡等“硬核化”游戏的普及,将游戏对于手机图形处理能力的要求推向了前所未有的高度。而受限于 ARM Mali GPU 的限制,在与其他顶级友商的 GPU 的 PK 中,华为手机用户对游戏体验的吐槽急剧增多。

手游的体验是不是只能依赖 GPU 的处理能力,或者类似某些所谓的游戏手机堆料来实现?能不能像整机性能一样通过软硬协同来优化?这些问题进入了我们的视野。说干就干,相关工作马上开始启动。

2017 年 2 月,我们发起了一场中西合璧的针对手机图形处理性能的攻关。虽然新加入的海外图形处理专家给出了很有价值的思路,但是整个攻关过程并非一马平川。其中经历了无数次尝试、接近、又推倒重来的过程。“胜则举杯同庆,败则拼死相救”,来自美国、芬兰、俄罗斯和深圳、杭州、南京、上海的相应领域专家们,不论部门,不分昼夜,最终达成了预期的目标。

当最后我们说出 GPU Turbo 可以提升游戏性能的同时降低功耗,业界开始是一片质疑,都觉得这个逻辑违反常理。但我们有充足的底气,从 GPU Pipeline(处理队列)、CPU/GPU 联合调度,到 OPEN GL(开放图形库)各指令的详细解读和细致调整,再到图形处理引擎的重构和应用负载的清洗,完整的全栈分析和解决方案,让我们有足够的技术自信,敢于公开我们的目标和承诺。

6 月 6 日,发布会现场,知名技术平台现场直播搭载 GPU Turbo 的荣耀 Play 和其他友商手机的同款游戏对决。在帧率、抖动率、掉帧、耗电等硬指标上,荣耀 Play 获胜!一个多小时的实时对战,让业界见识了 GPU Turbo 的实力。GPU Turbo 上市之后的反响超出预期,而各种第三方自发的评测也证实华为手机坐稳了游戏性能的第一阵营。

任何成功的背后,都是艰辛和汗水,所有参与 GPU Turbo 项目的研发弟兄们,经历过多少个不眠之夜已经记不得了。而我们始终牢记,潜心投入技术,聚焦提升用户体验,才是持续改变用户观念,提升品牌与口碑的王道。

软件工程里的“硬核”技术

2018 年 7 月初,GPU Turbo 上市的余热还未散去,忽然一起用户投诉引起了维护与营销团队的注意。相当多的用户在升级 GPU Turbo 之后,随着某款热门游戏的一次更新,不少场景出现了花屏。由于涉及华为和游戏厂商,究竟是谁的问题,中间是不是有什么故事,迅速成为媒体热炒的内容,一时间各种说法纷至沓来。

尽管声音很多,但对我们来说,用户的体验才是最重要的。仅仅 2 天之后,EMUI 团队把 2MB 左右的补丁包快速推出,迅速解决了问题。我们的快速反应能力,受到了广大消费者几乎一致的好评。

这种快速的补丁升级能力,在终端领域,华为是独有的,其他安卓厂家并不具备。这背后,是 EMUI 团队这几年持续构筑的软件工程能力:代码共主干、全栈架构解耦、版本自动化生成三个硬核能力。

工欲善其事必先利其器,软件工程能力是软件研发的“器”。强大的软件工程能力是软件研发的重要组成部分,也是软件研发的硬核技术。

三年多以前的 EMUI,基于海思 Kirin、高通、MTK 芯片的主干各不相同。主干只是物理上的代码仓库,质量基本没有保证。各产品版本都是从主干拉出的分支,相关特性都是靠产品经理和开发代表手工挑出来,效率极为低下,质量无从保证。从单产品看似乎很“高效”,但各产品功能特性的一致性,质量的可继承性几乎很难做到,没有一款存量机型能够全网升级新版本。这致使整个软件团队工作量很大,但重复低效且没有继承性,令团队人困马乏,根本无法应对即将到来的海量交付。

从 EMUI5.0 版本立项开始,交付采用了全解决方案运作模式,将用户交互、OS(操作系统)、海思、通信协议、安卓原生多个模块纳入统一规划,同源设计、同源开发、同源测试。解决方案依赖关系识别好、管理好,计划对齐。同时定下海思 Kirin、高通共主干目标(MTK 平台 2018 并入主干,至此,华为 EMUI 一条主干兼容三大硬件平台),代码合入主干严格受控、质量优先,保证了主干的代码质量。各产品不再需要拉分支,到发布的点直接按对应的产品出版本即可。主干版本每周可实现一轮全量的自动化测试,质量越来越好,交付也越来越高效,并且这个能力可持续传承。共主干的实现,虽然让产品线和软件研发团队都受到了不少“折磨”,但今天的收益让所有的痛苦都变得很值得。

架构是软件的骨架,是软件团队共同工作的基础和统一语言。EMUI 基于安卓原生系统,总代码行数过亿,几乎是无线产品线产品代码行数的两倍。这么大规模的代码,每年都要做大版本升级,而且安卓原生代码每年的更改量和新增量都超过上千万行。架构的模糊和耦合,让新增功能的开发,现有功能的修改和变更,甚至 BUG 的修复都极其痛苦,血肉骨架混作一团,牵一发而动全身。这样的系统其实已经很难维护和持续开发。架构的选择和解耦成为不得不做的事情。

特别感谢余总和手机产品线总裁何刚的支持和信任,在人力资源有限的当时,允许我拿出 40% 的人力开始了 EMUI 全栈的架构解耦和重构。架构部担起这个历史使命,由软件的 8 级专家胡征挂帅开始了三年多的架构解耦工作,多次的研讨和激烈争论,终于让这项工作在过去的几年持续了下来,并对今天 EMUI 的交付效率和质量,做出了巨大贡献。一个清晰可解耦的架构,是软件团队内部的统一工作基础,也是我们与业界合作的共同语言,让我们“抽屉式”替换相应的安卓组件成为可能。这也是过去几年,EMUI 可以快速实现替换文件系统、智能调度系统、实现全栈补丁的基础。谷歌新版本也在吸纳我们的优秀实践。全系统解耦的能力上,我们走在了业界最前沿。

EMUI 从紧耦合走向共主干全解耦

最后是版本的自动生成能力。手机版本需求复杂,有公开渠道、运营商渠道等各个不同版本。加上高、中、低档机一组合,每年发布的版本有上万个。版本管理和发布都极其复杂。CBG 软件团队自行开发的 CCM(版本自动编译配置平台)为这个问题的解决立下汗马功劳。公开市场、运营商市场、不同国家、不通过配置等都抽象为一个个可配置的参数,总参数量几千个。需要出版本的时候,根据目标市场的需求,选定和修改相应的配置后,一键配置下发,即可生成对应的版本。整个过程高效、高质量。这套系统上线以来,我们节省了 200+ 的软件配置人力,一直是零差错平稳运行。

目前,EMUI 日活用户已接近 5 亿。每个新版本的发布,除了支撑新机上市外,越来越多的机型可以同时升级,让广大消费者获得了直接收益,我们也越来越多地获得了消费者的支持和认可。

学习互联网的开发效率也注重平台软件的经验积累

近几年在软件开发领域,互联网化和 DevOps 等是非常热门的话题。我想谈一下在 EMUI 软件研发实践中的一些体会。EMUI 全栈包括了 APPs、中间件和 OS 底层。如果一概要求研发人员必须年轻,并且必须放弃 IPD 而采用互联网的迭代方式,这种做法不尽合理,容易误导团队和领导对 EMUI 软件研发的认知。

在软件工程能力如共主干、架构解耦不具备之前,片面地去执行年轻化和迭代开发,那将是一场灾难。上层 APPs 需要年轻人和快速迭代是对的,但中间件和 OS,需要的是经验第一,创新第二。没有多年的经验,不可能做好底层软件。没有好的底层,上层的应用体验也不会好到哪里去。

EMUI 架构完全解耦的今天,APPs 已经完全脱离 EMUI 平台独立发展,而且架构解耦的思想也落实到了 APPs 开发和实现中,实现了自主规划、开发和交付上架,以及全功能团队的快速迭代,这是非常接近于互联网化的开发模式。而 EMUI 基础平台,仍基于 IPD 流程,扎扎实实按计划持续开发积累,把质量做到最佳。全面 Copy 互联网,认为谈 IPD 而不谈 DevOps 就是落后的代表,是一种误导。IPD 也好,DevOps 也好,其实都是工具,关键是要准确把握业务诉求,根据业务特点选择最适宜的模式和工具。

结语

进入 2019 年,随着换机周期的拉长和增速的放缓,手机行业进入到了饱和竞争的状态。在硬件已极具竞争力并逐步甩开对手的基础上,华为软件已经开始持续发力,软硬件紧密配合,将使华为终端的竞争力源源不断,我们有理由对华为终端的未来充满期待!

始终聚焦用户体验,夯实底层核心能力,不断提高软件工程能力,构筑开放生态,我们有信心将 EMUI 打造为华为手机的硬实力。用户体验的提升与创新之路,永无止境。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注