Méfiez-vous des repères, comment savoir ce qu'il faut chercher

CrazyBench3000

En tant que disciples régulières du monde merveilleux d'Android, vous avez probablement regardé par de nombreux points de repère déjà cette année, surtout quand il vient à empiler de nouveaux dispositifs en place un contre l'autre. Cependant, après de nombreux scandales, des résultats étranges et la nature fermée de nombreux outils de benchmarking, beaucoup sont sceptiques quant à leur valeur réelle. À Tech Day la semaine dernière d'ARM, nous avons eu droit à discussion intéressante sur le thème de l'analyse comparative et une discussion animée a suivi, et nous pensons que la plupart des points soulevés valent bien le partage.

Repères comme un outil

Il ya beaucoup de points de repère là-bas, à la recherche de marquer tout de CPU et les performances du GPU à la vie de la batterie et la qualité d'affichage. Après tout, si nous bombardements des centaines de dollars pour un morceau de la technologie, il vaut mieux bien performer.

Cependant, il est assez largement admis que des tests comparatifs ne reflètent pas souvent précision applications du monde réel. Même ceux qui tentent d'imiter les exigences d'un utilisateur moyen ne suivent pas toujours les méthodes particulièrement scientifiques et reproductibles. Permettez-moi de partager quelques exemples.

Benchmark vs Real World

Le graphique ci-dessus, dépouillés par ARM, montre la bande passante de calcul et de mémoire requise par un certain nombre de repères Android populaires, une sélection de jeux 2D et 3D disponibles sur le Play Store, et les exigences générales de l'interface utilisateur. Les lignes montrent la tendance générale de chaque groupe, en fonction de si elles sont penchés plus vers la bande passante ou de calcul des charges de travail. Plus sur cela dans une minute.

De toute évidence, la majorité des indices de référence sont l'essai du matériel bien au-delà de tout ce que les utilisateurs l'expérience avec une application réelle. Seulement trois ou quatre tombent dans le groupe de jeux 3D réelles, faisant le reste pas utile si vous voulez savoir comment bien votre nouveau téléphone ou tablette feront face dans le monde réel. Il ya des suites basé sur un navigateur que peuvent varier considérablement en fonction de rien de plus que le code et d'autres du navigateur sous-jacente qui dépasse de loin la capacité de la bande passante de la mémoire de la plupart des appareils. Il est difficile de trouver beaucoup qui ressemblent étroitement à un scénario monde réel.

Mais supposons que nous voulons juste de comparer les performances de pointe potentiel de deux ou plusieurs dispositifs, applications pourrait toujours devenir plus exigeants à l'avenir à droite? Eh bien, il ya un problème avec ce trop - le désengorgement et la simulation des charges de travail plus élevées.

En regardant le graphique à nouveau, nous voyons un certain nombre de tests poussant la bande passante mémoire maximale, mais ceci est le plus grand goulot d'étranglement en termes de performances mobiles. On ne va pas pour voir des résultats précis pour métrique de performance A si le système est un goulot d'étranglement par des vitesses de mémoire. La mémoire est aussi une énorme consommation de la batterie, il est donc difficile de comparer la consommation d'énergie sous diverses charges si elles sont toutes différentes demandes faisant sur la mémoire.

Samsung Galaxy AnTuTu de l'indice de référence

Les scores Galaxy S6 très en Antutu, mais qu'est-ce que ce score effectivement vous dire à propos de la performance?

Pour essayer de contourner ce problème, vous verrez que certains repères répartition des charges de travail en place pour tester les différentes parties, mais alors ce ne est pas particulièrement bonne vue de la performance du système dans son ensemble.



En outre, comment vous allez précisément la prévision et la simulation de la charge de travail qui sont plus exigeants que ce qui est déjà là-bas vous? Quelques benchmarks 3D jettent une tonne de triangles dans une scène pour simuler une charge plus lourde, mais les GPU ne sont pas conçus pour que ce seul type de charge de travail. Dans ce genre de situation, les résultats sont potentiellement testent un attribut particulier d'un GPU ou CPU plus que l'autre, qui sera bien entendu produire des résultats très différents de d'autres tests et peuvent varier considérablement pour les différents morceaux de matériel. Il est tout simplement pas aussi fiable qu'une charge de travail réelle du monde, qui est ce que les processeurs mobiles sont conçus pour, mais les tests des jeux de base ne nous donnent pas toujours une bonne indication de la performance de pointe.

Luminosité couleur et Consommation

Même si nous Chuck analyse comparative sur les suites de la fenêtre on se retrouve avec des problèmes quand il vient à l'exécution de test en utilisant des jeux et des charges existantes. La luminosité de l'écran peut avoir un effet énorme dans les tests de la batterie et non pas les 0% paramètres sont les mêmes et en cours d'exécution différentes vidéos peuvent même avoir un effet sur la consommation d'énergie, en particulier avec un écran AMOLED. Scénarios de jeu peuvent varier d'un jeu à travers à jouer mais, surtout dans les jeux avec la physique dynamique et gameplay.

Comme vous pouvez le voir, il ya beaucoup de place pour la variance et des tas de choses possibles que nous pouvons tester.

Le problème avec les numéros

Malheureusement, le test est rendue encore plus compliquée par les résultats de pointage simples et "boîte noire" des méthodes d'essai qui nous empêchent de savoir ce qui se passe réellement.

Comme nous l'avons mentionné auparavant, si nous ne savons pas exactement ce qui a été testé, nous ne pouvons pas vraiment porter un score aux différences matérielles entre les produits. Heureusement, certains repères sont plus ouverts que d'autres sur ce qu'ils testent exactement, mais même alors, il est difficile de comparer les essais A à essai B pour une image plus complète.

Sans compter que le recours croissant aux numéros indépendants a conduit à entreprises qui tentent de jeu, les résultats, en augmentant la vitesse et l'optimisation pour les scénarios de test populaire. Pas trop long il ya des entreprises ont été pris hors de surcadençage leurs parties tandis repères couraient et des logiciels malheureusement est toujours ouverte à la ruse.

AnTuTu haut GPU Q1 2,015

Repères ne peut pas nous donner une représentation précise des différences de rendement réel, mais peut être un guide utile pour les classements bruts.

Cela est certainement pas un problème uniquement lié à étalonnage des logiciels, mais il est plus difficile pour les entreprises à tirer avec soulignant leur matériel lorsque les consommateurs pourraient être en cours d'exécution d'un jeu ou d'une tâche pour une longue période de temps. Cependant, il ya toujours des problèmes avec les tests du «monde réel» aussi. FPS pour les jeux est un score trop généralisée, il ne nous renseigne pas sur la stimulation de cadre ou le bégaiement, et il est toujours la quantité d'énergie consommée à considérer. Est-il utile de saisir un score de 60.000 AnTuTu si votre batterie draine plat dans moins d'une heure?

La situation est désespérée?

OK, donc jusqu'à maintenant, je l'ai été plutôt négatif à propos de repères, ce qui est peut-être pas vraiment juste. Bien qu'il y ait des problèmes avec l'analyse comparative, il n'y a pas vraiment une alternative, et aussi longtemps que nous sommes conscients des lacunes alors nous pouvons être exigeants sur les résultats et les méthodes que nous basons sur des avis.



Un échantillon sain de scores d'une variété de sources est un bon endroit pour commencer, et, idéalement, nous prenons dans un mélange de santé de performances poussant repères, comprendre les faiblesses matérielles, et couronner le tout avec un bon échantillon de tests du monde réel reproductibles. Nous devons toujours nous rappeler que la consommation d'énergie est l'autre moitié de l'argument. Les utilisateurs mobiles déplorent constamment vie de la batterie encore exigent des dispositifs toujours plus rapides.

En fin de compte, nous devons prendre dans un bon échantillon des résultats, à partir d'une variété de sources et types de test et de les combiner pour former l'évaluation la plus précise de la performance d'un périphérique.

Elephone-P6000-GameBench-Riptide

Une lumière possible dans ce domaine ailleurs sombre et glauque est GameBench. Plutôt que de créer des tests artificiels, GameBench utilise les jeux et les applications du monde réel pour juger de la performance d'un dispositif. Cela signifie que les résultats reflètent réellement ce que les utilisateurs réels avec de vrais applications. Si vous voulez savoir si Riptide GP2 fonctionnera mieux sur le téléphone X ou Y téléphone, puis GameBench peut dire. Cependant, il ya certains tirage dos. Comme je l'ai mentionné ci-dessus, les tests de gameplay ne sont pas reproductibles. Si je joue un jeu pendant 20 minutes et de garder à défaut d'obtenir à la fin du niveau 1, puis les résultats seront différents de jouer les niveaux 1 à 5 dans le même laps de temps. Aussi, pour la version gratuite, au moins, les principales mesures est images par seconde, ce qui est pas utile. Cependant sur le côté positif, GameBench mesure automatiquement la vie de la batterie. Cela signifie que si le téléphone X joue Riptide GP2 à 58 fps pendant 2,5 heures, mais le téléphone Y joue à 51 fps pendant 3,5 heures, puis je choisirais téléphone Y, même si son fps est légèrement inférieure.

Benchmarking comme un pro

Si vous voulez un exemple extrêmement détaillée du benchmarking précis, Rod Watt ARM nous a pris par son impressionnante test configuration, ce qui implique dépouillant le téléphone et fait la soudure dans certaines résistances de détection de courant au circuit intégré Power Management (Les PMICs) afin qu'il puisse précision mesurer la puissance consommée par chaque composant pendant l'essai.

Benchmark comme un pro

De ce type de configuration, il est possible de produire des résultats détaillés sur exactement ce composant est le dessin d'alimentation au cours de type différent de tests et de la quantité d'énergie consommée par chaque composant.

Si le jeu est le bégaiement ni épuiser la batterie, nous pouvons voir exactement combien de puissance est en cours d'élaboration par chaque composante, pour mieux accéder au travail effectué par le CPU ou GPU par rapport à d'autres tests, ou si l'écran est de sucer le bas tout le jus.

Les résultats détaillés de puissance de référence

Même si cela peut ou peut ne pas être exactement ce que vous cherchez dans un rapide comparaisons de référence, il va juste pour montrer le niveau de détail et de précision qui peut être obtenue en allant au-delà de la simple comparaison des nombres égrenée par une suite de tests.

Où vous situez-vous sur la question de l'analyse comparative? Sont-ils complètement inutile, semi-utile, ou faites-vous vos décisions d'achat basée presque exclusivement sur eux?




» » » Méfiez-vous des repères, comment savoir ce qu'il faut chercher