Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Analyse : indicateur Fraicheur avec rebond immédiat 0% à 100% #4182

Open
cyrilmorin opened this issue Sep 12, 2024 · 4 comments
Open

Analyse : indicateur Fraicheur avec rebond immédiat 0% à 100% #4182

cyrilmorin opened this issue Sep 12, 2024 · 4 comments
Assignees
Labels
qualité des ressources scores Scores attribués aux jeux de données

Comments

@cyrilmorin
Copy link

Hello,

J'ai juste un doute sur le comportement de la courbe pour le dataset de Nemus - Flers.
L'indicateur étant sensé prendre en compte l'histoire pour remonter progressivement, je me demande ce qui a provoqué ce rétablissement spectaculaire :)
{81FD191C-081E-4842-BBB9-AB6C469B9806}

L'objectif est de voir
1- Si une action d'administration en est la cause et donc à faire en connaissance de cause et/ou avec précaution (ex :modification url, suppression dataset, lié au moissonage ...)
2- Si c'est provoqué par un comportement automatique et lié au calendrier scolaire un peu spécifique avec une période d'arrêt totale.
3- Si c'est OK ou NOK par rapport à l'algo

Je le tag en bug dans le doute et je vous laisse le requalifier si besoin !

Merci

@cyrilmorin cyrilmorin added bug Un truc pas normal qui pose problème qualité des ressources labels Sep 12, 2024
@AntoineAugusti AntoineAugusti added the scores Scores attribués aux jeux de données label Sep 12, 2024
@AntoineAugusti AntoineAugusti self-assigned this Sep 12, 2024
@AntoineAugusti
Copy link
Member

@cyrilmorin Hello Cyril, merci pour le cas intéressant ! J'ai ajouté 🏷️ scores utile pour ces cas.

Voici les résultats de l'investigation.

Historique des scores

Le score de fraicheur donne ceci entre le 2024-08-15 et le 2024-09-05.

score timestamp
1 2024-09-05 16:00:25.950245
1 2024-09-04 16:00:29.556187
1 2024-09-03 16:00:33.95089
1 2024-09-02 16:00:32.522505
2024-09-01 16:00:27.235871
2024-08-31 16:00:33.219222
2024-08-30 16:00:27.63619
2024-08-29 16:00:28.026703
2024-08-28 16:00:33.810324
2024-08-27 16:00:34.109064
2024-08-26 16:00:39.532536
2024-08-25 16:00:44.800743
2024-08-24 16:00:42.627477
2024-08-23 16:00:46.834102
2024-08-22 16:00:50.853863
2024-08-21 16:00:45.005093
0.00785516721127895 2024-08-20 16:00:48.450497
0.008727963568087723 2024-08-19 16:00:46.703367
0.009697737297875247 2024-08-18 16:00:43.08895
0.01077526366430583 2024-08-17 16:00:41.542496
0.011972515182562033 2024-08-16 16:00:45.080257
0.013302794647291147 2024-08-15 16:01:27.817739

Modification du GTFS

Le GTFS scolaire a été modifié le 2024-08-21 avec les informations suivantes.

{"resources": [{"format": "GTFS", "freshness": null, "metadata_id": 1407519, "raw_measure": {"end_date": "2025-07-04", "start_date": "2024-09-02"}, "resource_id": 82094, "metadata_inserted_at": "2024-08-21T11:57:26.831086Z"}], "today_score": null, "previous_score": null}

Date de validité du GTFS dans le futur (2024-09-02) et donc le score de fraicheur attribué est null.

Utilisation du score précédent

Il se trouve qu'on utilise le précédent score si seulement celui-ci est relativement récent (maximum de 7 jours).

@spec last_dataset_score(integer(), atom()) :: DB.DatasetScore.t() | nil
def last_dataset_score(dataset_id, topic) do
# if a previous score exists but is too old, it is not used
max_last_score_age_days = 7
DB.DatasetScore.base_query()
|> where(
[ds],
ds.dataset_id == ^dataset_id and ds.topic == ^topic and not is_nil(ds.score) and
fragment(
"DATE(?) < CURRENT_DATE AND DATE(?) > CURRENT_DATE - ?::integer",
ds.timestamp,
ds.timestamp,
^max_last_score_age_days
)
)
|> order_by([ds], desc: ds.timestamp)
|> limit(1)
|> DB.Repo.one()
end

Conclusion

Le GTFS du réseau scolaire a expiré en fin d'année scolaire. Le score de fraicheur est tombé à 0 progressivement. Le 2024-08-21 le GTFS a été remplacé avec un fichier diffusant l'offre scolaire de la rentrée 2024. Le score de fraicheur assigné est alors à null (calendrier de validité dans le futur). Ce score a été attribué pendant plus d'une semaine, ainsi le précédent score a été oublié pour la suite.

Questions

  • Doit-on modifier des éléments du calcul ?
  • Le graphique semble induire en erreur, peut-être voir pour indiquer clairement quand un score est null et non avoir une continuité de la série ?

@AntoineAugusti AntoineAugusti removed the bug Un truc pas normal qui pose problème label Sep 12, 2024
@cyrilmorin
Copy link
Author

Top merci pour cette analyse !
Je te propose de digérer tout ça et de voir ensemble pour trouver la meilleure solution et voir si c'est si grave d'ailleurs ...

@ptitfred
Copy link
Contributor

  • Le graphique semble induire en erreur, peut-être voir pour indiquer clairement quand un score est null et non avoir une continuité de la série ?

ça me semble une bonne idée

@AntoineAugusti
Copy link
Member

ça me semble une bonne idée

fait dans #4185

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
qualité des ressources scores Scores attribués aux jeux de données
Projects
None yet
Development

No branches or pull requests

3 participants