Hacia una nueva dimensión del montaje cinematográfico: explorando las posibilidades de la inteligencia artificial

Main Article Content

Jorge Caballero
https://orcid.org/0009-0009-3535-8866

El montaje cinematográfico es un proceso esencial en la creación de películas que permite manipular el tiempo, el espacio y la composición de la imagen para dar forma a un relato cinematográfico. Con el surgimiento de los modelos de aprendizaje profundo (deep learning) e inteligencia artificial (IA), se abren nuevas posibilidades de exploración en el montaje cinematográfico, transformando significativamente los procesos de edición y proponiendo nuevas metodologías de trabajo. Este artículo analiza cómo la implementación de sistemas basados en IA puede automatizar procesos, mejorar la eficiencia en la producción cinematográfica y abrir nuevas vías de experimentación y creación artística. Se exploran casos de estudio en la comprensión y generación de contenido audiovisual, como el proyecto experimental Blink de Adobe, el proyecto de generación de vídeo destacado de momentos fotogénicos y la propuesta de edición en el espacio latente. Además, se discute cómo la incorporación de interfaces generosas puede permitir una interacción más intuitiva y natural con el material audiovisual en el ámbito del montaje cinematográfico. Por último, se examina el potencial de modelos de generación automática de videos, como Phenaki de Google y Gen de Runway, en la expansión de la lógica del montaje hacia prácticas generativas y la creación de contenidos faltantes o pertinentes para las obras audiovisuales.

Palabras clave:

Cine, Películas, Inteligencia Artificial, IA, Edición, Montaje

Article Details

Cómo citar
Caballero, Jorge. «Hacia una nueva dimensión del montaje cinematográfico: explorando las posibilidades de la inteligencia artificial». Hipertext.net, n.º 26, pp. 53-58, doi:10.31009/hipertext.net.2023.i26.08.
Biografía del autor/a

Jorge Caballero, Universitat Pompeu Fabra

Jorge Caballero. Es ingeniero técnico de telecomunicaciones y comunicador audiovisual con una maestría en medios interactivos. Adelanta un doctorado en cine e inteligencia artificial. Imparte clases en universidades como la Pompeu Fabra y la Autónoma de Barcelona. Es miembro del comité de selección del IDFA Bertha Fund y fundador de la productora GusanoFilms. Ha trabajado en una serie de realidad virtual con la ONU y ha realizado diversos estudios sobre el poder del cine para promover cambios de comportamiento pro-sociales. Ha dirigido y producido películas y proyectos digitales seleccionados en festivales como HotDocs, Málaga, Docsbarcelona, SXSW o DocNYC, entre muchos otros. Ganador en dos ocasiones del Premio Nacional de Documental en Colombia. Ha sido becario del Sundance Institute. Variety lo nombró uno de los 10 productores en alza en Cataluña en 2020. Su trabajo ha sido respaldado por Tribeca FI, Discovery, Arte, TV3 o Ibermedia, entre otros.

Citas

Adobe Labs. (n.d). Project Blink. AI-powered video editing on the web. https://labs.adobe.com/projects/blink

Amirian, S., Rasheed, K., Taha, T. R. y Arabnia, H. R. (2020). Automatic image and video caption generation with deep learning: A concise review and algorithmic overlap. IEEE Access, 8, 218386–218400. https://doi.org/10.1109/access.2020.3042484

Bordwell, D. y Thompson, K. (2013). The relation of shot to shot: Editing. En: Bordwell, D., Thomson, K. y Smith, J. (eds.), Film Art: An Introduction, (pp. 216–62). McGraw Hill.

Bouaafia, S., Khemiri, R., Messaoud, S., Ahmed, O. B. y Sayadi, F. E. (2021). Deep learning-based video quality enhancement for the new versatile video coding. Neural Computing and Applications, 34(17), 14135–14149. https://doi.org/10.1007/s00521-021-06491-9

Chen, B., Ziai, A., Tucker, R. y Xie, Y. (2022). Match Cutting: Finding Cuts with Smooth Visual Transitions. arXiv.org. https://doi.org/10.48550/arXiv.2210.05766

Elsaesser, T. y Buckland, W. (2002). Studying contemporary American film: A guide to movie analysis. Arnold.

Esser, P., Chiu, J., Atighehchian, P., Granskog, J. y Germanidis, A. (2023). Structure and Content-Guided Video Synthesis with Diffusion Models. arXiv.org. https://doi.org/10.48550/arXiv.2302.03011

Furstenau, M. (2018). Film Editing, Digital Montage, and the “Ontology” of Cinema. Cinémas, 28(2-3), 29–49. https://doi.org/10.7202/1067492ar

Gillespie, T. (2020). Content moderation, AI, and the question of scale. Big Data & Society, 7(2). https://doi.org/10.1177/2053951720943234

Gibbs, J.L. (2018). Video Color Grading via Deep Neural Networks. IADIS International Journal on Computer Science and Information Systems, 13(2), 1–15. https://www.iadisportal.org/ijcsis/vol13_numb2.html

Gu, J., Wang, Z., Kuen, J., Ma, L., Shahroudy, A., Shuai, B., Liu, T., Xingxing Wan, X., Wang, G., Cai, J. y Chen, T. (2018). Recent Advances in Convolutional Neural Networks. Pattern Recognition, 77, 354–77. https://doi.org/10.1016/j.patcog.2017.10.013

Guo, Y., Liu, Y., Georgiou, T. y Lew, M. S. (2018). A Review of Semantic Segmentation Using Deep Neural Networks. International Journal of Multimedia Information Retrieval, 7, 87-93. https://link.springer.com/article/10.1007/s13735-017-0141-z

Grossberg, S. (2013). Recurrent Neural Networks. Scholarpedia, 8(2), (2013): 1888. https://doi.org/10.4249/scholarpedia.1888

Jiang, P., Ergu, D., Liu,F., Cai, Y. y Ma, B. (2022). A review of Yolo algorithm developments. Procedia Computer Science, 199, 1066–1073. https://doi.org/10.1016/j.procs.2022.01.135

Joel, B., Agarwala, A., Dontcheva, M., Popovic, J., Kim, J., Shin, V., Li, D., Bai, X., Wang, J-H., Deilamsalehy, H., Fraser, A., Salamon, J., Karahalios, K., Cai, H., Nathani,P., Truong, A., Xu, E., Pimmel, K., Syed, M. y Ma, R. (2023, March 20). Project blink: Creating the future of AI-powered video editing, Adobe Research. https://research.adobe.com/news/project-blink-creating-the-future-of-ai-powered-video-editing

LeCun, Y., Bengio, Y. y Hinton, G. (2015). Deep learning. Nature, 521, 436–44. https://doi.org/10.1038/nature14539

Lew, M. S., Sebe, N., Djeraba, C. y Jain, R. (2006). Content-based multimedia information retrieval: State of the art and challenges. ACM Transactions on Multimedia Computing, Communications, and Applications, 2(1), 1–19. https://doi.org/10.1145/1126004.1126005

Li, S., Chen, J., Shen, Y., Chen, Z., Zhang, X., Li, Z., Wang, H., Qian, J., Peng, B., Mao, Y., Chen, W. y Yan, X. (2022). Explanations from Large Language Models Make Small Reasoners Better. arXiv.org. https://arxiv.org/abs/2210.06726

Lin, D. C-E., Heilbron, F. C., Lee, J-Y., Wang, O. y Martelaro, N. (2022a). VideoMap: Video Editing in Latent Space. arXiv.org. https://arxiv.org/abs/2211.12492

Lin, D. C-E., Heilbron, F. C., Lee, J-Y., Wang, O. y Martelaro, N. (2022b). Videogenic: Video Highlights via Photogenic Moments. arXiv.org. https://doi.org/10.48550/arXiv.2211.12493

Meng, S. (2022). Exploring in the Latent Space of Design: A Method of Plausible Building Facades Images Generation, Properties Control and Model Explanation Base on StyleGAN2. En P. F. Yuan, H. Chai, C. Yan y N. Leach (Eds.), Proceedings of the 2021 DigitalFUTURES. CDRF 2021. https://doi.org/10.1007/978-981-16-5983-6_6

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G. y Sutskever, I. (2021). Learning Transferable Visual Models from Natural Language Supervision. arXiv.org. https://doi.org/10.48550/arXiv.2103.00020

Samuel, A. L. (1959). Some Studies in Machine Learning Using the Game of Checkers. IBM Journal of Research and Development, 3(3), 210–29. https://doi.org/10.1147/rd.33.0210

Singer, U., Polyak, A., Hayes, T., Yin, X., An, J., Zhang, S., Hu, Q., Yang, H., Ashual, O., Gafni, O. y Parikh, D. (2022). Make-a-video: Text-to-video generation without text-video data. arXiv.org. https://doi.org/10.48550/arXiv.2209.14792

Tsivian, Y. (2015). Montage Theory I: (Hollywood Continuity). En E. Branigan y W. Buckland (Eds.), The Routledge Encyclopedia of Film Theory (pp. 306-313). Routledge.

Villegas, R., Babaeizadeh, M., Kindermans, P-J., Moraldo, H., Zhang, H., Saffar, M. T., Castro, S., Kunze, J. y Erhan, D. (2022). Phenaki: Variable Length Video Generation from Open Domain Textual Description. arXiv.org. https://arxiv.org/abs/2210.02399

Wiley, V. y Lucas, T. (2018). Computer Vision and Image Processing: A Paper Review. International Journal of Artificial Intelligence Research 2(1), 28-36. https://doi.org/10.29099/ijair.v2i1.42

Zhang, J. (2019). Analysis on the Application of Editing Skills in Film and Television Creation Teaching. Proceedings of the 3rd International Conference on Culture, Education and Economic Development of Modern Society (ICCESE 2019). https://doi.org/10.2991/iccese-19.2019.66